• 设为首页
  • 点击收藏
  • 手机版
    手机扫一扫访问
    迪恩网络手机版
  • 关注官方公众号
    微信扫一扫关注
    迪恩网络公众号

Bagging算法的R语言实现

原作者: [db:作者] 来自: [db:来源] 收藏 邀请

bagging 是bootstrap aggregating的缩写,是第一批用于多分类集成算法。

bagging算法如下:

循环K次,每次都从样本集D中有放回地抽取样本集Di,这样总共得到k个样本集,用这K个样本集进行决策树生成,获得K个决策树模型,再将要检测的数据用这K个决策树模型进行多数表决,获得票数多的结论。

这种思想跟现代民主投票制度如出一辙,一个人再厉害,判断力也是有限的,但是把一群人聚合在一起投票,那单个人所犯错误的概率就会被抵消,最后得出结论的正确性会明显优于单个人做出决策。

个人认为其算法倒是并不复杂,主要还是内部决策树的实现。R语言提供了很强大的包实现该算法。R语言中用于bagging算法实现的是ipred包。

1、首先安装ipred包。这个不复杂,就不介绍了(如果这个不会,还是先从头开始学习R吧)

2、谷歌的结果好像不是很理想,所以安装完之后还是查看下帮助文档吧。  命令:help(package=”ipred”),找到bagging函数的使用

3、可以看到bagging函数有多种调用方式

## S3 method for class 'factor'
ipredbagg(y, X=NULL, nbagg=25, control=
                 rpart.control(minsplit=2, cp=0, xval=0), 
                 comb=NULL, coob=FALSE, ns=length(y), keepX = TRUE, ...)
## S3 method for class 'numeric'
ipredbagg(y, X=NULL, nbagg=25, control=rpart.control(xval=0), 
                  comb=NULL, coob=FALSE, ns=length(y), keepX = TRUE, ...)
## S3 method for class 'Surv'
ipredbagg(y, X=NULL, nbagg=25, control=rpart.control(xval=0), 
               comb=NULL, coob=FALSE, ns=dim(y)[1], keepX = TRUE, ...)
## S3 method for class 'data.frame'
bagging(formula, data, subset, na.action=na.rpart, ...)

由于本示例使用的是iris数据集,显然对应最后一种调用方式。

formula是数据模型,我们这边应变量是Species,所以数据模型就是Species~.了。

data就是所需数据集,这里是鸢尾花数据集iris

subset写着是可选参数(我也没看明白是啥参数,囧)

na.action=na.rpart  这个应该是指遇到空值或者异常值的处理办法,默认是rpart。想来也不用管那么多了

好了,调用下看看

model.bagging <- bagging(Species~.,data=iris) 这句就是根据语法说明写的,后面两句一般照抄就可以了,具体含义不在这里解释。

最终输出的是表格形式的,纵向表示三种花种的真实属类,横向表示采用决策树之后的预测属类。可以看到100%分类正确。

下图是用CART树做的预测结果,可以看到versicolor有5个归类错误,virginica一个归类错误,bagging完胜单独决策树


鲜花

握手

雷人

路过

鸡蛋
该文章已有0人参与评论

请发表评论

全部评论

专题导读
上一篇:
R语言之数据分析高级方法「时间序列」发布时间:2022-07-18
下一篇:
R语言核密度估计(转)发布时间:2022-07-18
热门推荐
热门话题
阅读排行榜

扫描微信二维码

查看手机版网站

随时了解更新最新资讯

139-2527-9053

在线客服(服务时间 9:00~18:00)

在线QQ客服
地址:深圳市南山区西丽大学城创智工业园
电邮:jeky_zhao#qq.com
移动电话:139-2527-9053

Powered by 互联科技 X3.4© 2001-2213 极客世界.|Sitemap