声明:本文是站在回归分析角度讲的,分类的理解可能跟这有点不一样。
1.前言
随机森林也是集成方法的一种,是对Bagging算法的改进。
随机森林主要有两步组成:
1)有放回的随机抽取样本数据,形成新的样本集。这部分和Bagging算法一样,但是有两点需要注意:
a)新的样本集的大小和原始样本集的大小是一样的。假如原始样本有1000个数据,那么新样本集也要包括1000个数据,只是新样本集里面会含有部分重复的数据,这样可以避免过度拟合的问题。
b)每生成一个决策树,都需要重新对原始数据进行取样。假如进行k次训练(即生成k课树),那么就需要重复k次这个动作
2)无放回的随机抽取属性列。假如有12个属性(即12列),从这12个属性列中随机抽取无重复的n列(一般建议是总属性的1/3)进行运算。每次训练都需要重新抽取
延伸阅读
- ssh框架 2016-09-30
- 阿里移动安全 [无线安全]玩转无线电——不安全的蓝牙锁 2017-07-26
- 消息队列NetMQ 原理分析4-Socket、Session、Option和Pipe 2024-03-26
- Selective Search for Object Recognition 论文笔记【图片目标分割】 2017-07-26
- 词向量-LRWE模型-更好地识别反义词同义词 2017-07-26
- 从栈不平衡问题 理解 calling convention 2017-07-26
- php imagemagick 处理 图片剪切、压缩、合并、插入文本、背景色透明 2017-07-26
- Swift实现JSON转Model - HandyJSON使用讲解 2017-07-26
- 阿里移动安全 Android端恶意锁屏勒索应用分析 2017-07-26
- 集合结合数据结构来看看(二) 2017-07-26