决策树与随机森林

飞马网于17月6日晚为大家邀请到魅族NLP算法工程师段喜平老师为大家分享决策树与随机森林方面的知识。

以下为今晚直播的全部内容:

决策树与随机森林


大家晚上好,今天给大家讲一下决策树和随机森林。

决策树与随机森林


首先讲一下基于树模型这个简介,它一般被认为是监督学习最好的而且是比较常用的方法之一,因为他的准确率很高且易解释。树模型和线模型各自有优缺点:如果自变量和因变量用线模型很好表达,那线性回归就会优于树模型;如果自变量和因变量比较复杂,那么树模型就会优于经典的回归方法,如果你要一个比较好解释的模型的话,决策树模型总会比线性模型更好。

常见的树模型一般是指决策树,经典算法有ID3、C4.5、CART。在这个基础上又有随机森林和GDB、XGBOOST。在整个学习过程中,决策树是整个关键,特征选择又是决策树中的重中之重。

以一个示例来说明决策树的过程。

首先把回归和分类两个问题说清楚。

回归一般是指预测具体的值,分类我们只需要知道类别。

这些就是在做算法是用到的特征,这就要用到取值,比如26岁,然后目标就是要不要见这个人。上图就是决策的整个流程。

在这个过程中,为什么先选择年龄作为首要参考,这涉及到树的划分问题。

树划分一般有四种方式:

决策树与随机森林


1、信息熵:信息论里面用来衡量不确定性的一个标准,熵越大,随机变量的不确定性越大。

举个例子:一个盒子里装哟红黑球,随机取出一个,判断球的颜色。

在判断时假如给出三条信息:盒子里全是红球(那么已经获得全部信息);盒子里红黑比例是3:1(这时候信息不完整,但能确定得到红球的比例更大);比例是1:1(得到的信息很少,不确定性很大).

对信息的定义:l(xi)=−log2p(xi)

对一个数据集来说,数据集有序程度是通过类别变量在整个数据集的频率决定的,加入数据样本有d个,类别有k个,ck表示样本个数,整训练集的为H(D),H(D)的公式就如图。

经验熵与条件熵:

信息熵是指随机变量的条件概率的log值

经验熵是随机变量x的信息期望值,在训练集上,经验熵类别的一个有序程度的度量。

条件熵是在给定随机变量x条件下,随机变量y的不确定。

2、吉尼系数

吉尼系数和信息增益都是先把数据集分成几个集合,然后分别计算每个集合的正负样本,也就是样本出现的频率。

3、卡方

4、方差

ID3和C4.5、CART

ID3和C4.5两个算法流程其实是一致的。

决策树与随机森林


在ID3里面是把信息增益作为选择特征的一个方法,首先对各个特征计算出条件熵,然后选择条件熵里面最大的特征最为第一个分割的条件,接着在生成的子数里面在选择一个特征作为第二个分割条件,这个数在满足条件的时候会停止分列,有以下几种情况:

第一种情况:如果这个集合里面全部都是正样本或者全部是同一类别的样本的时候,那么这个子集合就不用在继续分割了;

第二种情况:全部特征都用完了,

第三种情况:在计算信息增益的时候已经小于给定的阀指。

所以一棵决策树的生成就是先选择特征,以哪个特征作为优先分割条件,然后判断子集合里面是否还需要继续分割。

决策树与随机森林


ID3和C4.5的区别在于切分隔树的时候是采用信息增益率,如果采用信息增益率作为切割会倾向于选择那些特征值比较多的特征。

决策树与随机森林


CART算法跟ID3和C4.5最大的改进是作了二元分割法,它规定只是二叉树,在选择特征的时候起到的是差不多的,都能优先选择到同一个特征作为分割条件。我们如果生成了这棵树,有的时候在测试集表现的效果会非常差,最大的可能是发生了过拟合,解决过拟合的方法有两种:预剪枝(构建树的过程中,如果把一个子集点分裂,产生的收益是负值或比较小,就把这种分割提前终止,但不能排除后续的收益增大,可能会导致数据欠拟合)和后剪枝。

以上三者的主要区别在于特征分割的方式不同,还有对连续集和连续集的处理方式不同,以及构建树的方式不同。

随机森林

决策树与随机森林

采用多棵树的方式。随机体现在两个方面:一方面在选取样例的时候,从整个样本集里面随机抽取样本;另一方面,在选择特征的时候并不是采用所有的特征,从特征及里面选择一部分特征来构造每一棵树。

随机森林OOB估计

在选取样本的时候,针对每一棵树来说,不在这棵树的样本就成为这棵树的OOB样本,相对于单个CART树来讲具有更强的泛化能力,因为随机选取样本和部分特征的能力已经让它避免产生过拟合的情况。

例子:整个数据集分成两份:数据集+测试集

分割过程是从0—1的随机数进行划分,大于0.5 就作为预测集的样本,小于就作为训练集。

以上就是本次线上直播的主要内容,相信你对多轮对话系统有了一定的认识。想了解更多更详细内容的小伙伴们,可以关注服务号:FMI飞马网,点击菜单栏飞马直播,即可进行学习。


分享到:


相關文章: