机器不学习：从一棵决策树到xgboost

2018-08-28 06:58:46 i機器不學習

文章《有监督模型的两个最重要算法点》中讲到主要在于特征学习与数值优化两个点，最早的决策树则集中在特征学习这个部分。

① 决策树

网上决策树的教程很多，以下再进行傻瓜式剖析一下：

第一步，计算每个特征的纯度（纯度可以理解成此变量能区分事件的程度，例如信用卡领域：具有集团业务的人，越是可信之人。集团业务这个特征的纯度就很高），不同树的计算纯度的方法很多（信息增益等），计算纯度基础理论都是good/bad，比值越大，特征纯度越大。

第二步，最大特征形成顶点，第二大特征形成第二部分的叶子节点，最终形成树状结构，可以理解成最终根据多个纯度高的特征组合，判断样本是good或者bad，如下所示。

第三步，剪枝理论：减掉纯度低（对结果不会有很大影响）的特征，目的在于尽量减少特征依赖的数量，防止过拟合。

决策树是单一的特征学习

缺点：可能会对纯度高的特征非常依赖。导致人的行为变化，模型就会不稳定。因此，随机森林出现解决这一问题。

② 随机森林

随机森林可以理解成N个决策树的集成。每棵树都是随机（特征，样本数在总体样本中随机抽取）的。预测最终结果取N棵树的平均。

随机森林的每棵树都不一样，也保证不会对某些特征的依赖。

缺点：依然只用了特征学习，没有用到数值优化，因此，GBDT出现。

③ GBDT

g boost原理就是所有弱分类器想加等于预测值，下一个弱分类器去拟合误差函数对预测值的梯度。

这个梯度在gbdt中就是预测值和真实值差。

GBDT加入了简单的数值优化思想（数学证明网上很多，这里通俗解释一下）。

不同于随机森林所有树的预测求均值，gbdt所有的树的预测值加起来是最终的预测值，可以不断接近真实值。

GBDT的思想可以用一个通俗的例子解释，假如有个人30岁，

第一棵树，我们首先用20岁去拟合，发现损失有10岁，

第二颗，这时我们用6岁去拟合剩下的损失，发现差距还有4岁，

第三颗，我们用3岁拟合剩下的差距，差距就只有一岁了。

三棵树加起来为29岁，距离30最近。

目标函数：

第m颗树的目标函数就是m颗相加。

下一颗树都是用之前的残差去拟合（例如上面岁数的例子）

以下截图在t-1时刻进行的求导，即梯度提升的变量则是目标函数中t时刻fx，即t时刻需要预测的值

引用梯度提升树(GBDT)原理小结 - 刘建平Pinard - 博客园

求导等于0的极值即c=c，即argmin等式为0，损失函数求偏导后在最后有公式。

L(y,ft(x)=L(y,ft−1(x)+ht(x))最小。也就是说，本轮迭代找到决策树，要让样本的损失尽量变得更小

由于每棵树拟合的值不同，因此算出的Gini节点排序不同，每棵树根结点，子节点会不同。

④ Xgboost

Xgboost更加有效应用了数值优化。相比于gbdt，最重要是对损失函数（预测值和真实值的误差）变得更复杂。

目标函数依然是所有树想加等于预测值。

损失函数如下，引入了一阶导数，二阶导数。：

为什么会效果优呢？原因在于变换：

单纯从算法角度，

一，加入正则项，防止过拟合。

二，xgboost引入二阶导，下次拟合的不为y-fx，充分利用信息。

导数等于0.，可以得到

下棵树去拟合，相当于除以二阶导，差别大的时候还要放大点需要拟合的值。为误差大的加大权重

Xgboost迭代与gbdt一样根据误差建立下一个弱分类器，都是g boost的迭代方法，即下一棵树拟合损失函数根据预测值求导的梯度。

----xgboost用以下分裂方法代替Gini

xgboost分裂采用先对某字段对所有样本排序

理解成分母，错分很少，分子，放大错分大。通过这个从左到右搜索，错分情况最少的点，最佳分裂点。

----

调参，遍历法:学习速率，树的颗树，树的深度，终节点可以有多少人，行抽样，列抽样比例

小结：决策树的前世今生不过是从只是应用特征学习，最终也加入了数值优化的部分。由于纯粹的分类算法，xgboost即包含有效的特征学习，又包含有效的数值优化，因此成为了结构化数据大杀器。

分享到:

閱讀更多 i機器不學習 的文章

關鍵字: 财经随机森林学习

三峡水利重组获有条件通过整合区域电网推动电改

证券时报e公司讯，4月15日晚间，三峡水利发布公告，根据证监会并购重组委会议审核结果，三峡水利此次重大资产重组事项获得有条件通过，该公司股票自4月16日开市起复牌。

翠屏区统筹推进抗击疫情期间招商不断链

四川新闻网宜宾4月15日讯近期，翠屏区经济合作和外事局为应对疫情带来的相关影响，多措并举统筹推进抗击疫情期间招商不断链。

年内净息差恐整体收窄定存利率难现逆势上涨

近期，监管层通过定向降准、降低负债端综合成本等方式屡屡出拳，意在引导银行加大对实体经济的信贷支持，合理引导全社会融资成本下降。

39家基金公司业绩曝光平均净利润4.17亿

据证券时报记者统计，目前已经有39家基金公司去年经营情况浮出水面，去年平均净利润4.17亿元。业内人士表示，伴随着行业发展越来越成熟，行业龙头的地位越来越稳固，越来越多的优秀人才涌进行业龙头公司，这些公司也受到市场追捧，而小型基金公司面临发展困局，弯道超车的难度越来越大。

四川印发《优质白酒产业2020年重点任务》：力争酿酒专用粮基地建设超100万亩

五粮液酿酒专用粮基地4月13日，记者从四川省经济和信息化厅获悉，根据2020年全省优质白酒产业振兴发展推进会精神，近日，四川省印发《优质白酒产业2020年重点任务》。

全面提升和保障白酒质量四川省酒类产业计量测试中心落户泸州

4月9日上午，四川省酒类产业计量测试中心揭牌仪式在泸州举行，这是四川省首家通过验收的产业计量测试中心。

今年泸州加快推动47个酒类重点建设项目，力争白酒营业收入突破1000亿元

4月14日，泸州日报记者从市酒业发展局获悉，今年，我市将加快推动总投资1721.74亿元的酒类重点建设项目47个。

我炒股遇到的大坑

这男的边哭边说，我哭的不是这个，我哭的是自己三四十岁的人，还在为一两茶叶半斤小米这点小利折腾，感觉自己太失败。

投资医药股的“锦囊妙计”

欢迎关注“红星资本局”公众号这段时间，医药股涨势如虹，今日，在上证指数微跌的状态下，居然有红日药业、以岭药业等17只医药股涨停，这段时间，医药股成为市场最大的热点，接过了科技股的接力棒，蹭蹭地往上涨。

“我会一直在”！汉堡王中国称与破产的新西兰公司不是同一加盟商

4月15日，汉堡王官微在此事刷屏后，还发布了一条“I‘mfine thank you and you”内容，并借用网上流行语称“小朋友你一定有很多问好”。

美年健康收到关注函，借壳上市以来首亏，还剩41亿元商誉安全吗

关注函披露，2019 年 10 月，监管部门曾在半年报问询函中问询美年健康未计提商誉减值准备的原因和合理性，该公司答复称“下半年整个行业环境仍然良好，公司预计能较好的完成 2019 年年初预算指标，实现承诺业绩，未发现明显的减值迹象”。

上汽集团营收利润双降董事长降薪近20%

《电鳗财经》赵超/文2018年下半年以来，汽车行业持续遇冷。全年国内市场销售整车2590.5万辆，同比下降8.0%;其中，乘用车销售2154.9万辆，同比下降9.1%，商用车销售435.6万辆，同比下降2.2%;新能源车市在购置补贴退坡后也出现阶段性调整，全年销售120.4万辆，

孙正义跌下神坛！软银利润暴跌99%，领投的2家公司均已破产

不仅公司利润暴跌99%，连他领投的两家公司都已经宣告破产。本来以为今年能够好一点，谁成想又被领投的两家公司给"坑"了，真是流年不利。

疫情期间盒马速度不减，一个月内开出6家新店！

疫情下大量餐饮门店降速发展，盒马鲜生却是速度不减，一个月内连开6家新店。疫情期间，盒马一直坚持线上线下同时营业，并积极拓展新的线下场景，尽全力满足消费所需。

掏空式分红！上市前百亿分红、财务数据打架，如今股价却超260元

近期，伴随着海底捞复工后涨价遭网友“讨伐”的同时，海底捞张勇身为新加坡首富的宝座也被人夺走了，新晋的新加坡首富是A股创业板“一哥”、国内最大医疗器械龙头迈瑞医疗的实控人、董事长李西廷。

这家大型券商APP遭吐槽，一家公司运行两套交易系统！升级策略也遭质疑：热衷添加边缘功能

“一家券商两个交易系统登录，这叫什么重组？”日前，有个人投资者在股吧发帖吐槽，自己在交易的过程中，发现申万宏源软件中包含原申万和原宏源两套交易系统，导致自己账号被冻结并遭遇投资损失。

资本动物世界里的「做空」简史

浑水的创始人Block 在 The China Hustle 这部纪录片中，聊到了为什么把自己的公司起名为「浑水」，水至清，则无鱼，「中国人用『浑水摸鱼』比喻利用混沌不明的局势赚钱。

原公司法定代表人拒不配合工商变更，拒不返还公司公章，怎么办？

私信或评论区咨询法定代表人基于法律的规定代表着公司。在公司权利能力和行为能力范围内，原则上可以在公司一切对外事务中代表着公司。

净利润环比暴增3659%！预盈预增概念，还有100%上涨空间？

工程承包及建筑装饰;建筑装饰材料、钢材、木材、机电设备、黄金及矿产品销售;房屋租赁;在法律、法规规定的范围内对外投资。二.热点个股解读：600766业绩增长：年报公布净利润环比3659%.概念题材：贵金属黄金概念壳资源融资融券山东板块经营范围房地产开发及经营、物业管理

会计要记住：这样筹划税收万万不可！看看这10种方式

方式一：公司为了让股东少交甚至不交分红的20%的个税，让股东从公司以借款名义拿走巨额的分红，会计挂账在“其他应收款-自然人股东”中。方式二：公司为了少缴25%的企业所得税，把取得的收入人为挂账在“预收账款”科目中，隐匿营业收入。

棉花周度策略分析

国内下跌主因是前期涨幅过大，国内外棉花差价不断扩大，即时国内有纺织订单不断增加的事实，但随着棉花价格上涨，采购开始谨慎，新疆籽棉收获接近尾声，棉花上涨驱动籽棉收购价格.上涨的螺旋上涨难以持续，并且ICE 棉花涨幅一旦跟不上国内内涨幅，压力自然产生。

打造航母券商中信和中信建投合并或引爆行情

【打造航母券商中信和中信建投合并或引爆行情】今天市场的最大亮点就是午后券商股的发力，市场的人气还是要靠科技和证券来打，早盘科技股有表现，但是经过这两二个月科技股的回落，大家对于科技股的追捧热情早就没有了，甚至很多人开始不相信科技股的未来了，所以科技股的上涨，对人气的贡献度并不大

揭秘——主力资金怎样一股力量？数据告诉你这股力量有多强大

4月14日，主力资金净流入131.45亿元，当日上证指数上涨1.59%，创业板指大涨3.24%，。与之相对的是，4月10日，主力资金净流出507.72亿元，当日上证指数下跌1.04%，创业板指下跌2.37%。

A股修复行情还没结束！股民注意，别“漏”了这2个积极信号

昨天晚上美股大幅上涨，但我们今天低开低走，下午大盘直接跳水，今天一跌，可能很多朋友又在担心，行情是不是要结束了？

涨价概念还是市场的方向

可以交易行业板块医疗保健、农林牧渔、建材、、食品饮料、商业连锁、医药、工程机械、纺织服饰、造纸、酿酒市场交易环境上证指数交易环境 ☆☆☆ 压力位2828支撑位 2756创业板指数交易环境 ☆☆☆压力位1967 支撑位 1892 ETF基金游戏代码510500 500ETF

涨停板学深度教程 11：关于市场资金量的大局观

理解资金关系是市场根本，抓住资金这个根本，才能洞悉市场的一切行为和涨跌关系炒股最核心和根本的分析就是资金。

广州，太平洋电脑城，你为什么不早点转型

随着11月15日广州市天河区农村集体资产交易中心公告一则中标公示，太平洋电脑城A场也宣告易主。这是继今年2月28日广州太平洋数码广场B场宣告结业后，被称为“太平洋电脑城”的A场也即将退场。

15热点追踪

附最近几日暴跌妖股，最近几日暴涨妖股。暴跌妖股再次提醒，妖股技巧在仓位管理，不是技术也不是心态的博弈。

你领到消费券了吗？即日起至6月30日遂宁拟分期投放1亿余元消费券

日前，记者从市商务局获悉为统筹做好全面夺取疫情防控和经济社会发展双胜利遂宁市拟分期投放10095万元消费券助推经济复苏市民得实惠政府企业送“礼包”“我们三个闺蜜逛街，到饭点了就直接在万达三楼吃了点东西，总共费用是130元，我们在网上参加了万达的抢券活动，抢到了50元的餐饮券，加上

小米集团战略入股TCL,强强联合提升大家电供应链能力？

宣布小米集团战略入股TCL集团。TCL表示，此次入股有利于加深小米和TCL两个产业集团的合作深度，构建更为紧密的战略合作伙伴关系。

全球富豪榜出炉：中国猪肉生产商占两席；马化腾马云并列中国首富

中国网科技4月7日讯昨日，胡润研究院发布《疫情两个月后全球企业家财富变化特别报告》（以下简称《报告》）显示，全球百强企业家近两月财富损失2.6万亿人民币，即13%，蒸发了过去两年半所创造的财富；前十名损失1.4万亿人民币。

戴德梁行：短期承压商办市场回暖在望

实体零售遭遇遏制转型升级助力市场焕发生机2020年一季度，北京零售市场优质零售物业总存量为1 219万平方米，占比达86.3%。 412万平方米，其中购物中心存量达1

穗一季度吸引投资额近1.4万亿元

4月14日，在广州第77场疫情防控新闻发布会上，广州市商务局副局长吴尚伟公布了最新的招商引资成果：广州一季度签约、动工、投产项目超800个，涉及投资总额13899.64亿元，预计达产年产值/营收10902.72亿元。

一季度广州签约动工投产亿元以上产业项目超800个

记者14日在广州市政府新闻办举行的发布会上获悉，一季度广州签约、动工、投产亿元以上产业项目超800个，涉及投资总额13899.64亿元。

4月15日9:45，央行宣布降息，拆叔速评

早上9点45分，中国人民银行宣布1000亿中期借贷便利MLF操作，并下调中标利率20个基点至2.95%，此前为3.15%。此前在3月31日，央行已经率先下调逆回购利率20个基点。

叶檀：中国发达城市都应该来抄抄上海的作业

文/叶檀☞财经女侠 | 毒舌善心三年之后，上海是怎么样的，长三角是怎么样的？三年之后，哪座城市年轻人多，哪座城市房价高，这样的比较毫无意义。一切取决于，科技的发展。在上海的特斯拉会像当初富士康在东莞一样，需要百万名员工吗？不要。根据特斯拉和临港的规划，最多也就吸引1万多人。上海特

芒格：“所有聪明的投资都是价值投资”

图/视觉中国《财经》特约作者傅喻 | 文发自美国奥马哈2018年4月，经过半年思考，我给沃伦·巴菲特的老搭档、伯克希尔哈撒韦公司董事会副主席查理·芒格写了一封信，希望94岁高龄的他能够再度接受我专访。早在三年前，我曾经和芒格的助理商量过这个想法，但他助理认为，采访拍摄有诸多不便

三强两促力夺半年红｜鳌江落实“一项目一专班”制度，“保姆式”服务助力项目落地

日前，记者从鳌江镇获悉，该镇通过实行“一项目一专班”工作制度，为项目提供“保姆式”服务，完成了亲子主题教育商业综合体、滨江高等级酒店等2个项目的土地挂牌所有前期准备工作，助力项目加快落地。

朱是西会见中国长城科技集团股份有限公司河南分公司赵伟建一行

驻马店广电融媒体消息：4月15日上午，市委副书记、市长朱是西亲切会见了中国长城科技集团股份有限公司河南分公司执行董事、总经理赵伟建一行，双方围绕加强务实合作、推进项目落地驻马店进行了深入交谈。

兴嘉房开司举办“每周一课”，凝心聚力谋发展

4月10日下午，乐山城投集团下属兴嘉房开司举办了第一期“每周一课”学习活动。尤其是下一步小地块的项目开发，更让兴嘉房开司的年轻人兴奋不已，积极献言献策，希望能通过这些项目的落地，让兴嘉房开司真正实现凤凰涅槃。

@所有人｜今晚21:20 e修鸽邀您观看天津卫视《创业中国人》

从白手起家到独角兽企业联合创始人，从“独自打拼”到“带着团队拼杀商场”，在瞬息万变的商业战场中，总有一些人能够破思想之“茧”，乘改革之“风”，呈飞跃之“势”，用自己的节奏，从零开始把e修鸽旗帜插遍全国。他就是e修鸽联合创始人——胡海威。一生一世只做一件事，一生都会致力于做这样的事

曹德旺提示: 疫情过后可能会迎来全球产业链的去中国化

在采访过程中，新京报向曹德旺提出了多个问题。问题一：疫情暴露了当前全球化产业链存在的风险，待疫情退去，是否会造成全球产业链的改变。

【财经下午茶】申万宏源APP运行两套交易系统致股民账号被冻结

申万宏源APP运行两套交易系统致股民账号被冻结日前，有个人投资者在股吧发帖称，自己在交易的过程中，发现申万宏源软件中包含原申万和原宏源两套交易系统，导致自己账号被冻结并遭遇投资损失。

千城：您的企业值多少钱？

这是一个关于企业价值的话题，说到这里，一大堆专业术语从眼前飘过：MM理论、预期自由现金流现值、折现率、PE、PB、ROE…

千城：教你认识财务杠杆-成也萧何败萧何

度娘会告诉你财务杠杆的定义：财务杠杆又叫筹资杠杆或融资杠杆，它是指由于固定债务利息和优先股股利的存在而导致普通股每股利润变动幅度大于息税前利润变动幅度的现象。

【数据流】疫情中，你最关心什么？10大担忧，中国对比国外

No.1家人身体健康My family’s health不出所料，多数人都是最关心自己家人的健康，挣钱不就是为了家人可以健康快乐么？

漯河市科协邀请苏州客商考察我市医疗用品企业

4月15日上午，在漯河市顺康医疗用品公司负责人张红喜的带领下，苏州客商一行深入企业生产车间、物料车间及仓库进行实地参观，了解企业生产经营状况。

被疫情激活的人工智能，如何逐浪新基建

撰文/李季编辑/ 陈邓新4月7日，南昌三中义坊学校门口摆放了一台人脸识别测温机，复课的初三学生不用摘下口罩，就可以识别在校师生的身份及测量体温。

疫情过后，中国3月风投规模回升，是2月份的6倍多

据英国《金融时报》网站4月14日报道，根据《亚洲创业投资期刊》数据，中国初创企业和科技企业在3月筹集了超过25亿美元，是2月4.1亿美元的六倍多，创下纪录。

IMF：自上世纪30年代最严重经济大萧条！未来2年损失9万亿美元

2020年4月14日4月14日，国际货币基金组织在线上春季年会期间发布了《世界经济展望》，预测2020年全球增长率降至-3%，与1月的预测相比下调幅度高达6.3个百分点。