XGBoost解读

2018-08-24 16:49:59 機器學習與數據挖掘

XGBoost是陈天奇在博士期间研究成果，近年来也是数据挖掘比赛的一大神器，几乎任何比赛都会使用。

Xgboost是GBDT算法的高效实现，xgboost中的基学习器除了可以是CART（gbtree）也可以是线性分类器（gblinear）。下面所有的内容来自原始paper，包括公式。

(1). xgboost在目标函数中显示的加上了正则化项，基学习器为CART时，正则化项与树的叶子节点的数量T和叶子节点的权值有关。

(2). GBDT中使用Loss Function对f(x)的一阶导数计算出伪残差用于学习生成fm(x)，xgboost不仅使用到了一阶导数，还使用二阶导数。

第t次的loss：

对上式做二阶泰勒展开：g为一阶导数，h为二阶导数

(3). 上面提到CART回归树中寻找最佳分割点的衡量标准是最小化均方差，xgboost寻找分割点的标准是最大化，lamda，gama与正则化项相关

xgboost与gdbt除了上述三点的不同，xgboost在实现时还做了许多优化：

在寻找最佳分割点时，考虑传统的枚举每个特征的所有可能分割点的贪心法效率太低，xgboost实现了一种近似的算法。大致的思想是根据百分位法列举几个可能成为分割点的候选者，然后从候选者中根据上面求分割点的公式计算找出最佳的分割点。
xgboost考虑了训练数据为稀疏值的情况，可以为缺失值或者指定的值指定分支的默认方向，这能大大提升算法的效率，paper提到50倍。
特征列排序后以块的形式存储在内存中，在迭代中可以重复使用；虽然boosting算法迭代必须串行，但是在处理每个特征列时可以做到并行。
按照特征列方式存储能优化寻找最佳的分割点，但是当以行计算梯度数据时会导致内存的不连续访问，严重时会导致cache miss，降低算法效率。paper中提到，可先将数据收集到线程内部的buffer，然后再计算，提高算法的效率。
xgboost 还考虑了当数据量比较大，内存不够时怎么有效的使用磁盘，主要是结合多线程、数据压缩、分片的方法，尽可能的提高算法的效率。

分享到:

閱讀更多 機器學習與數據挖掘 的文章

關鍵字: 比赛数据挖掘导数

要对高校教育质量负责！网络答辩不是降低标准的理由

论文答辩，是高校毕业生完成教育过程的重要一环。疫情期间，为了保证学生顺利毕业，多所高校已开展或即将开展博士、硕士、学士等多层次的毕业论文网络答辩。

山东高校开学定了！研究生和毕业年级学生自5月16日起开学返校

经省委新冠肺炎疫情处置工作领导小组研究同意，开学条件核验合格的高等学校，其研究生和毕业年级学生自5月16日起开学返校，具体时间由驻地市会同高校统筹返校学生人数、生源地分布、城市交通运输和防控能力等情况，按照错时错峰原则研究确定。

陕西省：将公布有招生资质中职学校名录

昨日记者获悉，省教育厅和省人社厅就做好今年全省中职学校招生有关事项发出通知。据悉，陕西省两部门要求，各市要坚持职普比不低于4:6底线要求，编制高中阶段学校招生计划，5月11日前将今年高中阶段教育学校招生计划表报省教育厅备案，省政府教育督导委员会将对职普比进行督导检查。

天津：初高中及小学高年级5月18日复课开学，小学低年级段、幼儿园等暂不开学

据天津市新型冠状病毒感染的肺炎疫情防控工作指挥部，根据天津市新冠肺炎疫情防控工作情况，市防控指挥部决定，天津市2020年春季学期第三批学生复课开学安排如下:5月18日，全市高一、高二、初一、初二及小学四、五、六年级同步复课开学。

临沂教育培训机构将重新洗牌，招生大战一触即发

一场突如其来的疫情，让教培市场迎来了2020年一次重新洗牌的机会。近日，记者调查发现，部分中小型教培机构为了规避疫情带来的影响

小学低年级必须掌握的量词大全，附识记顺口溜，建议家长收藏

量词是小学语文必会的基础知识，也是低年级考试中经常出现的考题但是孩子们学习起来并不容易，一是因为汉语包含的量词很多，二是有的量词使用并不唯一。下面是给低年级孩子整理了一份量词大全及识记他们的顺口溜，一起来看吧！

山东高校开学时间确定

经山东省委新冠肺炎疫情处置工作领导小组（指挥部）研究同意，开学条件核验合格的高等学校（含驻鲁部属高校），其研究生和毕业年级学生自5月16日起开学返校，具体时间由驻地市会同高校统筹返校学生人数、生源地分布、城市交通运输和防控能力等情况，按照错时错峰原则研究确定。

鹤壁看郑州，夏初长你归来广电南路16号迎来大团圆

春日渐远，夏日初长。我和你，挥手作别于一月，重逢于五月，三个多月的小别离，那份假期不断被充值的小兴奋，不知何时变成了期待归来的想念。广电南路16号，郑州市第四十七初级中学在想你们，想见到你们。

山东高校开学时间确定

经省委新冠肺炎疫情处置工作领导小组（指挥部）研究同意，开学条件核验合格的高等学校（含驻鲁部属高校），其研究生和毕业年级学生自5月16日起开学返校，具体时间由驻地市会同高校统筹返校学生人数、生源地分布、城市交通运输和防控能力等情况，按照错时错峰原则研究确定。

艳阳高照五月天逐梦前行正当时

猛犸新闻·东方今报记者

唐山检查初三年级开学准备工作

5月6日，副市长曹全民在市教育局、市卫健委相关负责同志的陪同下，到我市部分初中检查初三年级开学准备工作。

高三学生迎来复课后首次线下“大考”

6日，朝阳区4000多名高三学生迎来了新高考“一模”考试，这也是高三复课以来首次线下“大考“。“都是在行政班里考试，每个学生考试的地点是不变的，这就防止了学生之间的这种交叉，当A学生考这科的时候，B学生没有，那么他有一个专门自己的独立的一个自习室进行自习，或者说下午半天没有考试的

山东高校要开学了

重磅！山东高校开学时间确定

大小新闻客户端5月7日讯（YMG全媒体记者

莒县第三中学召开2020年春季复学准备暨教学衔接工作会议

为确保广大师生身体健康和生命安全，保证学校2020年春季开学顺利复课，2020年5月5日，莒县第三中学召开了2020年春季复学准备暨教学衔接工作会议。学校党总支书记、校长焦广良带领全校教师学习相关文件及会议精神，并提出了复课复学的具体工作要求。

山东高校开学时间确定 5月16日起开学返校

半岛网5月7日讯今天，山东省教育厅公布山东高校开学时间，经省委新冠肺炎疫情处置工作领导小组（指挥部）研究同意，开学条件核验合格的高等学校（含驻鲁部属高校），其研究生和毕业年级学生自5月16日起开学返校，具体时间由驻地市会同高校统筹返校学生人数、生源地分布、城市交通运输和防控能力等

山西忻州市第十一中学教师招聘7人启事

忻州市第十一中学教师招聘启事　　一、学校简介　　忻州市第十一中学位于忻州市和平西街，是一所市直公立寄宿制初级中学。

山东高校开学时间确定

济宁这6名学生入选国家级奖学金名单

根据《教育部办公厅关于第十四届宋庆龄奖学金评选工作的通知（教基厅函〔2019〕43号）》要求，在省级教育部门评审推荐，宋庆龄奖学金评审委员会认真审核的基础上，教育部今天对拟认定的第十四届宋庆龄奖学金获奖候选人和优秀组织奖获奖候选名单予以公示。

厦门复学后体育课怎么上？保持安全距离可不戴口罩

复学后，体育课怎么上？市教育局昨日出台工作指南，并且明确:上体育课如果能保持安全距离，可以不戴口罩。

柳州小学1-6年级开学时间公布！校外培训机构、午托恢复时间也定了→

5月6日，柳州市教育系统新型冠状病毒感染的肺炎疫情防控工作领导小组发布《关于做好2020年春季学期全市小学开学工作的通知》，明确5月11日（星期一）小学1-6年级开学。

@大学生，我市多所高校公布返校复课时间，你们准备好了吗？

上游新闻·重庆晚报慢新闻记者

教育部：努力开发适合毕业生的科研助理岗位

来源：科技日报6日，由教育部、人力资源和社会保障部、工业和信息化部、国资委、中央广播电视总台、共青团中央等6部门共同主办的2020届普通高校毕业生就业“百日冲刺”行动正式启动。启动仪式上发布了促进高校毕业生就业创业十大专项行动。

转起周知！天津初高中非毕业班18日开学

15月18日，天津全市高一、高二、初一、初二及小学四、五、六年级同步复课开学。25月15日以后，天津各高等院校、中等职业学校非毕业年级由学校根据自身实际情况，自主确定学生返校时间。

秦皇岛昌黎县高端汲养助力教师专业发展

按照昌黎县教育和体育局工作安排，4月29日，昌黎县教师发展中心组织全县中小学教师集体参与了由中国教育学会主办，北京市海淀区教师进修学校承办的“在线与在校——面向未来的混合式教学与教研”云端研讨会。

强基计划：华中科技大学今年首招计划不超过120人

记者今日从华中科技大学获悉，该校发布了《华中科技大学2020年强基计划招生简章》，正式启动2020年基础学科招生改革试点工作。

哈佛出现财政赤字！美国最“烧钱”的研究生院终于曝光

近段时间，美国大学纷纷出台新的招生政策，例如接受申请者不提交标化成绩、延长申请日期、降低最低分数线等等。

湖北3地确定初三开学和中考时间

为统筹推进疫情防控和经济社会发展工作，安全有序恢复教育教学秩序，经市新冠肺炎疫情防控指挥部综合研判、审慎研究决定，现就我市2020年中考时间和初中三年级春季学期开学时间安排通告如下:

百日冲刺促就业万千学子创未来 2020届普通高校毕业生就业“百日冲刺”行动启动

作为2020届普通高校毕业生就业“百日冲刺”行动的重要平台，由中央广播电视总台与教育部共同发起，总台央视频携手国投人力主办的“24365国聘行动”联合专场招聘活动，5月6日正式上线启动。

市体育中学高三年级复学

黄冈新闻网讯（通讯员王雅兰）5月6日，市体育中学高三年级复学第一天。市体育事业发展中心主任余觅、副主任王立新到学校检查疫情防控工作。当天上午，全体学生有序排队进行核酸检测，城区学生由家长带回家自我隔离，非城区学生统一安排入住宾馆，等待核酸检测结果出来后统一返校。

考研云复试准备好了吗青岛多所高校公布分数线

原标题：考研“云复试”你准备好了吗岛城多所高校公布复试基本分数线及相关操作要求近日，海大、中石大、青大等驻青高校陆续公布了硕士招生复试基本分数线及相关要求。网络远程复试成为高校研究生复试的主要方式。各高校也都根据自身专业需要，对考生复试安排做了要求。

宿松县五里中小召开4—6年级线上线下教学衔接交流会

经过漫长的近两个月的线上教学，4月26日至4月30日，4—6年级度过了为期一周的线下教学。4月30日下午4点，五里中小召开了4—6年级的线上线下衔接交流会。

退完住宿费，陕西这所#高校掏400万为师生做核酸检测#

继给2万余名学生退还3个月住宿费（总额1700万）后，5月6日，陕西西安翻译学院在学生正式开始返校后，又掏400万元为2万师生免费测核酸。该校5月5日给教职员工和后勤三产人员进行了检测，从6日起一直持续到12日，每天都会对返校学生进行检测。

中国各地高考难度地图：今年上大学最难的省份是哪里？

现在参加高考的人是2000年左右出生的，每年全国出生人口大约1900万，其中，全国参加高考的人大约是920万人，本科录取人数约309万人，也就是说，不管你被什么本科录取了，就算是最普通的三本，也已经是6选1的突出人才。

研究马克思主义要有立场有能力

“马院姓马，在马言马”的鲜明导向和办学原则，既是基本标准、根本原则，又是高标准、高要求;在马克思主义学院工作，由于环境使然，讲立场很容易，不容易的是有真正的立场，有能力捍卫立场。

应届毕业生注意，今年应聘教师、护士等岗位，可以先上岗再考证

日前，国家人社部、教育部等七部委下发通知表示:经国务院同意，对《国家职业资格目录》中部分职业资格实施“先上岗、再考证”阶段性措施，用人单位在2020年12月31日前招聘高校毕业生，不得将取得教师资格、护士职业资格等作为限制性条件。

走在前列！益阳赫山区沧水铺镇启动“5G+智慧教育”试点建设

沧水铺镇位于湖南省益阳市东南部，是“湖南省百强镇”，是益阳市的工业重镇、益阳市东接东进战略的“桥头堡”。益阳市率先在赫山区沧水铺开展“5G+智慧小镇”建设，并争取打造成为全国首个5G小镇。

初三开学在即，听听莒县桑园镇第二中学校长的深情寄语

桑园镇第二中学校长

初三开学在即，听听莒县桑园镇中心初中校长的深情寄语

桑园镇中心初中校长

兰山对29所初中学校开学条件进行核验整改完毕

琅琊新闻网5月6日讯（临报融媒记者

初三开学在即，听听莒县峤山镇中心初中校长的深情寄语

峤山镇中心初中校长

中国人民警察大学 2020年硕士研究生招生复试录取办法

为加强对硕士研究生招生工作的管理，确保我校2020年研究生招生复试录取工作规范有序安全进行，根据教育部、公安部、河北省有关文件规定，结合新冠疫情期间各项防控要求，依据《中国人民警察大学2020年硕士研究生招生复试录取工作方案》，制定本办法。

藁城这所小学，积极开展争做新时代好少年活动

鉴于目前疫情还没有彻底结束，在“五一”国际劳动节来临之际，昌盛街小学在校长武保华的倡导下，在线上组织各班以“家务劳动我能行，亲力亲为勇当先”为主题的实践教育活动，培养孩子们爱劳动意识，并懂得珍惜劳动人民的劳动成果。

刚刚，湖北一地公布初三开学和中考时间安排

襄阳市新型冠状病毒感染肺炎疫情防控指挥部关于2020年春季初三年级学生开学时间及中考安排的通告(第16号)为安全有序恢复我市教育教学秩序，经市疫情防控指挥部同意，现就全市2020年春季初三年级学生开学时间及中考安排通告如下：一、初三年级开学时间安排全市初三年级学生2020年5月1

现场实拍！罗山初中、小学开学第一天

罗山的初一二学生和小学四五六年级学生们终于结束了“超长待机”的寒假迎来了开学开学可能会迟到但是永远不会缺席接下来跟随小编直击罗山今日开学现场！

南京小学五、六年级学生返校复学第一课：加强疫情防护安全教育

5月6日，南京市小学五、六年级，五年制高职四、五年级，三年制中职三年级学生返校复学。当天，南京市雨花台区文明办开展“童心战‘疫’启程未来”主题教育活动，引导中小学生以积极的主人翁姿态践行文明卫生生活、关注关心社会，让疫情危机成为学生认识社会、坚强成长的人生经历。

坚守最美丽劳动最光荣昌乐县教育工作者：爱岗敬业无私奉献

这个五一假期，有这样一群人，他们放弃休假，坚守岗位，奋斗不息，在不同的战线默默挥洒汗水，持续发扬“盯着干、快干、干好”的工作作风，用劳动和奋斗奏响时代强音，用执着和忠诚践行初心使命，用拼搏和担当助推高质量发展、赶超发展，他们有一个响亮的名字——昌乐教育人！

大学国际化排名，上海交通大学第三

2019年，西南交通大学大学国际化评价研究中心发布了中国大陆高校国际化排行，从学生国际化（15%）、教师国际化（15%）、教学国际化（10%）、科研国际化（15%）、文化交流（5%）、国际显示度（10%）等维度，综合同行专家评议（30%）、特色项目进行评价，全面、客观、公正地检验

听新闻丨德州：线上线下培训防疫知识全力做好开学复课准备工作

山东各地制定严格开学条件核验标准，科学防控，多措并举，全力做好复学复课准备工作。德州市各学校制定严格开学工作方案，全面落实好细化人员摸排、卫生防疫、培训演练、物资保障等各项措施。

XGBoost解读

相關文章:

要对高校教育质量负责！网络答辩不是降低标准的理由

最新！沪2020年普通高等学校招生志愿填报与投档录取实施办法公布

山东高校开学定了！研究生和毕业年级学生自5月16日起开学返校

陕西省：将公布有招生资质中职学校名录

天津：初高中及小学高年级5月18日复课开学，小学低年级段、幼儿园等暂不开学

临沂教育培训机构将重新洗牌，招生大战一触即发

小学低年级必须掌握的量词大全，附识记顺口溜，建议家长收藏

山东高校开学时间确定

鹤壁看郑州，夏初长 你归来 广电南路16号迎来大团圆

山东高校开学时间确定

艳阳高照五月天 逐梦前行正当时

唐山检查初三年级开学准备工作

高三学生迎来复课后首次线下“大考”

山东高校要开学了

重磅！山东高校开学时间确定

莒县第三中学召开2020年春季复学准备暨教学衔接工作会议

山东高校开学时间确定 5月16日起开学返校

山西忻州市第十一中学教师招聘7人启事

山东高校开学时间确定

济宁这6名学生入选国家级奖学金名单

厦门复学后体育课怎么上？保持安全距离可不戴口罩

柳州小学1-6年级开学时间公布！校外培训机构、午托恢复时间也定了→

@大学生，我市多所高校公布返校复课时间，你们准备好了吗？

教育部：努力开发适合毕业生的科研助理岗位

转起周知！天津初高中非毕业班18日开学

秦皇岛昌黎县高端汲养助力教师专业发展

强基计划：华中科技大学今年首招计划不超过120人

哈佛出现财政赤字！美国最“烧钱”的研究生院终于曝光

湖北3地确定初三开学和中考时间

百日冲刺促就业 万千学子创未来 2020届普通高校毕业生就业“百日冲刺”行动启动

市体育中学高三年级复学

考研云复试准备好了吗 青岛多所高校公布分数线

宿松县五里中小召开4—6年级线上线下教学衔接交流会

退完住宿费，陕西这所#高校掏400万为师生做核酸检测#

中国各地高考难度地图：今年上大学最难的省份是哪里？

研究马克思主义要有立场有能力

应届毕业生注意，今年应聘教师、护士等岗位，可以先上岗再考证

走在前列！益阳赫山区沧水铺镇启动“5G+智慧教育”试点建设

初三开学在即，听听莒县桑园镇第二中学校长的深情寄语

初三开学在即，听听莒县桑园镇中心初中校长的深情寄语

兰山对29所初中学校开学条件进行核验 整改完毕

初三开学在即，听听莒县峤山镇中心初中校长的深情寄语

中国人民警察大学 2020年硕士研究生招生复试录取办法

藁城这所小学，积极开展争做新时代好少年活动

刚刚，湖北一地公布初三开学和中考时间安排

现场实拍！罗山初中、小学开学第一天

南京小学五、六年级学生返校复学第一课：加强疫情防护安全教育

坚守最美丽 劳动最光荣 昌乐县教育工作者：爱岗敬业无私奉献

大学国际化排名，上海交通大学第三

听新闻丨德州：线上线下培训防疫知识 全力做好开学复课准备工作

高三在家自学刷题是否可以？

农村人山泉水养的鱼有没有市场？

如果将农村小学学生走读制改为寄宿制有什么好处？谈谈你的看法？

有人说农村中小学的学生人数在逐年下降，农村的学校该怎么办？

目前中小学因放学时间过早，对学校每学期800—1000元由学校统一托管有何看法？

农村中小学在未来会消失吗？

孩子想推迟一年上小学可以吗？

对于目前的情况来看，孩子延期开学，会对孩子的学习造成影响吗？

农村公爹说农村有三个地方黄鳝最多，这三个地方是哪里？

如果秦始皇的秦军出现在清末时期，能抵挡八国联军的进攻吗？

明末大鼠疫的危害有多大，那场灾害到底有多恐怖？

我家侄儿今年初三，叛逆逃学不念书，整天在家玩手机看电视，怎么办？请大家出大招解决？

为什么有的人天生读书成绩就好，真的有读书的料这种说法吗？

如何改变一个不努力的孩子？

现在的孩子怎么啦？女儿在大二，上周给她200元生活费，对我说干脆一顿饭一给？

十五岁的男孩叛逆，辍学在家几个月了，除了玩网络游戏什么都不做，家长如何陪伴？

儿子高一刚开学就不想上了，大人们都劝而他软硬不吃，现在在家待着，当爸妈的愁死了该怎么办？

高二孩子不上学，白天睡觉晚上玩手机，没有朋友，不出门，还抽烟，该怎么办？

当孩子的确不是读书的材料时，你是失望地放弃，还是包容地接受？

猫咪老弄坏家里的杯子碟子啥的，面对这种情况你怎么处理的？

我儿子高三还是天天手机不离手，父母不能说，一说就急，一点不敢打骂，怎么办？

作为艺术爱好者，你认为“素描”对国画的影响是好还是坏？

对画画感兴趣，想培养成爱好，但对绘画是小白，素描、水彩等不懂，哪种适合简单地写意？

有一只可爱小喵喵是什么感觉？

猫不听话可以打吗？

广东这么富裕为什么在大街上很难看得到超跑？

胸肌好练型难修，如何打造完美的胸型？

健身能减肥吗？

鹤壁看郑州，夏初长你归来广电南路16号迎来大团圆

艳阳高照五月天逐梦前行正当时

百日冲刺促就业万千学子创未来 2020届普通高校毕业生就业“百日冲刺”行动启动

考研云复试准备好了吗青岛多所高校公布分数线

兰山对29所初中学校开学条件进行核验整改完毕

坚守最美丽劳动最光荣昌乐县教育工作者：爱岗敬业无私奉献

听新闻丨德州：线上线下培训防疫知识全力做好开学复课准备工作