Kaggle大师Abhishek Thakur的框架-解决几乎所有机器学习问题

2018-11-17 10:55:48 AI賦能

数据科学家Abhishek Thakur 发表了一篇文章 Approaching (Almost) Any Machine Learning Problem，文中介绍了一种自动的机器学习框架，号称可以解决几乎所有机器学习问题。

先上链接：

http://blog.kaggle.com/2016/07/21/approaching-almost-any-machine-learning-problem-abhishek-thakur/

数据科学家每天处理大量数据。有人说超过60-70％的时间花在数据清理，数据调整上，以便机器学习模型可以应用于该数据。本文重点介绍第二部分，即应用机器学习模型，包括预处理步骤。本文中讨论的流水线是我参加的一百多个机器学习竞赛的结果。必须注意的是，这里的讨论非常普遍但非常有用，也可能存在非常复杂的方法。由专业人士进行实践。

我们将使用Python。

数据

在应用机器学习模型之前，必须将数据转换为表格形式。整个过程是最耗时且最困难的过程，如下图所示。

然后将机器学习模型应用于表格数据。表格数据是在机器学习或数据挖掘中表示数据的最常用方式。我们有一个数据表，包含不同数据样本的行或X和标签y。标签可以是单列或多列，具体取决于问题的类型。我们将用X表示数据，用y表示标签。

标签的类型

标签定义问题，可以是不同类型，例如：

单列，二进制值（分类问题，一个样本只属于一个类，只有两个类）
单列，实数值（回归问题，仅预测一个值）
多列，二进制值（分类问题，一个样本属于一个类，但有两个以上的类）
多列，实数值（回归问题，多值预测）
多标签（分类问题，一个样本可以属于几个类）

评价指标

对于任何类型的机器学习问题，我们必须知道我们将如何评估我们的结果，或评估指标或目标是什么。例如，在偏斜二元分类问题的情况下，我们通常选择受试者工作特征曲线（ROC AUC或简称AUC）下的面积。在多标签或多类别分类问题的情况下，我们通常选择分类交叉熵或多类对数损失和回归问题的均方误差。

我不会详细介绍不同的评估指标，根据问题有许多不同的类型。

库

要开始使用机器学习库，首先安装基本的和最重要的，比如numpy和scipy。

查看和执行数据操作：pandas（http://pandas.pydata.org/）
对于各种机器学习模型：scikit-learn（http://scikit-learn.org/stable/）
最好的梯度提升库：xgboost（https://github.com/dmlc/xgboost）
对于神经网络：keras（http://keras.io/）
绘制数据：matplotlib（http://matplotlib.org/）
监视进度：tqdm（https://pypi.python.org/pypi/tqdm）

我不使用Anaconda（https://www.continuum.io/downloads）。这很容易，为你做一切，但我想要更多的自由。这是你的选择。

机器学习框架

2015年，我提出了一个自动机器学习的框架，这个框架还在开发之中，很快就会发布。对于本文，同样的框架将是基础。框架如下图所示：

在上面显示的框架中，粉红色的线代表最常用的路径。在我们提取并将数据缩减为表格格式之后，我们可以继续构建机器学习模型。

第一步是确定问题。这可以通过查看标签来完成。必须知道问题是二元分类，多类还是多标签分类还是回归问题。在我们发现问题后，我们将数据分成两个不同的部分，一个训练集和一个验证集，如下图所示。

将数据分解为训练和验证集“必须”根据标签进行。在任何分类问题的情况下，使用抽样分割。在python中，你可以使用scikit-learn很容易地做到这一点。

在回归任务的情况下，简单的K折分割(K-Ford)就足够了。然而，有些复杂的方法往往会保持标签的分布对于训练和验证都是一样的，这留给读者练习。

在上面的例子中，我选择了eval_size或验证集的大小作为完整数据的10％，但是可以根据数据的大小选择这个值。

数据拆分完成后，将这些数据保留，不要触摸它。必须保存在训练集上应用的任何操作，然后应用于验证集。在任何情况下，验证集都不应该与训练集一起使用。这样做虽然会得到非常好的评估分数，让用户高兴，但将会建立一个严重过拟合的无用模型。

下一步是识别数据中的不同变量。通常有三种类型的变量需要我们处理。也就是说，数值变量，分类变量和其中包含文本的变量。让我们以流行的泰坦尼克号数据集（https://www.kaggle.com/c/titanic/data）为例。

在这里，survival就是标签。我们已经在上一步中将训练数据中的标签分开了。然后，我们有pclass，sex，embarked。这些变量具有不同的类别，因此它们是分类变量。像age，sibsp，parch等变量是数值变量。name是一个包含文本数据的变量，但我不认为这是预测survival的有用变量。

首先分开数值变量。这些变量不需要任何类型的处理，因此我们可以开始对这些变量应用规范化和机器学习模型。

有两种方法可以处理分类数据：

•将分类数据转换为标签

•将标签转换为二进制变量（独热编码one-hot-encoding）

请记住先使用LabelEncoder将类别转换为数字，然后再应用OneHotEncoder。

因为泰坦尼克号的数据没有文本变量的好例子，所以我们来制定处理文本变量的一般规则。我们可以将所有的文本变量合并为一个，然后使用一些对文本数据起作用的算法并将其转换为数字。

文本变量可以如下连接：

然后我们可以使用CountVectorizer或TfidfVectorizer：

或者，

TfidfVectorizer的性能比大多数时候都要好，我已经看到TfidfVectorizer的下列参数几乎都是在工作。

如果您仅在训练集上应用这些向量化器，请确保将其转储到硬盘驱动器，以便稍后在验证集上使用它。

接下来，我们来到堆垛机模块(Stacker)。堆垛机模块不是模型堆垛机，而是特征堆垛机。上述处理步骤之后的不同特征可以使用堆叠器模块进行组合。

你可以水平堆叠所有的功能之前，通过使用numpy的堆叠或sparse的堆叠进行进一步处理，这取决于你是否有密集或稀疏的功能。

如果还有其他处理步骤，例如pca或特征选择，我们也可以通过FeatureUnion模块来实现（我们将在本文稍后的部分中介绍分解和特征选择）。

一旦我们把这些特征叠加在一起，我们可以开始应用机器学习模型。在这个阶段只有你应该去的模型应该是基于集成树的模型。这些模型包括：

RandomForestClassifier
RandomForestRegressor
ExtraTreesClassifier
ExtraTreesRegressor
XGBClassifier
XGBRegressor

我们不能将线性模型应用于上述特征，因为它们没有被标准化。要使用线性模型，可以使用scikit-learn中的Normalizer或StandardScaler。

这些规范化方法只适用于密集的特征，如果应用于稀疏特征则不会给出非常好的结果。是的，可以在不使用均值（参数：with_mean = False）的情况下将StandardScaler应用于稀疏矩阵。

如果上面的步骤给出了一个“好”的模型，我们可以去优化超参数，如果没有，我们可以去下面的步骤和改进我们的模型。

接下来的步骤包括分解方法：

为了简单起见，我们将忽略LDA和QDA转换。对于高维数据，通常使用PCA来分解数据。对于图像以10-15个组件开始，只要结果的质量大大提高，就增加这个数量。对于其他类型的数据，我们最初选择50-60个组件（只要我们可以处理数字数据，我们倾向于避免PCA）。

对于文本数据，在将文本转换为稀疏矩阵之后，进行奇异值分解（SVD）。可以在scikit-learn中找到称为TruncatedSVD的SVD变体。

通常用于TF-IDF或计数的SVD组件的数量在120-200之间。以上任何数字都可能会提高性能，但不会大幅度降低计算能力。

在评估模型的进一步性能之后，我们转向数据集的缩放，以便我们也可以评估线性模型。然后可以将归一化或缩放的特征发送到机器学习模型或特征选择模块。

有多种方法可以实现特征选择。最常见的方式之一是贪婪的功能选择（向前或向后）。在贪心特征选择中，我们选择一个特征，训练一个模型，并在固定的评估指标上评估模型的性能。我们不断地添加和删除功能，并在每一步记录模型的性能。然后我们选择具有最佳评估分数的特征。以AUC作为评估指标的贪婪特征选择的一个实现可以在这里找到：https：//github.com/abhishekkrthakur/greedyFeatureSelection。必须指出的是，这个实现并不完美，必须根据需要进行修改/修改。

其他更快速的特征选择方法包括从模型中选择最佳特征。我们既可以查看logit模型的系数，也可以训练一个随机森林来选择最佳特征，然后在其他机器学习模型中使用它们。

请记住保持较少的估计量和最小的超参数优化，以免过度使用。

使用渐变增强机器也可以实现特征选择。如果我们在scikit-learn中使用xgboost而不是GBM的实现，这是很好的，因为xgboost更快更灵活。

我们也可以使用RandomForestClassifier / RandomForestRegressor和xgboost来进行稀疏数据集的特征选择。

从正向稀疏数据集中选择特征的另一个流行方法是基于chi-2的特征选择，我们也在scikit-learn中实现了这一点。

在这里，我们使用chi2和SelectKBest从数据中选择20个特征。这也成为我们想要优化的超参数来改进我们的机器学习模型的结果。

不要忘记保存在任何步骤中使用任何种类的转换状态数据。您将需要他们评估验证集上的性能。

下一步（或中级）的主要步骤是模型选择+超参数优化。

我们通常在选择机器学习模型的过程中使用以下算法：

Classification:
Random Forest
GBM
Logistic Regression
Naive Bayes
Support Vector Machines
k-Nearest Neighbors
Regression
Random Forest
GBM
Linear Regression
Ridge
Lasso
SVR

我应该优化哪些参数？我如何选择最接近最好的参数？这些是大多数人想到的几个问题。如果没有大量数据集的不同模型+参数的经验，就无法得到这些问题的答案。也有经验的人不愿意分享他们的秘密。幸运的是，我也有相当多的经验，我愿意放弃一些东西。

让我们分解超参数，使模型智能：

RS * =不能说出适当的值，要对这些超参数进行随机搜索。

在我看来，严格地说我的意见是，上述模式将超越任何其他模式，我们不需要评估任何其他模型。

再次强调记住保存转换状态数据：

并将它们分别应用于验证集：

上述规则和框架在我处理的大多数数据集中表现都非常好。当然，这个任务也很复杂。没有什么是完美的，我们继续改进我们学到的东西。就像机器学习所做的一样。

有任何疑问与我联系：abhishek4 [at] gmail [dot] com

个人简历

Abhishek Thakur是Searchmetrics公司数据科学团队的高级数据科学家。在Searchmetrics，Abhishek致力于一些最有趣的数据驱动研究，应用机器学习算法，并从海量数据中获取需要大量数据的整理，清理，特征工程以及机器学习模型的构建和优化。

他在空闲时间喜欢参加机器学习比赛，参加过100多场比赛。他的研究兴趣包括自动机器学习，深度学习，超参数优化，计算机视觉，图像分析和检索以及模式识别。

分享到:

閱讀更多 AI賦能 的文章

關鍵字: 大师 Python 人工智能

02.25 23年前被电脑打败的"大师"：美国96%工作将遭AI威胁

流浪“大师”沈巍的启示：人的一生应该怎么度过？

峰会惊现“意念”大师！中国力量能否驾驭数据新时代？

杨柘离职，魅族不需要“大师”

中国电商大举布局印尼印尼称马云为“大师”

“互联网思维”碎碎念1--互联网品牌的杂谈

小米太无耻了。

小米高管不只口嗨了，在国内拳打友商，在国外却开始下跪了。下一步，我猜小米会喊，高通爸爸，人家爱死你了，人家已经五体投地了哟。

蹭热点！说说我理解的手机包装盒事件。

今早醒来刷头条，发现大批米系自媒体铺天盖地发文嘲讽华为系自媒体，忍不住好奇了解了一下情况，原来是刚发布的一加8 海外版手机的手机包装盒上面印了一句话:with easy access to the Google apps you use most.而这句话也印在前段时间发布的小

苹果公司正式发布iPhone SE二代手机

新品名为“iPhoneSE”，拥有跟iPhone 8相似的外观，搭载了苹果当前最新的A13仿生芯片，具备IP67级别防水防尘能力，配备4.7英寸LCD材质屏幕，支持原彩显示，配备了Touch ID指纹识别。

华为河图、麒麟芯片和鸿蒙OS三驾马车并行？华为生态建设布局深远

至于受很多人关注的华为河图全面落地问题，官方有消息称，2020年第二季度会提供100个华为河图测试点，测试点到第四季度会增加至1000个，测试覆盖空间包括智慧园区、旅游景点、高铁站和机场等。

小米高管表示，四千毫安时 5G 手机，和三千多毫安时 4G 手机一样

小米科技高管卢伟冰在近日表示，5G旗舰手机如果5G网络全开，功耗会比4G手机高20%，4000mAh的5G手机大约等于4G手机的3200mAH；今年Redmi坚持把5G手机的容量控制在4500mAh以上，也是考虑到5G网络耗电大的原因，今年很多5G智能手机均采用大电池的设计。

5G画风变了：麒麟985落地首跑，荣耀坐上开往高端的「地铁」

荣耀30Pro/30 Pro+同时搭载麒麟990 5G SoC，相应的其它配置更高：Wi-Fi6+，支持红外遥控，USB 3.0 Type-C接口。

旗舰手机标配Wifi 6 换Wifi 6路由器的时机到了吗？

现在，家庭宽带都在500M左右，大部分手机也不支持Wifi6标准，换Wifi 6无线路由器有点早，因为换了Wifi 6无线路由器网速也不会变快。

2020年5G手机卖不动？继苹果砍单25%之后，华为小米纷纷跟砍？

都说苹果手机卖不动了，可我看想买iPhone手机的人还是那么多，不然之前苹果公司怎么会限购？数据显示，3月份在国内的 iPhone 销量比 2 月份激增 416%，达到约 250 万部。

干翻华为P40系列荣耀30也玩中

而今天的华为发布会上，荣耀30、30 Pro、30 Pro +3个版本中、大、特大杯齐亮相，又一片全新5G SOC，麒麟985也要登场。

程序员辞互联网工作，跨行传统上市公司，上班第1天就蒙了

原来男子是从事互联网工作，后面觉得是互联网寒冬来了，就坚决辞去互联网工作，跨行选择了一个教育传统上市公司，可是第1天上班就蒙了，公司让做的活儿太死板了，没有发挥空间，同事一点都不友善，领导不放权，而且管理线超级单一，氛围一点都不一样，所以想离职。

苹果发布新款iPhoneSE，3299元起售

北京时间4月15日晚，苹果正式发布了新款iPhone SE，搭载了A13仿生芯片，支持最新的iOS 13系统，支持 18W快充，也支持Qi无线充电。SE机型苹果到目前为止只发布了两款，这是iPhone产品体系里小屏和低价的典型机器。

我很纠结：我究竟适不适合做亚马逊电商？看了这三条你就知道了

请仔细阅读，关于跨境电商你想知道的都在这儿

政府对于跨境电商行业的大力支持给咱们广大跨境电商卖家吃了一颗“定心丸”。我们所做的跨境电商事业在一定程度上不再是为个人谋利益，而是成为了中国产品走向世界，为国家赚取外汇的主力军。

骗子手段太“精明”：商家赔了货物又赔款，亚马逊平台骗术大揭秘

在开始文章的干货分享之前，先给大家讲一个商家被用户勒索的案例。有一位朋友刚刚加入亚马逊跨境电商平台两个多月，在这期间有位美国用户在他店铺里面购买了一个毛巾架。

做跨境电商这么多年，今天才知道给国外客户发文件原来这么简单

做过跨境电商朋友肯定知道，很多国外客户对于有些商品看不懂说明书，想索要商品使用视频教程，毕竟视频信息量大，容易理解和快速上手。

值得收藏！三类卖家三种选品方案，总有适合你的一个……

网上很多所谓的“大佬”喜欢吹嘘用某某工具就可以迅速选品效率，迅速取得很高效率等等，其实这类人就是在卖软件，收培训费用…

万万没想到！亚马逊平台上面卖床单竟营收一个亿！你还在等什么？

做店铺这么多年，今天才知道我的listing突然被封，竟是因为……

亚马逊小白看过来！请采纳这些：亚马逊选品和运营的小建议

亚马逊卖家如何爆单？跨境精细化运营攻略必看

不收保证金、入住费、年费，还免三个月佣金，我也想入驻这个平台

咱们今天不说主打欧美市场的亚马逊，只谈一下以东南亚市场为主的Shopee。好多人都听说过，但是没有真正了解过，好多人想加入Shopee但是顾虑重重，今天我来给大家普及一下关于Shopee小秘密。

马云终于要辞职了，留下的话句句触动人心

去年，在教师节这天，阿里巴巴集团创始人马云今天公开信宣布：一年后的阿里巴巴20周年之际，即2019年9月10日，也就是今天，他将不再担任集团董事局主席，却留下句句触动心灵的话！！

等等，明年5G手机将迎来大降价

11月26日下午，联发科技（MediaTek）在深圳举办“联发科技 5G方案发布暨全球合作伙伴大会”，正式发布了全新的5G新芯片品牌——“天玑”，同时带来了首款集成式旗舰级5G移动平台——天玑1000。

微信公开课PRO版2019正在进行时，往届各自都有什么黑科技

微信公开课pro版2019，为期两天微信大会正在广州火热进行中，本次会议主题为：同行WITHUS。微信这一款超级应用，已经深入到我们生活的方方面面，所以这48小时的未来盛宴必将吸引无数眼球。

推出「信任分」升级「闪购」，美团本地生活这盘棋有多大？

小海按：美团的超级App梦想更近了？Tech星球文 | 马微冰陈桥辉头图 | IC Photo王兴曾说，“太多人关注边界，而不关注核心。”

5G我们超越了6G我们也将领先! 美国为什么会害怕失去5G领导地位呢

而且在我们国内和美企中，有相当一部分觉得我们研发不了5G，更特说超越他们了。由于，我们在科技领域一直是，装备一代，研发一代，探索一代。

界读｜华为：帮助英国共渡疫情难关，无端批评令英国蒙受损失

前段时间，英国首相呼吁员工在家办公的第二天，英国网络就出现大面积崩溃现象，不仅无法正常上网，而且电话也不能打、短信也不能发，给用户造成了很大的困扰。

为什么华为今天可以傲视群雄，在世界上立于不败之地？

为什么华为今天可以傲视群雄，在世界上立于不败之地？因为五年内没有人能超过整个5G领域，所以美国人无法超越，为什么？

血战「在线办公」，阿里、腾讯、字节、华为的底牌与大杀器

小海按：前端杀手级应用，后端云服务，在线办公「四小龙」之战开启。本来，在线办公更多的是阿里巴巴的主场。

2020年最强拍照旗舰来了华为P40系列多项业界首创香！

原来华为P40Pro+在上一代P30 Pro潜望式镜头横置长焦镜头模组和感光器件基础之上，进一步采用全新的多反射潜望式光路折叠技术，实现5次反射光路，光程比上一代潜望式长焦提升178%。

今天聊一聊直播

今天聊一聊直播突然谈到这个话题，是因为后知后觉的我，突然发现几乎所有大互联网公司都进军了网络直播行业，或者正在准备进军直播领域。

通过直播赚钱不容易，既要豁得出去，又要端得起来

今天咱们继续聊一聊直播吧当下，像头条、网易、百度等公司，看上去和直播八竿子打不着的公司，也开始涉足直播了。

AI和自动化技术联手，最终会让60%的工人失去现有的饭碗。

并非危言耸听，AI和自动化结合，势必会把数十亿人类踢出劳动力市场，数量巨大的失业工人，将会构成一个规模庞大的新阶级。AI最终会让60%的工人失去现有的饭碗。

这个网还能不能好好上了？今日全球IPv4地址正式耗尽

长期以来，一直令人担心的IPv4地址耗尽的问题，今天这一刻终于发生——所有43亿个IPv4地址已分配完毕，这意味着没有更多的IPv4地址可以分配给ISP和其他大型网络基础设施提供商。

12306系统不行？内行人告诉你它有多牛，阿里腾讯高手去了也膜拜

很多人认为12306系统很不好，之前我也是这么认为的，因为我觉得像双十一这么大流量，阿里都能承受住，为什么12306不行，这其实是误解，12306拥有着神一般的架构设计，平时的压力比淘宝大的多。

有内幕？美国防部授与微软百亿云合同，亚马逊不满发起诉讼

据路透社消息，10月25日，美国防部将高达100亿美元的十年期战略合同授予微软公司，这一举动引起亚马逊的不满。

未来之芯--RISC-V总部从美国迁往瑞士，华为、阿里是其成员

北京时间26日消息，国际开源芯片技术组织RISC-V基金会周一宣布，由于担心美国的贸易限制，计划将总部从美国特拉华州迁往瑞士。该基金会首席执行官卡利丝塔-雷蒙德（Calista Redmond）表示，希望确保美国以外的大学、政府和企业能够帮助开发其开源技术。

神话还能继续吗？几度过山车，比特币半年来首次跌破7000美元

比特币价格今年如同坐上过山车，年初的3000美元到最高13861.9美元，今天跌破7000美元，算是这半年来的最低点了。说起比特币，给人印象最深刻的，莫过于2017年末到2018年初的暴涨了吧。

刘强东卸任后，突然宣布一个“好消息”，让马云措手不及！

苹果的疯狂其实从未停止，AirPower或将重新启航

可是，苹果事实上一直都在推动终端产品进入全面无线时代，所以他们是不太可能在真正意义上放弃这款产品。有外媒称，苹果目前正准备重新启动AirPower项目。

曾保护近4亿中国人的电脑，却因得罪阿里、腾讯，惨遭市场淘汰

曾保护近4亿中国人的电脑，却因得罪阿里、腾讯，惨遭市场淘汰随着网络的不断发展，如何确保网络信息安全成为人们十分重视的问题。

互联网流量需求增大希腊民众“宅生活”考验网速

英国咨询公司Tech4i2报告指出，在疫情期间，希腊的互联网流量需求至少增长50%，但网速仅下降1.2%，而在大多数欧洲国家，网速平均下降了5%-7%。

互联网科技企业，传统办公模式该走向何处?

　　纽约，处于美国疫情震中的城市，工作模式大多是使用公司发放的电脑进行远程办公，而在这之前，部分互联网企业本来默认每周三为在家办公日，所以大家对在线办公可以说驾轻就熟。

微信又悄悄上线一新功能～网友却开始担心

备注后的群聊名称仅自己可见往后再也不用为分清乱糟糟的微信群聊而困扰不过从目前来看只有iOS端上线了这一新功能安卓用户还需要再等等并且此次更新为后台更新无需到AppStore更新即可看到这个新功能该功能上线后网友们纷纷站队但也有网友视野开阔担心起另一件事对于微信新功能群备注你觉得实

正式确认！孙正义退出市值5959亿阿里，20年与马云成就彼此

文：小娜说到孙正义这个名字，我们很多人都知道他是日本软银集团的创始人兼总裁，但他除此之外也有另外的身份，那就是阿里巴巴最大的董事之一。阿里之所以成为今天的阿里，与孙正义的投资是分不开的。当时，马云和孙正义仅仅交谈了五分钟，孙正义当即就决定投资阿里，而且一下就投资2000万美元。

科技添柴“非接触经济”升温

新华社记者王全超摄中国同拉美和加勒比国家举行视频工作会议，就新冠肺炎疫情防控开展交流。亚历山大·培尼亚摄在中国科学技术大学附属第一医院，乘客用“无接触电梯按钮”操作电梯。

好像在哪见过？华为nova7官宣余承东:何必只有一点点

全新iPhoneSE根据此前爆料，此次华为nova7系列将有nova7 SE、nova7和nova7 Pro三个版本，可能会采用“麒麟985+麒麟990”或“麒麟820+麒麟985+麒麟990”两种芯片组合。

行业红利、资本涌入，疫情后的在线教育聚师网如何“涅槃”

2018年，线下培训机构受到了相关部门政策的影响，整体发展势头趋降，然而市场上对于教育的需求却在不断增加，于是，大量学员开始把需求放到了线上，其中，职业教育在这方面的变化尤其明显。

数字货币真的来了？首吃螃蟹者传出，碰一碰功能露脸

苏州相城区政府相关人士对此未予置评，区金融局人士表示“不便答复”，其他多个当地机关单位称尚不知情，央行苏州市中心支行表示“以总行口径为准”，央行总行方面未予确认。新京报记者程维妙陈鹏编辑岳彩周校对薛京宁

实例 | 200 SMART运动控制基本指令详解

C_Dir:表示电机的当前方向信号状态，0 = 正向 1 = 反向。 START:触发开始发脉冲信号，必须要在运动轴空闲时发送一次信号，必须用边沿触发。