Kaggle 比赛中如何划分数据集？

2019-09-12 12:52:42 Alice機器學習乾貨鋪

划分数据集，是为了得到在实际数据上表现最优的模型，也就是要进行 validation。

https://scikit-learn.org/stable/modules/cross_vali

什么是 validation ？

当我们训练好一个模型后，并不能直接应用于实际的生产，因为在训练模型时，用的是历史数据，而真正应用模型时，是要用来预测未来的数据，所以需要做一些检查，看模型是否能够应用在未来，检查这个模型在未来不可见的数据上是否是表现最好的，这些 checks 就是 validation。

具体做法，就是要把数据集分成三部分，训练集，验证集，测试集：

在训练集上训练模型，
在验证集上检查模型的质量，
在测试集上应用模型。

此外，在 kaggle 的比赛中，组织者会将测试集进一步划分为 public 和 private 两部分，在比赛过程中提交拿到的分数，是在 public 测试集上的结果，当比赛结束时，会显示 private 测试集上的结果。

如果一个模型在 public 的分数比较高，但是在 private 的分数很低，那么说明模型过拟合了。

什么是过拟合？

我们训练模型时，本质是希望模型可以识别数据中的模式。

如果模型太简单了，就没办法捕捉到数据中的模式，这个叫做欠拟合。

欠拟合的话，我们就增加模型的复杂度，提高训练集的质量。

可以如果模型太复杂了，它虽然可以将训练集的数据描述的非常好，但是却无法很好地捕捉到测试集的模式，这个叫做过拟合。

比赛中的过拟合和一般的过拟合还不太一样：

一般的过拟合指的是，模型捕捉到了模式但却不适用于测试集，

比赛中的过拟合指的是，模型在 private 测试集上的质量很差，而这却并没有通过 validation score 检查出来，也就是 public 测试集上表现还挺好。

所以，比赛要拿高分，有个问题需要明确，就是组织者是如何划分训练集和测试集的，public 和 private 是如何划分的。

那么训练集和验证集要如何划分呢？

主要有下面几种划分方法：

Holdout：

就是将数据集简单地分成训练集和验证集两部分，当数据足够多的时候适合用这个方法，或者在不同的划分下，模型的参数和分数差不多时。

K-fold：

相当于是做多次 Holdout，取训练集中不同的部分作为验证集，最后再取平均。它和简单地重复多次 Holdout 的区别是，简单重复的话，有些样本可能一直都无法被选中作为验证集，但是在 K-fold 中每个样本都可以作为验证集。这个方法适用于数据量中等的情况，或者对于不同的划分，模型的分数和参数会很不相同时。在 shuffle 数据上，常用 Holdout 和 K-fold。

Leave-one-out：

是 K-fold 的特殊情况，就是当 K 等于样本数量时。这意味着要迭代数据集中的每个样本，每一次都是有一个样本作为验证集，另外 K-1 个样本作为训练集。这个方法适用于数据量非常少的情况，或者模型非常快的时候。

它们主要的区别就是划分的次数是多少。

注意在划分时，一个样本只能被分到一个集合中，不能同时在训练集和验证集中，否则模型在验证集上的表现可能会和测试集上面一样好，那就无法检查出模型真正的质量了。

stratification：

它是一种让 validation 更加稳定的方法。

例如有一个二分类问题，数据集只有 8 个样本，4 个类别是 0，4 个类别是 1，

然后将数据集分成 4 folds，

这里有个问题是，例如用第二份作为验证集，那么目标值的平均会是 2/3，而不是 1/2，这就会影响我们模型的预测，

所以要用到 stratification 分层来应对这个问题。

这个方法是为了保证在不同的 folds 上，目标的分布是相似的，

在应用 stratification 后，每个 folds 上的平均值差不多都是 1/2.

stratification 常用于小数据集，不平衡的数据集，或者多分类问题上。

不同的划分方法对模型有什么影响？

不同的划分策略，会对下面三点有很大的影响：

生成的特征
模型依赖特征的方式
target leak

例如，我们要处理一个时间序列问题，时间序列数据要如何划分训练集和验证集呢？

一种是随机选择一些样本作为验证集，

一种是保持时间的顺序，以某个日期为节点，之前的作为训练集，之后的作为验证集。

如果我们的目标是要要预测未来连续几天的若干个值，那么用第二种方法好一些。

此时如果我们用了第一种划分方法，那么在这种方法下训练出来的模型，在预测未来连续几天的问题上，表现不会很好。

而且，模型的预测值会比较靠近目标的平均值，

左图是用随机的方法选择验证集的，如果验证集的数据比较靠近这个平均值，验证集的分数就会比测试集的分数好一些。

而在第二种情况，验证集的点和测试集的点都离平均值比较远，验证集的分数就会和测试集的分数差不多。

总之，为了更好地生成模型，并且不断地改进模型，我们最好可以识别组织者是如何划分训练集和测试集的。

划分方法有哪些角度？

一般可以分为三类：

按照行随机划分

当数据是互相独立的时候使用。

按照时间划分

如果要预测未来连续几周的数据，那么划分时候也是以某个日期为节点去划分。

按照 ID 划分

当数据涉及到用户等个体时，需要根据 ID 划分，使得训练集和验证集中没有重合的部分。

混合方法

如果一个比赛包括以上多个特征，那么划分时候可以考虑混合应用各个策略。

比如 Home Depot Product Search Relevance 这个比赛中，参赛者需要估计出搜索的关联性。

训练集数据包括搜索的项目和搜索的结果，但测试集只有搜索的项目，所以不能直接用随机划分，因为这个需要比较复杂的模型，容易过拟合；也不能用基于搜索条目的划分，这种方法容易欠拟合，比较好的做法是在划分时，要模拟出新出现的搜索条目所占的比例。

总之，不同的比赛，不同的数据特点，需要用不同的划分策略，有一个很重要的规则是，在划分训练集和验证集的时候，要尽量模仿出比赛组织者所划分的训练集和测试集的状态，这样验证后的模型才更可信，才能在测试集上表现优秀。

学习资料：

https://youtu.be/L2BlnCF4fJM

https://youtu.be/pA6uXzrDSUs

https://youtu.be/mc1pZrubdno

https://www.quora.com/What-is-validation-in-data-science

分享到:

閱讀更多 Alice機器學習乾貨鋪 的文章

關鍵字: 数据划分最优

Python北京空气质量数据处理

Kaggle M5 Forecasting：传统预测方法与机器学习预测方法对比

Pandas Groupby —解释

特征工程（下）「金融风控实战笔记」

kaggle数据下载问题

R 无监督聚类算法（1）K-means和层次聚类

机器学习常用数据集大全

5种高效利用value-counts函数的方法，一键提升数据挖掘姿势水平

每日一课 Kaggle 练习讲解：House Prices(上)

三项惊人的 kaggle kernel 学习技巧

机器学习中最最好用的提升方法：Boosting 与 AdaBoost

用Python做数据处理需要知道的：6个使效率倍增的 Pandas 技巧

业界｜如何达到Kaggle竞赛top 2%？这里有一篇特征探索经验帖

AI 从业者都应该知道的实验数据集

数据不足时如何做深度学习NLP

数据科学家最需要什么技能？

如何交付机器学习项目：一份机器学习工程开发流程指南

BAT机器学习面试1000题（526~530题）

kaggle实战之AlexNet迁移学习训练猫狗分类器（一）

我参加的第一场Kaggle竞赛！

吴恩达太老派了？这套所有程序员适用的机器学习课火了｜资源

2018年最流行的深度学习框架及学习建议

使用textfeatures自动生成文本数据

机器学习：使用TensorFlow构建LSTM模型详细教程

数据科学101：Python比R更好吗？

送你8个Python高效数据分析的技巧（附代码）

机器学习教程：带你从Kaggle入门到杀入前5%（下）

机器学习教程：带你从Kaggle入门到杀入前5%（上）

Python还能用于医学方面！这就亮瞎了我的钛合金人眼了！深度学习

在茫茫决策树入门帖里，我强推这篇（附可视化图）

kaggle神器：教你简单部署XGBoost

Python即将纳入全国性高考，你还一无所知？

7天速成、免费学习，这套Python入门课我收藏了丨资源帖

使用决策树算法识别用户喜欢或不喜欢的歌曲

如何进行特征选择，避开那些机器学习的“坑”！

使用FeatureSelector实现高效的机器学习工作流程

资源｜Feature Tools：可自动构造机器学习特征的Python库

改进模型架构遇到了瓶颈？你该考虑改善自己的数据了！

5月机器学习TOP 10热文：Google Duplex，“换脸术”、网格单元

模型融合方法介绍

遇见困难不用“怂”，机器学习的“万能药”：决策树

为什么你会选择python

入门｜机器学习第一课：决策树学习概述与实现

通过 Python 入门数据科学（Data Science）

机器学习kaggle比赛—泰坦尼克号获救预测

2017数据科学与机器学习行业现状调查 Python是最受欢迎的语言

第二章 IoC容器和Bean配置

bean是一个对象，它是由Spring

运算里不得不说的python模块—math

Help

Devops度量--DevOps 现状快速检查表

今天主要分享一个DevOps

SOP是什么（解读）

SOP不是单个的，是一个体系，虽然我们可以单独地定义每一个SOP，但真正从企业管理来看，SOP不可能只是单个的，必然是一个整体和体系，也是企业不可或缺的。

还不知道交换机上如何配置DHCP，赶紧过来围观吧，一分钟包你学会

随着终端设备的越来越多，人工干预配置IP地址，不仅工作效率低，而且，还很容易导致IP冲突，影响正常的网络访问。到此已经完成了，DHCP服务的配置了，我们可以在终端验证。

还在手动配置IP地址吗？太Low了，一分钟教会您如何配置DHCP

Python爬虫自学笔记：分析头条文章网页源文件

这两天分析了一下头条文章网页的源文件，现在将分析的结果分享给大家。首先以一篇文章为例，其网址如下：https://www.toutiao.com/i6822245428176617998/如上图网页所示，文章中包含文字和图片。

DNS侦查工具

我们只需要打开浏览器输入例如:www.baidu.com就可以解析到该网站.为了便于记住不需要输入长长的IP地址去访问这就是DNS域名解析.关于域名域名的层次划分用点来分割这时DNS把相对应的域名解析成IP地址高的在右边.例如:www. NS简介访问某网站的时候最低在左边

国人开源的异步 Python ORM：GINO

程序测评：Create React App 3.3中有哪些酷炫新功能？

Create

“明学”的魅力？我只要我觉得：驾驭终端，提高生产力

最后一个要介绍的命令是

（必收藏系列）Linux面试题——命令集

关注，后台私信【Linux】分享Linux入门到进阶电子书、Linux入门到精通视频教程（免费）。文件管理命令cat

五分钟学会如何在 IPFS 上部署网站

原文标题:五分钟学会如何在

「正点原子NANO STM32F103开发板资料连载」第29章内存管理实验

1）实验平台：【正点原子】

小白怎么学Web前端开发如何成为技术达人

Web前端开发工程师已经成为了很多年轻人心中的理想工作，不仅入行门槛低、而且薪资待遇和发展前景都不错，自然吸引了大批人加入行业。

如何开发一个web静态服务器

我们都知道如今的web服务器有很多，比如著名的有apache，有nginx，有tomcat，有resin服务器，有sphere，有iis服务器等等，这些服务器都能提供web服务，并且几乎都能和多种语言进行搭配使用，那么一个web服务器都需要那些功能，开发一个web服务器都需要那些

学Java编程还有前景吗如何才能拿到高薪

需求大、薪资高似乎是Java开发人员的标签，不过学Java编程还有前景吗？它架构在操作系统之上，屏蔽了底层的差异，真正实现了“Writeonce run

Python网络爬虫之配置篇（一）

pip

SpringBoot 整合SpringSecurity示例实现前后分离权限注解+JWT登录认证

serverTimezone=UTC&useUnicode=true&characterEncoding=utf-8&zeroDateTimeBehavior=convertTo&useSSL=falseusername:rootpassword:

Python的运行效率太低？几行代码快速提升！

return的就是是你所需要的结果2.3、运行这一步就是最后一步了，只要像下面一样输入上述函数名，赋予参数值，点击运行Run，就能得到你想要的结果arg1=5

python的优点是什么？最新Python400集视频（附教程）

2020，最新Python零基础到精通资料教材，干货分享，新基础Python教材，稳稳找到过万工作，看这里，这里有你想要的所有资源哦，最强笔记，教你怎么入门提升！获取方式：私信小编“

MySQL中OOM故障应如何下手-爱可生

作者：孙祚龙爱可生南区分公司交付服务部成员，实习工程师。负责公司产品问题排查及日常运维工作。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。

像专家一样使用 panic

|go

30种不同的编程语言怎么写“Hello, World”

printfn

percona QAN 介绍

一、背景QAN慢查询日志分析工具是PMM

面试官：你可以用纯CSS判断鼠标进入的方向吗？

虽然没什么软用，但是对付面试官应该是够用了。感谢面试官提出的问题，让我实现了这个功能，对CSS

网络工程师职业生涯中，哪两点是最重要的？

网络工程师最重要的技能是扎实的基础和非常开放的思维，微观知识扎实、宏观能力突出。项目经验也会让网络工程师基础更牢靠，网络工程师是要实战的，要避免纸上谈兵，我认为对基础理论的理解，比你清楚配置更重要。

交换机中相关术语代表什么意思，有必要弄清楚

由浅入深了解以太坊 2.0：最常见问题和最全学习清单

有关以太坊2.0

【Linux简单实用小命令001】CentOS 7、8的防火墙端口开放

yuminstall

吃透这些IPFS硬核知识点，日后抢头矿随时“弯道超车”

今天的你捉住IPFS机遇了吗？我们都知道在Filecoin网络中作为一名存储矿工，信誉对于我们是非常重要的——信誉越高，爆块几率越大。那么信誉系统现在怎么样了呢？

Hive分桶表

fieldsterminated

Spring中资源的加载原来是这么一回事啊！

自己动手搭建邮件系统：怎样让Exchange Server 发出第一封邮件？

编辑Exchange

$【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库$

【MySQL】RDS物理备份文件(.idb\.frm)恢复到MySQL自建数据库

在阿里云控制台，我们能下载的文件是一个压缩包，解压之后，是.idb和.frm文件，你可能要问了，我可以直接把解压好的问题件覆盖到MySQL的data目录下吗？

NLP算法入门系列：隐含马尔可夫链(HMM)模型的简单介绍

即，最大化

第一章 Spring Framework概述

您可以在任何web

opencv人工智能深度学习这样实现人脸的年龄检测

前期的文章我们分享了人脸的识别以及如何进行人脸数据的训练，本期文章我们结合人脸识别的模型进行人脸年龄的检测人脸年龄的检测步骤1、首先需要进行人脸的检测2、把检测到的人脸数据给年龄检测模型去检测3、把检测结果呈现到图片上人脸年龄检测import

嵌入式linux网络编程之——5年程序员给你深度讲解socket套接字

图8-1

深入了解ProcessFunction的状态操作(Flink-1.10)

先反思为何会有上述疑惑上述疑惑产生的原因，应该是受到平时使用HashMap的影响，HashMap获取值就是在调用get方法时指定key，设置值也是在put时指定key，所以看到state.value，看懂了这些，其实也是在了解DataStream/DataSetAPI的设计思路：

Redis内存分析工具--rdr安装与使用

分析Redis

资深架构师教你源码讲解zookeeper实现分布式锁以及集群搭建步骤

//getData发现前一个子节点被删除，抛出异常

一行代码提升迁移性能

论文原址：https://arxiv.org/pdf/2003.12237.pdf开源地址：https://github.com/cuishuhao/BNM在发表在CVPR2020

利用相似几何信息，做可泛化3D形状分割模型

更具体的有以下三种典型的分割方案：FullyConvolutional-Like

这么好用的开源计算器SpeedCrunch，没有不尝试一下的道理

介绍SpeedCrunch是一款高精度科学计算器，具有快速，键盘驱动的用户界面。获取方式在GitHub上搜索SpeedCrunch，就可以去到

分布式缓存，真香

他是前易宝支付架构师、阿里云MVP、腾讯云

特征工程的力量

在本文中，我希望教给您一些有关特征工程的知识，以及如何使用它来对非线性决策边界进行建模。为了说明这一点，假设恢复时间与身高和体重具有以下关系：Y=β₀+β₁+β2+β₃+noise从第三项来看，我们可以看到Y与身高和体重没有线性关系。

java架构：天天写面向接口编程，你考虑过性能吗？大神都是这么写

public

SpringBoot如何优雅的使用RocketMQ

源码编译需要Maven3.2x，JDK8在根目录进行打包:Copymvn-Prelease-all

css代码规范工具stylelint

"mixin"