干货分享 | 11个数据竞赛平台大盘点,文末还有竞赛实例详解

近年来数据竞赛也非常火,国内外的互联网企业每年都会举办各种数据竞赛。一方面数据竞赛可以给举办公司做广告,另一方面举办公司也希望数据竞赛中收获参赛选手的解决方案。

最典型的例子是2006年NETFLⅨ举办的推荐系统比赛,第一个能把现有推荐系统的准确率提高10%的参赛队伍将获得一百万美元的奖金。而最终第一名的解决方案完全优胜于NETFLIX公司自己的算法。

参加数据竞赛非常考验动手能力,参赛选手需要对数据进行深入理解,并根据业务背景进行特征工程。每一场数据竞赛是有具体的业务场景的,涉及的问题也都是是工业界或者学术界的具体问题,因此,非常有价值。

干货分享 | 11个数据竞赛平台大盘点,文末还有竞赛实例详解

对于参赛者来说,

参加比赛能够学习技术并证明自己的能力,

能够获得较好的求职/升学 offer,

还能获得大额奖学金,

所以,大家一定要去参加一场数据竞赛。

现在来介绍下国内外常见的数据竞赛平台

在这些平台上常年都有数据竞赛。

还会进行竞赛实例讲解

赶紧往下看吧!

数据竞赛平台

01

Kaggle

网址:

www.kaggle.com

简介:全球最大的竞赛比赛平台,竞赛机制完备。在Kaggle内部,可以找到完成数据科学工作所需的所有代码和数据。可以使用超过19,000个公共数据集和200,000个公共笔记本即刻征服任何分析。

干货分享 | 11个数据竞赛平台大盘点,文末还有竞赛实例详解

02

Drivendata

网址:www.drivendata.org

简介:较为成熟的平台,以图像和视频比赛为主。DrivenData致力于数据科学和社会影响的交叉项目,涉及国际发展,健康,教育,研究和保护以及公共服务等领域。

DrivenData与50多个项目中的超过35个组织合作,其中许多项目都是通过DrivenData社区的出色努力实现的。DrivenData为组织提供数据科学的变革力量,以应对世界上最大的挑战,然后为数据科学家开展在线建模竞赛,以开发解决这些问题的最佳模型。

干货分享 | 11个数据竞赛平台大盘点,文末还有竞赛实例详解

03

Codalab

网址:competitions.codalab.org

简介:CodaLab是一个开源平台,提供了一个生态系统,可以更高效,可重复和协作的方式进行计算研究。CodaLab有两个方面:工作表和竞赛

工作表允许您以可重现的方式捕获复杂的研究管道并创建“可执行文件”。使用任何数据格式或编程语言 - 非常适合高级用户!竞赛将整个社区聚集在一起,以解决当今最具挑战性的数据和计算问题。您可以赢得奖品,也可以创建自己的比赛。

04

Crowdai

网址:www.crowdai.org

简介:crowdAI使数据科学专家和爱好者能够通过挑战协作解决现实问题。经常举办大型学术类型比赛。

05

天池

网址:tianchi.aliyun.com

简介:阿里旗下,知名度最高的中文竞赛平台。阿里集团于2014年正式推出“天池”大数据科研平台,该平台基于阿里云的开放数据处理服务ODPS,面向学术界开放海量数据(阿里数据及第三方数据)和分布式计算资源,旨在打造“数据众智、众创”第一平台。

“天池”业务包括:天池大数据竞赛、数据实验室、开放式教学、数据人才认证。在这里,人人都可以玩转大数据,共同探索数据众创新模式。

干货分享 | 11个数据竞赛平台大盘点,文末还有竞赛实例详解

06

点石

网址:
dianshi.baidu.com/competition

简介:百度旗下的数据竞赛平台。可以与顶尖高手过招,用高效数据算法,探索优秀方案,解决机器学习难题。

干货分享 | 11个数据竞赛平台大盘点,文末还有竞赛实例详解

07

JDAta

网址:jdata.jd.com

简介:京东旗下的数据竞赛平台。致力于通过项目和比赛自我提升,通过分享交流共同成长。

这里有大数据竞赛。在这里,通过全线上组队、分析、开发、评测等环节,让比赛更公平、多元、开放!优秀的解决方案将有机会直接运用到京东智慧营销系统,服务数亿用户。

这里还可以进行技术共享。可以将自己的算法思想在JDATA中分享,也可以浏览其他人的成果,可以在论坛圈子中对数据难题展开问答,寻找解决方案。

08

Datacastle

网址:

www.pkbigdata.com

简介:电科大背景,国内较为成熟的平台。

DataCastle数据科学学习社区隶属于成都数聚城堡科技有限公司。有领先的数据科学思维与智慧以及各行业领域优质数据资源, 致力于不断输出优质的大数据人才、大数据解决方案以及数据科学核心技术知识。

干货分享 | 11个数据竞赛平台大盘点,文末还有竞赛实例详解

09

DataFountain

网址:www.datafountain.cn

简介:CCF背景,每年举办CCF数据挖掘竞赛。DF通过“众包”模式汇集各类大数据资源;以“众筹”模式汇集行业需求,形成大数据问题求解、科学发现、人工智能、商业智能、情报挖掘、大数据分析和大数据管理等挑战问题集合。

“众创”模式吸引全国最大规模的数据创新创业人才和最优秀的数据科学家共同解决复杂的大问题;通过创意大赛挖掘有价值的大数据应用及商业模式。

DF平台的参赛者除了获得奖金和经验外,还可以通过平台相互学习,提升自身能力,在竞赛中收获知识、财富、名誉和乐趣

干货分享 | 11个数据竞赛平台大盘点,文末还有竞赛实例详解

10

Biendata

网址:biendata.com

简介:清华学术背景,平台以学术比赛为主。这是一个提供数据科学竞赛的平台,以满足不同企业和组织的需求。致力于帮助您解决具有挑战性的数据相关问题,从而使业务更加智能化。

11

科赛

网址:www.kesci.com

简介:国内机制较为完善的平台,是高质量的独立第三方数据科学社区。这里不止有高质量的数据集、精彩的开源数据项目、多元的实训场景,还有 50,000+ 数据科学爱好者共同学习。这里还汇集了来自企业和科研机构的数据科学任务,你可以自由申请参加,锻炼实战能力,获得悬赏奖金。

干货分享 | 11个数据竞赛平台大盘点,文末还有竞赛实例详解

竞赛实例讲解

接下来介绍下竟赛的相关知识点,首先按照赛题的任务可以将赛题类型分为三类:

分类赛题:比赛的标签是类别,任务是分类问题。例如预测用户是否违,图像分类

回归赛题:比赛的标签是数值,任务是回归问题。例如预測用户的贷款金额,PM2.5预测

时序赛题:比赛的标签与时间相关,任务是时序问题。例如商铺销量预测,汽车流量预测

干货分享 | 11个数据竞赛平台大盘点,文末还有竞赛实例详解

赛题也可以根据数据类型分为两类:

结构化数据:

数据已表格形式进行表示,例如表格数据

非结构化数据:数据已非结构化进行表示,例如文本数据或者图像数据

赛题也可以根据业务场景进行分类:风控类型问题、CTR类型问题和用户行为预测等场景

干货分享 | 11个数据竞赛平台大盘点,文末还有竞赛实例详解

当你拿到赛题后,一定要把出题方给定的信息进行仔细阋读,弄清楚赛题的背景、任务、数据、评测方式、时间点等信息

。也推荐大家有空就去Kaggle上多参加一些比赛,非常锻炼能力,同时也能够学到很多。

Kaggle上每个比赛都会包括如下的页面:

  • Overview:对比赛的背景任务和评测方式相关的介绍,还包括比赛时间赛程信息
  • Data:比赛数据信息的介绍
  • Kernels:比赛分享的代码内核,可以是R或者 Python两种环境的。Kernels还提供了免费的计算资源(还有GPU哦),对选手非常友好
  • Discussion:比赛相关的帖子分享
  • Leaderboard:比赛得分的排行榜
  • Rules:比赛的规则和注意事项
  • teams:比赛的组队信息
干货分享 | 11个数据竞赛平台大盘点,文末还有竞赛实例详解

每个比赛的 Kernels和 Discussion部分都是广大参赛选手进行分享的地方,会分享赛题的方方面面。Kaggle的魅力就在于此,每个比赛的Kernels和 Discussion部分都会让人醍醐灌顶。大家有时间一定要去参加一下这些数据竞赛,不要错过了这项学习机会哦!

更多IT干货文章与资讯,关注微信公众号:DueApe(ID:DueApeTutor)获取。


分享到:


相關文章: