乾貨分享 | 11個數據競賽平臺大盤點,文末還有競賽實例詳解

近年來數據競賽也非常火,國內外的互聯網企業每年都會舉辦各種數據競賽。一方面數據競賽可以給舉辦公司做廣告,另一方面舉辦公司也希望數據競賽中收穫參賽選手的解決方案。

最典型的例子是2006年NETFLⅨ舉辦的推薦系統比賽,第一個能把現有推薦系統的準確率提高10%的參賽隊伍將獲得一百萬美元的獎金。而最終第一名的解決方案完全優勝於NETFLIX公司自己的算法。

參加數據競賽非常考驗動手能力,參賽選手需要對數據進行深入理解,並根據業務背景進行特徵工程。每一場數據競賽是有具體的業務場景的,涉及的問題也都是是工業界或者學術界的具體問題,因此,非常有價值。

乾貨分享 | 11個數據競賽平臺大盤點,文末還有競賽實例詳解

對於參賽者來說,

參加比賽能夠學習技術並證明自己的能力,

能夠獲得較好的求職/升學 offer,

還能獲得大額獎學金,

所以,大家一定要去參加一場數據競賽。

現在來介紹下國內外常見的數據競賽平臺

在這些平臺上常年都有數據競賽。

還會進行競賽實例講解

趕緊往下看吧!

數據競賽平臺

01

Kaggle

網址:

www.kaggle.com

簡介:全球最大的競賽比賽平臺,競賽機制完備。在Kaggle內部,可以找到完成數據科學工作所需的所有代碼和數據。可以使用超過19,000個公共數據集和200,000個公共筆記本即刻征服任何分析。

乾貨分享 | 11個數據競賽平臺大盤點,文末還有競賽實例詳解

02

Drivendata

網址:www.drivendata.org

簡介:較為成熟的平臺,以圖像和視頻比賽為主。DrivenData致力於數據科學和社會影響的交叉項目,涉及國際發展,健康,教育,研究和保護以及公共服務等領域。

DrivenData與50多個項目中的超過35個組織合作,其中許多項目都是通過DrivenData社區的出色努力實現的。DrivenData為組織提供數據科學的變革力量,以應對世界上最大的挑戰,然後為數據科學家開展在線建模競賽,以開發解決這些問題的最佳模型。

乾貨分享 | 11個數據競賽平臺大盤點,文末還有競賽實例詳解

03

Codalab

網址:competitions.codalab.org

簡介:CodaLab是一個開源平臺,提供了一個生態系統,可以更高效,可重複和協作的方式進行計算研究。CodaLab有兩個方面:工作表和競賽

工作表允許您以可重現的方式捕獲複雜的研究管道並創建“可執行文件”。使用任何數據格式或編程語言 - 非常適合高級用戶!競賽將整個社區聚集在一起,以解決當今最具挑戰性的數據和計算問題。您可以贏得獎品,也可以創建自己的比賽。

04

Crowdai

網址:www.crowdai.org

簡介:crowdAI使數據科學專家和愛好者能夠通過挑戰協作解決現實問題。經常舉辦大型學術類型比賽。

05

天池

網址:tianchi.aliyun.com

簡介:阿里旗下,知名度最高的中文競賽平臺。阿里集團於2014年正式推出“天池”大數據科研平臺,該平臺基於阿里雲的開放數據處理服務ODPS,面向學術界開放海量數據(阿里數據及第三方數據)和分佈式計算資源,旨在打造“數據眾智、眾創”第一平臺。

“天池”業務包括:天池大數據競賽、數據實驗室、開放式教學、數據人才認證。在這裡,人人都可以玩轉大數據,共同探索數據眾創新模式。

乾貨分享 | 11個數據競賽平臺大盤點,文末還有競賽實例詳解

06

點石

網址:
dianshi.baidu.com/competition

簡介:百度旗下的數據競賽平臺。可以與頂尖高手過招,用高效數據算法,探索優秀方案,解決機器學習難題。

乾貨分享 | 11個數據競賽平臺大盤點,文末還有競賽實例詳解

07

JDAta

網址:jdata.jd.com

簡介:京東旗下的數據競賽平臺。致力於通過項目和比賽自我提升,通過分享交流共同成長。

這裡有大數據競賽。在這裡,通過全線上組隊、分析、開發、評測等環節,讓比賽更公平、多元、開放!優秀的解決方案將有機會直接運用到京東智慧營銷系統,服務數億用戶。

這裡還可以進行技術共享。可以將自己的算法思想在JDATA中分享,也可以瀏覽其他人的成果,可以在論壇圈子中對數據難題展開問答,尋找解決方案。

08

Datacastle

網址:

www.pkbigdata.com

簡介:電科大背景,國內較為成熟的平臺。

DataCastle數據科學學習社區隸屬於成都數聚城堡科技有限公司。有領先的數據科學思維與智慧以及各行業領域優質數據資源, 致力於不斷輸出優質的大數據人才、大數據解決方案以及數據科學核心技術知識。

乾貨分享 | 11個數據競賽平臺大盤點,文末還有競賽實例詳解

09

DataFountain

網址:www.datafountain.cn

簡介:CCF背景,每年舉辦CCF數據挖掘競賽。DF通過“眾包”模式彙集各類大數據資源;以“眾籌”模式彙集行業需求,形成大數據問題求解、科學發現、人工智能、商業智能、情報挖掘、大數據分析和大數據管理等挑戰問題集合。

“眾創”模式吸引全國最大規模的數據創新創業人才和最優秀的數據科學家共同解決複雜的大問題;通過創意大賽挖掘有價值的大數據應用及商業模式。

DF平臺的參賽者除了獲得獎金和經驗外,還可以通過平臺相互學習,提升自身能力,在競賽中收穫知識、財富、名譽和樂趣

乾貨分享 | 11個數據競賽平臺大盤點,文末還有競賽實例詳解

10

Biendata

網址:biendata.com

簡介:清華學術背景,平臺以學術比賽為主。這是一個提供數據科學競賽的平臺,以滿足不同企業和組織的需求。致力於幫助您解決具有挑戰性的數據相關問題,從而使業務更加智能化。

11

科賽

網址:www.kesci.com

簡介:國內機制較為完善的平臺,是高質量的獨立第三方數據科學社區。這裡不止有高質量的數據集、精彩的開源數據項目、多元的實訓場景,還有 50,000+ 數據科學愛好者共同學習。這裡還彙集了來自企業和科研機構的數據科學任務,你可以自由申請參加,鍛鍊實戰能力,獲得懸賞獎金。

乾貨分享 | 11個數據競賽平臺大盤點,文末還有競賽實例詳解

競賽實例講解

接下來介紹下竟賽的相關知識點,首先按照賽題的任務可以將賽題類型分為三類:

分類賽題:比賽的標籤是類別,任務是分類問題。例如預測用戶是否違,圖像分類

迴歸賽題:比賽的標籤是數值,任務是迴歸問題。例如預測用戶的貸款金額,PM2.5預測

時序賽題:比賽的標籤與時間相關,任務是時序問題。例如商鋪銷量預測,汽車流量預測

乾貨分享 | 11個數據競賽平臺大盤點,文末還有競賽實例詳解

賽題也可以根據數據類型分為兩類:

結構化數據:

數據已表格形式進行表示,例如表格數據

非結構化數據:數據已非結構化進行表示,例如文本數據或者圖像數據

賽題也可以根據業務場景進行分類:風控類型問題、CTR類型問題和用戶行為預測等場景

乾貨分享 | 11個數據競賽平臺大盤點,文末還有競賽實例詳解

當你拿到賽題後,一定要把出題方給定的信息進行仔細鬩讀,弄清楚賽題的背景、任務、數據、評測方式、時間點等信息

。也推薦大家有空就去Kaggle上多參加一些比賽,非常鍛鍊能力,同時也能夠學到很多。

Kaggle上每個比賽都會包括如下的頁面:

  • Overview:對比賽的背景任務和評測方式相關的介紹,還包括比賽時間賽程信息
  • Data:比賽數據信息的介紹
  • Kernels:比賽分享的代碼內核,可以是R或者 Python兩種環境的。Kernels還提供了免費的計算資源(還有GPU哦),對選手非常友好
  • Discussion:比賽相關的帖子分享
  • Leaderboard:比賽得分的排行榜
  • Rules:比賽的規則和注意事項
  • teams:比賽的組隊信息
乾貨分享 | 11個數據競賽平臺大盤點,文末還有競賽實例詳解

每個比賽的 Kernels和 Discussion部分都是廣大參賽選手進行分享的地方,會分享賽題的方方面面。Kaggle的魅力就在於此,每個比賽的Kernels和 Discussion部分都會讓人醍醐灌頂。大家有時間一定要去參加一下這些數據競賽,不要錯過了這項學習機會哦!

更多IT乾貨文章與資訊,關注微信公眾號:DueApe(ID:DueApeTutor)獲取。


分享到:


相關文章: