整理好的機器學習數據集彙總(附下載地址)

整理好的機器學習數據集彙總(附下載地址)

來源:http://suo.im/6xbqoU

大學公開數據集

  • (Stanford)69G大規模無人機(校園)圖像數據集【Stanford】
  • http://cvgl.stanford.edu/projects/uav_data/
  • 人臉素描數據集【CUHK】
  • http://mmlab.ie.cuhk.edu.hk/archive/facesketch.html
  • 自然語言推理(文本蘊含標記)數據集【NYU】
  • https://www.nyu.edu/projects/bowman/multinli/
  • Berkeley圖像分割數據集BSDS500【Berkeley】
  • https://www2.eecs.berkeley.edu/Research/Projects/CS/vision/grouping/resources.html
  • 寵物圖片(分割)數據集【Oxford】
  • http://www.robots.ox.ac.uk/~vgg/data/pets/
  • 發佈ADE20K場景感知/解析/分割/多目標識別數據集【MIT】
  • https://groups.csail.mit.edu/vision/datasets/ADE20K/
  • 多模態二元行為數據集【GaTech】
  • http://www.cbi.gatech.edu/mmdb/

計算機視覺/圖像/視頻數據集

  • Fashion-MNIST風格服飾圖像數據集【肖涵】
  • https://github.com/zalandoresearch/fashion-mnist
  • 大型(50萬)LOGO標誌數據集
  • https://data.vision.ee.ethz.ch/cvl/lld/
  • 4D掃描(60fps移動非剛性物體3D掃描)數據集【D-FAUST】
  • http://dfaust.is.tue.mpg.de
  • 基於MNIST的視覺計數合成數據集Counting MNIST
  • http://fomoro.com/tools/counting-mnist/
  • YouTube MV視頻數據集【Keunwoo Choi】
  • https://github.com/keunwoochoi/YouTube-music-video-5M
  • 計算機視覺合成數據集/工具大列表【unrealcv】
  • https://github.com/unrealcv/synthetic-computer-vision
  • 動物屬性標記數據集【ChristophH. Lampert/Daniel Pucher/JohannesDostal】
  • http://cvml.ist.ac.at/AwA2/
  • 日本漫畫數據集Manga109
  • http://dl.acm.org/citation.cfm?doid=3011549.3011551
  • 俯拍舞蹈視頻數據集
  • http://homepages.inf.ed.ac.uk/rbf/CEILIDHDATA/
  • Pixiv(著色)圖片數據集【Jerry Li】
  • https://github.com/jerryli27/pixiv_dataset
  • e-VDS視頻數據集
  • https://engineering.purdue.edu/elab/eVDS/#download
  • Quick, Draw!簡筆畫塗鴉數據集
  • https://github.com/googlecreativelab/quickdraw-dataset
  • 簡筆畫塗鴉數據集【hardmaru】
  • https://github.com/hardmaru/sketch-rnn-datasets
  • 服飾人像生成模型(&Chictopia10K[HumanParsing]時尚人像解析數據集)【Christoph Lassner/Gerard Pons-Moll/Peter V. Gehler】
  • http://files.is.tue.mpg.de/classner/gp/
  • COCO像素級標註數據集
  • https://github.com/nightrome/cocostuff
  • 大規模街道級圖片(分割)數據集【Peter Kontschieder】
  • http://blog.mapillary.com/product/2017/05/03/mapillary-vistas-dataset.html
  • 大規模日語圖片描述數據集
  • https://github.com/STAIR-Lab-CIT/STAIR-captions
  • Cityscapes街景語義分割數據集(50城30類5k細標20k粗標圖片及標記視頻)
  • https://github.com/mcordts/cityscapesScripts
  • (街頭)時尚服飾數據集(2000+標註圖片)
  • https://github.com/bearpaw/clothing-co-parsing
  • PyTorch實現的VOC2012數據集Pixel-wise目標分割【BodoKaiser】
  • https://github.com/bodokaiser/piwise
  • Twenty Billion Neurons對象複雜運動與交互視頻數據集【Nikita Johnson】
  • https://www.re-work.co/blog/the-something-something-video-dataset

文本/評價/問答/自然語言數據集

  • (20萬)英文笑話數據集【TaivoPungas】
  • https://github.com/taivop/joke-dataset
  • 機器學習保險行業問答開放數據集【HainWang】
  • https://github.com/shuzi/insuranceQA
  • 保險行業問答(QA)數據集【Minwei Feng】
  • https://github.com/shuzi/insuranceQA
  • Stanford NLP發佈新的多輪、跨域、任務導向對話數據集【Mihail Eric】
  • https://github.com/keunwoochoi/YouTube-music-video-5M
  • 實體/名詞語義關係標記數據集【David S. Batista】
  • https://github.com/davidsbatista/Annotated-Semantic-Relationships-Datasets
  • NLVR:自然語言基礎數據集(對象分組、數量、比較及空間關係推理)
  • http://lic.nlp.cornell.edu/nlvr/
  • 2.8萬文章/10萬問題大規模(英語考試)閱讀理解數據集
  • https://github.com/qizhex/RACE_AR_baselines
  • 錯誤拼寫數據集
  • http://www.dcs.bbk.ac.uk/~ROGER/corpora.html
  • 文本簡化數據集
  • http://www.cs.pomona.edu/~dkauchak/simplification/
  • 英語詞/句/語義框架框架標註數據集FrameNet
  • https://framenet.icsi.berkeley.edu/fndrupal/
  • (又一個)自然語言處理(NLP)數據集列表【Nicolas Iderhoff】
  • https://github.com/niderhoff/nlp-datasets
  • 跨語種/多樣式/多粒度文本相似性檢測數據集
  • https://github.com/FerreroJeremy/Cross-Language-Dataset
  • Quora數據集:400000行潛在重複問題
  • http://qim.ec.quoracdn.net/quora_duplicate_questions.tsv
  • 文本分類數據集
  • http://disi.unitn.it/moschitti/corpora.htm
  • Frames:Maluuba對話數據集
  • https://datasets.maluuba.com/Frames/dl
  • 跨域(Amazon商品評論)情感數據集
  • http://www.cs.jhu.edu/~mdredze/datasets/sentiment/
  • 語義網機器學習系統評價/基準數據集集合
  • http://dws.informatik.uni-mannheim.de/en/research/a-collection-of-benchmark-datasets-for-ml

其它數據集

  • 數據科學/機器學習數據集彙總
  • https://elitedatascience.com/datasets
  • CORe50:連續目標識別數據集【VincenzoLomonaco&DavideMaltoni】
  • https://vlomonaco.github.io/core50/
  • (Matlab)數據集統計分佈自動發現【Isabel Valera】
  • http://proceedings.mlr.press/v70/valera17a.html
  • (建築物)損害評估數據集【tsunami】
  • https://github.com/faiton713/ABCDdataset
  • IndieWeb社交圖譜數據集【IndieWeb】
  • http://www.indiemap.org
  • DeepMind開源環境/數據集/代碼集合【DeepMind】
  • https://deepmind.com/research/open-source/
  • 鳥叫聲數據集【xeno-canto】
  • http://www.xeno-canto.org
  • Wolfram數據集倉庫
  • https://datarepository.wolframcloud.com
  • 大型音樂分析數據集FMA
  • https://github.com/mdeff/fma
  • (300萬)Instacart在線雜貨購物數據集【Jeremy Stanley】
  • https://tech.instacart.com/3-million-instacart-orders-open-sourced-d40d29ead6f2
  • 用於欺詐檢測的合成財務數據集【TESTIMON】
  • https://www.kaggle.com/ntnu-testimon/paysim1
  • NSynth:大規模高質量音符標記音頻數據集
  • https://magenta.tensorflow.org/datasets/nsynth
  • LIBSVM格式分類/迴歸/多標籤/字符串數據集
  • https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/binary.html
  • 筆記本電腦用logistic迴歸擬合100G數據集【DmitriySelivanov】
  • http://dsnotes.com/post/2017-02-07-large-data-feature-hashing-and-online-learning-part-2/
  • StackExchange近似/重複問題數據集
  • http://nlp.cis.unimelb.edu.au/resources/cqadupstack/
  • 2010-2017最全KDD CUP賽題回顧及數據集
  • http://suo.im/2kRoQ1
  • 食譜數據集:帶有評級、營養及類別信息的超過2萬種食譜【HugoDarwood】
  • https://www.kaggle.com/hugodarwood/epirecipes
  • 奧斯卡數據集【Academy of Motion Picture Arts and Sciences】
  • https://www.kaggle.com/theacademy/academy-awards
  • 計算醫療庫:(TensorFlow)大型醫療數據集分析與機器學習建模【AkshayBhat】
  • https://github.com/AKSHAYUBHAT/ComputationalHealthcare
  • 聚類數據集
  • https://cs.joensuu.fi/sipu/datasets/
  • 官方開放氣候數據集
  • https://pan.baidu.com/s/1i52Xarb
  • 全球恐怖襲擊事件數據集【START Consortium】
  • https://www.kaggle.com/START-UMD/gtd
  • 七個機器學習時序數據集
  • https://machinelearningmastery.com/time-series-datasets-for-machine-learning/
  • 大型眾包關係數據庫自然語言查詢語義解析數據集(8萬+查詢樣本)
  • http://t.cn/RNMr09n
  • 賽馬賠率數據集
  • http://t.cn/RNf0tXN
  • 新的YELP數據集:包含470萬評論和15.6萬商家
  • http://t.cn/RNG6JYi
  • JMIR數據集專刊《JMIR Data》
  • http://t.cn/RCIhmvS
  • 日文木版印刷文字識別數據集
  • http://t.cn/RCZPfYB
  • 多模態二元行為數據集
  • http://t.cn/RCzFn1g
  • 機器學習論文/數據集/工具集錦(日文)
  • http://t.cn/RKV7x2A
  • 機器學習公司的十大數據蒐集策略
  • http://t.cn/R54rtvd
  • NLP數據集加載工具集
  • http://t.cn/RaYwYXl
  • 日語相似詞數據集
  • http://t.cn/RaVFV35
  • 大規模人本完形填空(多選閱讀理解)數據集
  • http://t.cn/Rac2Pey
  • 高質量免費數據集列表
  • http://t.cn/R6B1aqa
  • 《數據之美》自然語言數據集/代碼
  • http://t.cn/hBOTM4
  • 微軟數據集MS MARCO,閱讀理解領域的「ImageNet」
  • http://t.cn/RIMqGBK
  • AI2科學問答數據集(多選)
  • http://t.cn/RI5liwJ

常用圖像數據集大全

(分類,跟蹤,分割,檢測等)

  • 搜狗實驗室數據集:
  • http://www.sogou.com/labs/dl/p.html
  • 互聯網圖片庫來自sogou圖片搜索所索引的部分數據。其中收集了包括人物、動物、建築、機械、風景、運動等類別,總數高達2,836,535張圖片。對於每張圖片,數據集中給出了圖片的原圖、縮略圖、所在網頁以及所在網頁中的相關文本。200多G。
  • http://www.imageclef.org/
  • IMAGECLEF致力於為圖片相關領域提供一個基準(檢索、分類、標註等等) Cross Language Evaluation Forum (CLEF) 。從2003年開始每年舉行一次比賽。
  • http://staff.science.uva.nl/~xirong/index.php?n=Main.Dataset


分享到:


相關文章: