數據集是機器學習無法忽視的話題,我們根據數據集的類型,收集一些常用的數據集,方便大家快速找到自己需要的數據集。
DBpedia
Dbpedia – a large-scale, multilingual knowledge base extracted from wikipedia
DBpedia 是一個大型的、多語言的、來自Wikipedia 的數據集。 DBpedia會每個月發佈一個新版本,每一次發佈都會新增或刪除一些類別(classes)和屬性(properities) 。
最常用的版本包含 560000 條訓練樣本和 70000 條測試樣本,包含14種標籤。
Ohsumed
http://davis.wpi.edu/xmdv/datasets/ohsumed.html
這個數據集是 MEDLINE 數據集的子集。Ohsumed包含 7400 篇文章。每一篇文章是一個醫學文摘(medical abstract),至少有一個或多個標籤,這些標籤來自23種心血管疾病類別。
EUR-Lex
Efficient pairwise multilabel classification for large-scale problems in the legal domain
該數據集的最常用版本收集了不同領域的歐盟法律,幷包含 19314 個文檔和 3956 個類別。
WOS
Hdltex: Hierarchical deep learning for text classification
Web of Science(WOS) 數據集收集了 Web of Science 上發表的文章。Web of Science 是世界上最受信任的、獨立於發行商的全球引文數據庫。
WOS已發佈三個版本:WOS-46985,WOS-11967 和 WOS-5736。其中 WOS-46985 是完整的數據集。 WOS-11967 和 WOS-5736 是 WOS-46985 的兩個子集。
PubMed
Pubmed and beyond: a survey of web tools for searching biomedical literature
PubMed 是由美國國家醫學圖書館開發的搜索引擎,用於搜索醫學和生物科學論文,其中包含文獻收藏。每個文檔都用 MeSH標籤集 來標註類別。
摘要中的每個句子都使用以下類別之一:背景,目標,方法,結果或結論;以說明該句子在摘要中的作用。
其他常見數據集
- PubMed 200k RCT
Pubmed 200k rct: a dataset for sequential sentence classification in medical abstracts
- Irony
Humans require context to infer ironic intent (so computers probably do, too)
參考文獻
- Deep Learning Based Text Classification: A Comprehensive Review