【數據】主題分類數據集

數據集是機器學習無法忽視的話題,我們根據數據集的類型,收集一些常用的數據集,方便大家快速找到自己需要的數據集。


DBpedia

Dbpedia – a large-scale, multilingual knowledge base extracted from wikipedia

DBpedia 是一個大型的、多語言的、來自Wikipedia 的數據集。 DBpedia會每個月發佈一個新版本,每一次發佈都會新增或刪除一些類別(classes)和屬性(properities) 。

最常用的版本包含 560000 條訓練樣本和 70000 條測試樣本,包含14種標籤。


Ohsumed

http://davis.wpi.edu/xmdv/datasets/ohsumed.html

這個數據集是 MEDLINE 數據集的子集。Ohsumed包含 7400 篇文章。每一篇文章是一個醫學文摘(medical abstract),至少有一個或多個標籤,這些標籤來自23種心血管疾病類別。


EUR-Lex

Efficient pairwise multilabel classification for large-scale problems in the legal domain

該數據集的最常用版本收集了不同領域的歐盟法律,幷包含 19314 個文檔和 3956 個類別。


WOS

Hdltex: Hierarchical deep learning for text classification

Web of Science(WOS) 數據集收集了 Web of Science 上發表的文章。Web of Science 是世界上最受信任的、獨立於發行商的全球引文數據庫。

WOS已發佈三個版本:WOS-46985,WOS-11967 和 WOS-5736。其中 WOS-46985 是完整的數據集。 WOS-11967 和 WOS-5736 是 WOS-46985 的兩個子集。


PubMed

Pubmed and beyond: a survey of web tools for searching biomedical literature

PubMed 是由美國國家醫學圖書館開發的搜索引擎,用於搜索醫學和生物科學論文,其中包含文獻收藏。每個文檔都用 MeSH標籤集 來標註類別。

摘要中的每個句子都使用以下類別之一:背景,目標,方法,結果或結論;以說明該句子在摘要中的作用。


其他常見數據集

  • PubMed 200k RCT

Pubmed 200k rct: a dataset for sequential sentence classification in medical abstracts

  • Irony

Humans require context to infer ironic intent (so computers probably do, too)


參考文獻

  1. Deep Learning Based Text Classification: A Comprehensive Review


分享到:


相關文章: