【数据】主题分类数据集

数据集是机器学习无法忽视的话题,我们根据数据集的类型,收集一些常用的数据集,方便大家快速找到自己需要的数据集。


DBpedia

Dbpedia – a large-scale, multilingual knowledge base extracted from wikipedia

DBpedia 是一个大型的、多语言的、来自Wikipedia 的数据集。 DBpedia会每个月发布一个新版本,每一次发布都会新增或删除一些类别(classes)和属性(properities) 。

最常用的版本包含 560000 条训练样本和 70000 条测试样本,包含14种标签。


Ohsumed

http://davis.wpi.edu/xmdv/datasets/ohsumed.html

这个数据集是 MEDLINE 数据集的子集。Ohsumed包含 7400 篇文章。每一篇文章是一个医学文摘(medical abstract),至少有一个或多个标签,这些标签来自23种心血管疾病类别。


EUR-Lex

Efficient pairwise multilabel classification for large-scale problems in the legal domain

该数据集的最常用版本收集了不同领域的欧盟法律,并包含 19314 个文档和 3956 个类别。


WOS

Hdltex: Hierarchical deep learning for text classification

Web of Science(WOS) 数据集收集了 Web of Science 上发表的文章。Web of Science 是世界上最受信任的、独立于发行商的全球引文数据库。

WOS已发布三个版本:WOS-46985,WOS-11967 和 WOS-5736。其中 WOS-46985 是完整的数据集。 WOS-11967 和 WOS-5736 是 WOS-46985 的两个子集。


PubMed

Pubmed and beyond: a survey of web tools for searching biomedical literature

PubMed 是由美国国家医学图书馆开发的搜索引擎,用于搜索医学和生物科学论文,其中包含文献收藏。每个文档都用 MeSH标签集 来标注类别。

摘要中的每个句子都使用以下类别之一:背景,目标,方法,结果或结论;以说明该句子在摘要中的作用。


其他常见数据集

  • PubMed 200k RCT

Pubmed 200k rct: a dataset for sequential sentence classification in medical abstracts

  • Irony

Humans require context to infer ironic intent (so computers probably do, too)


参考文献

  1. Deep Learning Based Text Classification: A Comprehensive Review


分享到:


相關文章: