数据集是机器学习无法忽视的话题,我们根据数据集的类型,收集一些常用的数据集,方便大家快速找到自己需要的数据集。
DBpedia
Dbpedia – a large-scale, multilingual knowledge base extracted from wikipedia
DBpedia 是一个大型的、多语言的、来自Wikipedia 的数据集。 DBpedia会每个月发布一个新版本,每一次发布都会新增或删除一些类别(classes)和属性(properities) 。
最常用的版本包含 560000 条训练样本和 70000 条测试样本,包含14种标签。
Ohsumed
http://davis.wpi.edu/xmdv/datasets/ohsumed.html
这个数据集是 MEDLINE 数据集的子集。Ohsumed包含 7400 篇文章。每一篇文章是一个医学文摘(medical abstract),至少有一个或多个标签,这些标签来自23种心血管疾病类别。
EUR-Lex
Efficient pairwise multilabel classification for large-scale problems in the legal domain
该数据集的最常用版本收集了不同领域的欧盟法律,并包含 19314 个文档和 3956 个类别。
WOS
Hdltex: Hierarchical deep learning for text classification
Web of Science(WOS) 数据集收集了 Web of Science 上发表的文章。Web of Science 是世界上最受信任的、独立于发行商的全球引文数据库。
WOS已发布三个版本:WOS-46985,WOS-11967 和 WOS-5736。其中 WOS-46985 是完整的数据集。 WOS-11967 和 WOS-5736 是 WOS-46985 的两个子集。
PubMed
Pubmed and beyond: a survey of web tools for searching biomedical literature
PubMed 是由美国国家医学图书馆开发的搜索引擎,用于搜索医学和生物科学论文,其中包含文献收藏。每个文档都用 MeSH标签集 来标注类别。
摘要中的每个句子都使用以下类别之一:背景,目标,方法,结果或结论;以说明该句子在摘要中的作用。
其他常见数据集
- PubMed 200k RCT
Pubmed 200k rct: a dataset for sequential sentence classification in medical abstracts
- Irony
Humans require context to infer ironic intent (so computers probably do, too)
参考文献
- Deep Learning Based Text Classification: A Comprehensive Review