【数据】问答数据集

数据集是机器学习无法忽视的话题,我们根据数据集的类型,收集一些常用的数据集,方便大家快速找到自己需要的数据集。

SQuAD

Squad: 100,000+ questions for machine comprehension of text (SQuAD 1.1) Know what you don’t know: Unanswerable questions for squad (SQuAD 2.0)

Stanford Question Answering Dataset (SQuAD) 源自维基百科文章的问答对。在SQuAD中,问题的正确答案可以是 给定文本中标记的任何部分。由于问题和答案是由人通过众包的方式产生的,因此它比其他一些问答数据集更加多样化。

SQuAD 1.1 包含536篇文章中的 107785 个问答对。

SQuAD 2.0 是最新版本,在原来基础上增加对抗性问题的同时,也新增了一项任务:判断一个问题能否根据提供的阅读文本作答。

MS MARCO

Ms marco: a human-generated machine reading comprehension dataset

这是由微软发布的。和 SQuAD 不一样,SQuAD 所有的问题都是由编辑产生的。MS MARCO 中所有的问题,都是在 Bing 搜索引擎中抽取 用户的查询 和 真实网页文章的片段 组成。一些回答甚至是“生成的”。所以这个数据集可以用在开发 生成式问答系统。

有多个版本的 MS MARCO 用在不同的用途:extractive QA、passage ranking ……

TREC-QA

https://cogcomp.seas.upenn.edu/Data/QA/QC/

这个数据集有两个版本:TREC-6 和 TREC-50。

TREC-6 由6个类别的问题组成,而 TREC-50 由五十个类别的问题组成。

这两个版本,其训练和测试数据集 都分别包含 5452 和 500 个问题。

WikiQA

Wikiqa: A challenge dataset for open-domain question answering,

该数据集也包括了一些没有正确答案的问题,可以用来评估 answer triggering models。

Quora

https://data.quora.com/First-Quora-Dataset-Release-QuestionPairs

这个数据集原本是用在复述检测(paraphrase identification)上的(就是查找重复的问题)。

为了上面的目的,作者给出了 Quora数据集 的子集,其包含超过 400000 个问题对,每个问题对都有一个二分类标签,来表示这两个问题是否相同。

其他常见数据集

  • Situations With Adversarial Generations (SWAG)

Swag: A large-scale adversarial dataset for grounded commonsense inference,

  • SelQA

Selqa: A new benchmark for selection-based question answering,

参考文献

  1. Deep Learning Based Text Classification: A Comprehensive Review


分享到:


相關文章: