【數據】問答數據集

數據集是機器學習無法忽視的話題,我們根據數據集的類型,收集一些常用的數據集,方便大家快速找到自己需要的數據集。

SQuAD

Squad: 100,000+ questions for machine comprehension of text (SQuAD 1.1) Know what you don’t know: Unanswerable questions for squad (SQuAD 2.0)

Stanford Question Answering Dataset (SQuAD) 源自維基百科文章的問答對。在SQuAD中,問題的正確答案可以是 給定文本中標記的任何部分。由於問題和答案是由人通過眾包的方式產生的,因此它比其他一些問答數據集更加多樣化。

SQuAD 1.1 包含536篇文章中的 107785 個問答對。

SQuAD 2.0 是最新版本,在原來基礎上增加對抗性問題的同時,也新增了一項任務:判斷一個問題能否根據提供的閱讀文本作答。

MS MARCO

Ms marco: a human-generated machine reading comprehension dataset

這是由微軟發佈的。和 SQuAD 不一樣,SQuAD 所有的問題都是由編輯產生的。MS MARCO 中所有的問題,都是在 Bing 搜索引擎中抽取 用戶的查詢 和 真實網頁文章的片段 組成。一些回答甚至是“生成的”。所以這個數據集可以用在開發 生成式問答系統。

有多個版本的 MS MARCO 用在不同的用途:extractive QA、passage ranking ……

TREC-QA

https://cogcomp.seas.upenn.edu/Data/QA/QC/

這個數據集有兩個版本:TREC-6 和 TREC-50。

TREC-6 由6個類別的問題組成,而 TREC-50 由五十個類別的問題組成。

這兩個版本,其訓練和測試數據集 都分別包含 5452 和 500 個問題。

WikiQA

Wikiqa: A challenge dataset for open-domain question answering,

該數據集也包括了一些沒有正確答案的問題,可以用來評估 answer triggering models。

Quora

https://data.quora.com/First-Quora-Dataset-Release-QuestionPairs

這個數據集原本是用在複述檢測(paraphrase identification)上的(就是查找重複的問題)。

為了上面的目的,作者給出了 Quora數據集 的子集,其包含超過 400000 個問題對,每個問題對都有一個二分類標籤,來表示這兩個問題是否相同。

其他常見數據集

  • Situations With Adversarial Generations (SWAG)

Swag: A large-scale adversarial dataset for grounded commonsense inference,

  • SelQA

Selqa: A new benchmark for selection-based question answering,

參考文獻

  1. Deep Learning Based Text Classification: A Comprehensive Review


分享到:


相關文章: