06.13 SQuAD2.0來了!新增5萬人工撰寫問題,且不一定有答案

允中 發自 凹非寺

量子位 報道 | 公眾號 QbitAI

SQuAD2.0來了!新增5萬人工撰寫問題,且不一定有答案

SQuAD 2.0來了!

今日(6月13日),斯坦福NLP團隊對外宣稱,機器閱讀理解數據集SQuAD(Stanford Question Answering Dataset)完成新一波更新,將由SQuAD 1.1版本迭代至SQuAD 2.0。

箇中變化還是非常明顯的。

SQuAD 2.0

斯坦福NLP官方說,相較SQuAD 1.1中的10萬問答,SQuAD 2.0又新增了5萬個人類撰寫的問題——而且問題不一定有對應答案。

於是同時迭代的SQuAD 2.0測試系統,不僅要求機器能從對應段落中找到問題答案,還測試機器在沒有對應答案時可以say No,而不是瞎猜。

這算是進一步加大了機器在精準回答方面的難度。

目前,人類表現分別是EM——精準匹配結果:86.831分,F1——模糊匹配:89.452分。

SQuAD2.0來了!新增5萬人工撰寫問題,且不一定有答案

需要指出的是,SQuAD推出之初,2016年,斯坦福大學從維基百科上隨機選取了500多篇文章,並進一步細分成兩萬多個段落。隨後採用眾包的方式,由人類閱讀這些文章後,為每個段落提出五個問題,並對段落內的答案進行人工標註。

最後,終於構成了包含10萬多個問題的閱讀理解數據集SQuAD。

但爭論也隱藏其中,並在今年“機器閱讀理解能力擊敗人類”事件中徹底吵開了。

SQuAD風雲

SQuAD數據集有兩個衡量標準,EM和F1。

EM是精確匹配結果,也就是模型給出的答案與標準答案一模一樣。

F1是模糊匹配,可以理解為機器答對了部分內容,是根據模型給出的答案和標準答案之間的重合度計算出來的

基於SQuAD的排名比拼,也是考察EM和F1兩項成績。

過去一年,大部分時間都是科大訊飛團隊和微軟不同團隊的競爭。7月微軟登頂,8月科大訊飛首次折桂,9、10兩月基本是微軟天下,11月訊飛再次創出最佳成績。

然後風雲突變。先是騰訊突然殺入,併成功在12月底霸榜。然而“好景不長”,微軟亞洲研究院和阿里巴巴iDST團隊今年初先後發力,再次創出歷史最好成績,並且首次“超越人類”——他們在EM成績上都擊敗了“人類表現”。

於是就開始有聲音說:人類已經在閱讀理解上被機器超越了。

但也馬上遭遇反駁。

SQuAD2.0來了!新增5萬人工撰寫問題,且不一定有答案

學界一方面有人指出這種說法過於誇大不嚴謹。

另一方面也有人將矛頭指向SQuAD數據集侷限性的問題。

以色列巴伊蘭大學的著名NLP研究者Yoav Goldberg,他專門寫了個PPT,列出了SQuAD1.1的三大不足:

  • 受限於可以選擇span來回答的問題;
  • 需要在給定的段落裡尋找答案;
  • 段落裡保證有答案。

無獨有偶,DeepMind也專門發佈了一篇名為NarrativeQA的論文談論了這些問題。

他們認為,由於SQuAD問題的答案必須是給定段落中的內容,這就導致很多評估閱讀理解能力應該用到的合情合理的問題,根本沒法問。

同時,這種簡單的答案通過文檔表面的信號就能提取出來,對於無法用文中短語來回答、或者需要用文中幾個不連續短語來回答的問題,SQuAD訓練出來的模型無法泛化。

另外,SQuAD雖然問題很多,但其實用到的文章又少又短,這就限制了整個數據集詞彙和話題的多樣性。

因此,SQuAD上表現不錯的模型,如果要用到更復雜的問題上,可擴展性和適用性都很成問題。

DeepMind的論文說,包括SQuAD在內的很多閱讀理解數據集都“不能測試出閱讀理解必要的綜合方面”。

所以此次SQuAD 2.0的更新,一定程度上也可視為對上述問題的回應。

最新排名:猿輔導領隊中國軍團

當然,哪裡有AI數據集競賽,哪裡就有不斷刷新榜單的中國軍團。

之前在SQuAD,中國代表團中的常客是科大訊飛、微軟亞洲研究院,不過去年以來,阿里達摩院旗下的iDST和騰訊也成了大軍中一員,甚至有幾次還是頭號玩家。

但是,SQuAD 1.1最新榜單裡,成為中國軍團領頭羊的團隊,可能會令你陌生——YUANFUDAO。

沒錯,就是那個主打在線教育的猿輔導。

當前猿輔導以EM83.520,F189.612的成績,微微微落後於Google大腦&CMU團隊,排名全球第二。

SQuAD2.0來了!新增5萬人工撰寫問題,且不一定有答案

不過猿輔導雖然是SQuAD的新面孔,但在另一項知名機器閱讀比賽MSMARCO中,早已霸氣外露。

在3月27日的最新排名中,猿輔導位列MSMARCO全球第一。

SQuAD2.0來了!新增5萬人工撰寫問題,且不一定有答案

而且成績還超過了人類水準,當時猿輔導團隊的兩項測試得分為:49.72、48.02。而人類基準為47、46。

所以現在猿輔導出現在SQuAD 1.1全球玩家前列,實際也不算特別意外。

可順路一提的是,中國軍團在SQuAD 1.1最新榜單中實力確實超強,前十排名中,隨處可見中國團隊。

SQuAD2.0來了!新增5萬人工撰寫問題,且不一定有答案

這才叫:厲害了,我的國。

SQuAD2.0論文傳送門:

https://arxiv.org/abs/1806.03822

— 完 —

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回覆“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ'ᴗ' ի 追蹤AI技術和產品新動態


分享到:


相關文章: