【WWW2020-UIUC】為新聞故事生成具有代表性的標題

關注「AI 應用前沿」頭條號,
私信回覆“WWW” 就可以獲取論文下載鏈接

【WWW2020-UIUC】為新聞故事生成具有代表性的標題

每天都有數以百萬計的新聞文章在網上發佈,這對讀者來說是難以承受的。將報道同一事件的文章分組成新聞報道是幫助讀者進行新聞消費的一種常見方式。然而,如何高效、有效地為每一個故事生成一個有代表性的標題仍然是一個具有挑戰性的研究問題。文檔集自動摘要的研究已經有幾十年的歷史了,但是很少有研究關注於為一組文章生成具有代表性的標題。摘要的目的是用最少的冗餘捕獲最多的信息,而標題的目的是短篇幅捕獲由story文章共同共享的信息,並排除對每一篇文章過於具體的信息。在這項工作中,我們研究的問題,產生具有代表性的新聞故事標題。我們開發了一種遠監督方法來訓練大規模的沒有任何人工標註的生成模型。這種方法集中在兩個技術組件上。首先,我們提出了一個多層次的預訓練框架,該框架融合了大量不同質量的未標記語料庫。我們證明,在這個框架內訓練的模型比那些使用純人類策展語料庫訓練的模型表現得更好。其次,我們提出了一種新的基於自投票的文章注意層來提取多篇文章共享的顯著信息。我們證明了該層模型對新聞中潛在的干擾具有較強的魯棒性,無論是否存在干擾,其性能都優於已有的基線。我們可以通過合併人類標籤來進一步增強我們的模型,我們展示了我們的遠監督方法,這大大減少了對標籤數據的需求。

【WWW2020-UIUC】為新聞故事生成具有代表性的標題

關注「AI 應用前沿」頭條號,私信回覆“WWW” 就可以獲取論文下載鏈接


分享到:


相關文章: