05.18 騰訊知文等提出新型生成式摘要模型

讓機器能根據文章的主題思想生成人類能夠讀懂的文本摘要是一個重要的 NLP 研究問題。騰訊知文團隊、蘇黎世聯邦理工學院、哥倫比亞大學和騰訊 AI Lab 的研究者針對這一任務提出了一種引入主題模型和強化學習方法的卷積神經網絡方法。該論文已被 IJCAI 2018 接收,機器之心在此進行了摘要介紹。

自動文本摘要在很多不同的自然語言處理(NLP)應用中都發揮著重要的作用,比如新聞標題生成 [Kraaij et al., 2002] 和 feed 流摘要 [Barzilay and McKeown, 2005]。對於文本摘要來說,概括文章的中心思想、信息豐富性、內容代表性等,都是非常重要的。自動文本摘要的關鍵難題是準確評估摘要結果、選擇重要信息、有效地過濾冗餘內容、總結相關信息從而得到可讀性強的摘要等。與其它 NLP 任務相比,自動文本摘要有自己的難點。比如,不同於機器翻譯任務(輸入和輸出序列通常長度相近),摘要任務的輸入和輸出序列大都很不平衡。另外,機器翻譯任務通常在輸入和輸出序列之間有一些直接詞義層面的對應,這在摘要任務中卻沒那麼明顯。

自動摘要技術有兩種類型,即抽取式(extraction)和生成式(abstraction)。抽取式摘要 [Neto et al., 2002] 的目標是通過選擇源文檔中的重要片段並將它們組合來生成摘要;而生成式摘要 [Chopra et al., 2016] 則是根據文檔的核心思想來重新組織生成摘要,因此這種摘要的靈活性更高。不同於抽取式摘要,生成式方法能夠針對源文檔的核心思想重新組織摘要語言,並確保所生成的摘要語法正確且保證可讀性;這更接近於人類做摘要的方式,因此也是本論文關注的方法。

近段時間,深度神經網絡模型已經在 NLP 任務上得到了廣泛應用,比如機器翻譯 [Bahdanau et al., 2014]、對話生成 [Serban et al., 2016] 和文本摘要 [Nallapati et al., 2016b]。使用循環神經網絡(RNN)[Sutskever et al., 2014] 的基於注意力機制的 sequence to sequence 框架 [Bahdanau et al., 2014] 在 NLP 任務上得到了尤其廣泛的應用。但是,基於 RNN 的模型更容易受到梯度消失問題的影響,因為它們具有非線性的鏈式結構;相比而言,基於 CNN 的模型 [Dauphin et al., 2016] 的結構是分層式的。此外,RNN 的隱藏狀態之間的時間依賴也影響了訓練過程的並行化,這會使得訓練效率低下。

在本論文中,我們提出了一種新方法,該方法基於卷積神經網絡的 sequence to sequence 框架(ConvS2S)[Gehring et al., 2017],引入結合主題模型的注意力機制。就我們所知,這是生成式文本摘要中首個採用卷積框架結合聯合注意力機制引入主題信息的研究,這能將主題化的和上下文的對齊信息提供到深度學習架構中。此外,我們還通過使用強化學習方法 [Paulus et al., 2017] 對我們提出的模型進行了優化。本論文的主要貢獻包括:

  • 我們提出了結合多步注意力機制和帶偏置生成機制的方法,將主題信息整合進了自動摘要模型中,注意力機制能引入上下文信息來幫助模型生成更連貫、多樣性更強和信息更豐富的摘要。

  • 我們在 ConvS2S 的訓練優化中使用了 self-critical 強化學習方法(SCST:self-critical sequence training),以針對文本摘要的指標 ROUGE 來直接優化模型,這也有助於緩解曝光偏差問題(exposure bias issue)。

  • 我們在三個基準數據集上進行了廣泛的實驗,結果表明引入主題模型和 SCST 強化學習方法的卷積神經網絡能生成信息更豐富更多樣化的文本摘要,模型在數據集上取得了較好的文本摘要效果。

3 引入強化學習和主題模型的卷積 sequence to sequence 框架

我們提出了引入強化學習和主題模型的卷積 sequence to sequence 模型,其包含詞語信息輸入和主題信息輸入的雙路卷積神經網絡結構、一種多步聯合注意力機制、一種帶主題信息偏置的文本生成結構和一個強化學習訓練過程。圖 1 展示了這種引入主題信息的卷積神經網絡模型。

騰訊知文等提出新型生成式摘要模型

圖 1:引入主題信息的卷積神經網絡結構示意圖。

3.1 ConvS2S 架構

我們使用 ConvS2S 架構 [Gehring et al., 2017] 作為我們的模型的基礎架構。在這篇論文中,我們使用了兩個卷積模塊,分別與詞層面和主題層面的 embedding 相關。我們在這一節介紹前者,在後一節介紹後者以及聯合注意力機制和帶偏置文本生成機制。

3.2 引入主題模型的多步注意力機制

主題模型是一種用於發現源文章集合中出現的抽象主題思想或隱藏語義的統計模型。在本論文中,我們使用了主題模型來獲取文檔的隱含知識以及將引入主題信息的多步注意力機制集成到 ConvS2S 模型中,這有望為文本摘要提供先驗知識。現在我們介紹如何通過聯合注意機制和帶偏置概率生成過程將主題模型信息引入到基本 ConvS2S 框架中。

5 結果和分析

騰訊知文等提出新型生成式摘要模型

表 4:模型在 Gigaword 語料庫上生成的摘要示例。D:源文檔,R:參考摘要,OR:引入強化學習的 ConvS2S 模型的輸出,OT:引入主題模型和強化學習的 ConvS2S 模型的輸出。藍色標記的詞是參考摘要中沒有出現的主題詞。紅色標記的詞是參考摘要和源文檔中都沒有出現的主題詞。

騰訊知文等提出新型生成式摘要模型

表 5: Rouge 在 DUC-2004 數據集上的準確度分數。在每種分數上的最佳表現用粗體表示。

騰訊知文等提出新型生成式摘要模型

表 7:模型在中文語料庫 LCSTS 上生成的摘要示例。D:源文檔,R:參考摘要,OR:引入強化學習的 ConvS2S 模型的輸出,OT:引入主題模型和強化學習的 ConvS2S 模型的輸出。藍色標記的詞是參考摘要中沒有出現的主題詞。紅色標記的詞是參考摘要和源文檔中都沒有出現的主題詞。

論文:一種用於抽象式文本摘要的強化型可感知主題的卷積序列到序列模型(A Reinforced Topic-Aware Convolutional Sequence-to-Sequence Model for Abstractive Text Summarization)

騰訊知文等提出新型生成式摘要模型

論文鏈接:https://arxiv.org/pdf/1805.03616.pdf

摘要:在本論文中,我們提出了一種解決自動文本摘要任務的深度學習方法,即將主題信息引入到卷積 sequence to sequence(ConvS2S)模型中並使用 self-critical 強化學習訓練方法(SCST)來進行優化。引入詞語和主題信息,加入多步注意力機制,我們的方法可以通過帶主題偏置的概率生成機制提升所生成摘要的連貫性、多樣性和信息豐富性。另一方面,SCST 這樣的強化學習訓練方法可以根據針對摘要的評價指標 ROUGE 直接優化模型,這也能緩解曝光偏差問題。我們在 Gigaword、 DUC-2004 和 LCSTS 數據集上進行實驗評估,結果表明我們提出的方法在生成式摘要上的優越性。


分享到:


相關文章: