百度又有11篇論文被ACL 2020收錄,頂尖AI實力持續耀眼國際舞臺

近日,國際自然語言處理領域頂級學術會議“國際計算語言學協會年會”(ACL 2020)公佈了今年大會的論文錄用結果。根據此前官方公佈的數據,本屆大會共收到 3429 篇投稿論文,投稿數量創下新高。其中,百度共有11篇論文被大會收錄,再次展現出在自然語言處理領域的超高水準。

國際計算語言學協會(ACL,The Association for Computational Linguistics)是自然語言處理領域影響力最大、最具活力的國際學術組織之一,百度CTO王海峰曾任2013年 ACL 主席(President),是ACL歷史上首位華人主席。

除了在國際AI學界的影響力外,ACL無論是審稿規範還是審稿質量,都是當今AI領域國際頂級會議中公認的翹楚。研究論文能夠被其錄用,不僅意味著研究成果得到了國際學術界的認可,也證明了研究本身在在實驗嚴謹性、思路創新性等方面的實力。而此次ACL 2020的審稿週期,從去年12月一直持續到今年4月,相比往年幾乎增加了一倍。雖然大會官方尚未公佈今年整體論文錄用率,但參照往年的評審過程和錄用率,論文被其錄取的難度依舊不會低。

百度的自然語言處理技術,在發展及應用上始終保持領先,一直被視為自然語言處理研究界的“第一梯隊”。今年除了11篇論文被錄用外,大會期間百度還將聯合Google、Facebook、UPenn、清華大學等海內外頂尖企業及高校,共同舉辦首屆同聲傳譯研討會(The 1st Workshop on Automatic Simultaneous Translation)。由於近期疫情影響,原定於今年7月5日至10日在美國西雅圖舉行的大會已改為線上舉辦,而上述同聲傳譯研討會也將改為在線上與專家學者們探討。

本屆大會百度被收錄的11篇論文,覆蓋了對話與交互系統、情感分析/預訓練表示學習、NLP 文本生成與摘要、機器翻譯/同聲翻譯、知識推理、AI輔助臨床診斷等諸多自然語言處理界的前沿研究方向,提出了包括情感知識增強的語言模型預訓練方法、基於圖表示的多文檔生成式摘要方法GraphSum等諸多新算法、新模型、新方法,不僅極大提升了相關領域的研究水平,也將推動人機交互、機器翻譯、智慧醫療等場景的技術落地應用。

以下為ACL 2020百度被收錄的11篇論文概覽。

一、對話與交互系統

1、Conversational Graph Grounded Policy Learning for Open-Domain Conversation Generation

百度又有11篇論文被ACL 2020收錄,頂尖AI實力持續耀眼國際舞臺

我們提出用圖的形式捕捉對話轉移規律作為先驗信息,用於輔助開放域多輪對話策略學習。基於圖,我們設計策略學習模型指導更加連貫和可控的多輪對話生成。首先,我們從對話語料庫中構造一個對話圖(CG),其中頂點表示“what to say”和“how to say”,邊表示對話當前句與其回覆句之間的自然轉換。然後,我們提出了一個基於CG的策略學習框架,該框架通過圖形遍歷進行對話流規劃,學習在每輪對話時從CG中識別出哪個頂點和如何從該頂點來指導回覆生成。我們可以有效地利用CG來促進對話策略學習,具體而言:(1)可以基於它設計更有效的長期獎勵;(2)它提供高質量的候選操作;(3)它讓我們對策略有更多的控制。我們在兩個基準語料庫上進行了實驗,結果證明了本文所提框架的有效性。

2、PLATO: Pre-trained Dialogue Generation Model with Discrete Latent Variable

百度又有11篇論文被ACL 2020收錄,頂尖AI實力持續耀眼國際舞臺

研發開放領域(Open-Domain)的對話機器人,使得它能用自然語言與人自由地交流,一直是自然語言處理領域的終極目標之一。對話系統的挑戰非常多,其中有兩點非常重要,一是大規模開放域多輪對話數據匱乏;二是對話中涉及常識、領域知識和上下文,一個對話的上文(Context),往往可以對應多個不同回覆(Response)的方向。PLATO首次提出將離散的隱變量結合Transformer結構,應用到通用對話領域。通過引入離散隱變量,可以對上文與回覆之間的“一對多”關係進行有效建模。同時,通過利用大規模的與人人對話類似的語料,包括Reddit和Twitter,進行了生成模型的預訓練,後續在有限的人人對話語料上進行微調,即可以取得高質量的生成效果。PLATO可以靈活支持多種對話,包括閒聊、知識聊天、對話問答等等。而文章最終公佈的在三個公開對話數據集上的評測,PLATO都取得了新的最優效果。

儘管越來越多的工作證明了隨著預訓練和大規模語料的引入,自然語言處理領域開啟了預訓練然後微調的範式。在對話模型上,大規模預訓練還處於初級階段,需要繼續深入探索。PLATO提出的隱變量空間預訓練模型,可能成為端到端對話系統邁上一個新臺階的關鍵點之一。

3、Towards Conversational Recommendation over Multi-Type Dialogs

百度又有11篇論文被ACL 2020收錄,頂尖AI實力持續耀眼國際舞臺

真實人機對話,涉及多類型對話(閒聊、任務型對話、問答等),如何自然的融合多類型對話是一個重要的挑戰。為應對這個挑戰,我們提出一個新的任務——多類型對話中的對話式推薦,期望Bot能夠主動且自然地將對話從非推薦對話(比如『問答』)引導到推薦對話,然後基於收集到的用戶興趣及用戶實時反饋通過多次交互完成最終的推薦目標。為便於研究這個任務,我們標註了一個包含多種對話類型、多領域和豐富對話邏輯(考慮用戶實時反饋)的人-人對話式推薦數據集DuRec(1萬個對話和16.4萬個utterance)。針對每個配對:推薦尋求者(user)和推薦者(bot),存在多個序列對話,在每個對話中,推薦者使用豐富的交互行為主動引導一個多類型對話不斷接近推薦目標。這個數據集允許我們系統地考察整個問題的不同部分,例如,如何自然地引導對話,如何與用戶交互以便於推薦。最後,我們使用一個具有多對話目標驅動策略機制的對話生成框架在DuRec上建立基線結果,表明了該數據集的可用性,併為將來的研究設定了基線。

二、情感分析/預訓練表示學習

4、SKEP: Sentiment Knowledge Enhanced Pre-training for Sentiment Analysis

百度又有11篇論文被ACL 2020收錄,頂尖AI實力持續耀眼國際舞臺

近年來,隨著預訓練語言模型的快速發展,情感分析等多項自然語言理解任務都取得了顯著的效果提升。然而,在通用語言模型預訓練中,文本中的很多情感相關的知識和信息,例如情感詞、實體-評論搭配等,並沒有被模型充分的學習。基於此,百度提出了一種情感知識增強的語言模型預訓練方法,在通用預訓練的基礎上,設計了面向情感知識建模的Masking策略和情感多目標學習算法,融合了情感詞、極性、主體評論關係等多層情感知識,首次實現了情感任務統一的文本預訓練表示學習。該算法在情感分類、觀點抽取等情感分析任務中相對主流預訓練模型RoBERTa有顯著的提升,同時刷新了多個情感分析標準測試集的世界最好水平。

5、Cross-Lingual Unsupervised Sentiment Classification with Multi-View Transfer Learning

本文針對無標籤資源的目標語言,提出了一種無監督的跨語言情感分析模型。

三、NLP 文本生成與摘要

6、Leveraging Graph to Improve Abstractive Multi-Document Summarization

百度又有11篇論文被ACL 2020收錄,頂尖AI實力持續耀眼國際舞臺

多文檔摘要(Multi-Document Summarization)技術自動為主題相關的文檔集生成簡潔、連貫的摘要文本,具有廣闊的應用場景,例如熱點話題綜述、搜索結果摘要、聚合寫作等。生成式多文檔摘要方法的難點之一是如何有效建模文檔內及文檔間的語義關係,從而更好地理解輸入的多文檔。為此,本論文提出基於圖表示的多文檔生成式摘要方法GraphSum,在神經網絡模型中融合多文檔語義關係圖例如語義相似圖、篇章結構圖等,建模多篇章輸入及摘要內容組織過程,從而顯著提升多文檔摘要效果。GraphSum 基於端到端編解碼框架,其中圖編碼器利用語義關係圖對文檔集進行編碼表示,圖解碼器進一步利用圖結構組織摘要內容並解碼生成連貫的摘要文本。GraphSum 還可以非常容易地與各種通用預訓練模型相結合,從而進一步提升摘要效果。在大規模多文檔摘要數據集WikiSum 和MultiNews 上的實驗表明,GraphSum 模型相對於已有的生成式摘要方法具有較大的優越性,在自動評價和人工評價兩種方式下的結果均有顯著提升。

7、Exploring Contextual Word-level Style Relevance for Unsupervised Style Transfer

百度又有11篇論文被ACL 2020收錄,頂尖AI實力持續耀眼國際舞臺

無監督風格轉換是指在無平行語料的情況下,把輸入的句子改成目標風格,同時儘可能保持其原義。本文提出了一種全新的序列到序列的生成模型,可以動態地根據生成詞的風格相關性進行風格轉換。本文有兩個主要的創新點,一是用層級相關性傳播算法計算風格分類器中每個輸入詞的風格相關性信息,並以此作為指導信號來訓練生成器,讓生成器在生成的同時可以預測下一個詞的風格相關性。二是設計了以詞級別風格相關性和語義信息作為輸入的風格轉換解碼器,並通過多個損失項進行finetune訓練,從而實現風格轉換的功能。實驗表明,本文提出的方法在情感風格轉換和口語化風格轉換的任務上都達到了領先效果。

四、機器翻譯&同聲翻譯

8、Opportunistic Decoding with Timely Correction for Simultaneous Translation

百度又有11篇論文被ACL 2020收錄,頂尖AI實力持續耀眼國際舞臺

同聲傳譯有許多重要的應用場景,近年來受到學術界和業界的廣泛關注。然而,大多數現有的框架在翻譯質量和延遲之間難以平衡,即解碼策略通常要麼過於激進,要麼過於保守。在本論文中,百度首次提出了一種具有及時糾錯能力的解碼技術,它總是在每一步產生一定數量的額外單詞,以保持觀眾對最新信息的跟蹤,同時,它也在觀察更多的上下文時,對前一個過度生成的單詞提供及時的糾錯,以確保高翻譯質量。本文還首次提出了對這種糾錯場景下的延遲指標。實驗表明,我們的技術提高了延遲和質量:延遲減少了2.4,BLEU增加了3.1,中英翻譯和中英翻譯的修改率低於8%。本系統可用於任何語音到文本的同傳系統中。

9、Simultaneous Translation Policies: from Fixed to Adaptive

百度又有11篇論文被ACL 2020收錄,頂尖AI實力持續耀眼國際舞臺

同聲翻譯是機器翻譯中的一個重要問題,它不僅要求高質量的翻譯結果,而且要求翻譯的過程有較低的時延。同聲翻譯的過程可以認為是一個選擇“讀”或“寫”的決策過程,而所採用的策略則決定了同聲翻譯的質量與時延。本文提出一種簡單的啟發式算法,根據翻譯模型輸出的概率分佈,可以將幾種精簡的固定“讀寫”策略組合成一種靈活的策略。本文進一步將該算法與集成方法相結合,既提高了翻譯質量,又降低了翻譯過程的時延。這種簡單的算法不需要訓練策略模型,使得其更易於在產品中使用。

五、知識推理

10、Learning Interpretable Relationships between Entities, Relations and Concepts via Bayesian Structure Learning on Open Domain Facts

通過貝葉斯結構學習建立了開放領域的關係與概念(Concept)之間的關聯,使得實體為何屬於某個概念的原因得到了很好的解釋。

六、AI輔助臨床診斷

11、Towards Interpretable Clinical Diagnosis with Bayesian Network Ensembles Stacked on Entity-Aware CNNs

百度又有11篇論文被ACL 2020收錄,頂尖AI實力持續耀眼國際舞臺

基於電子病歷(EMR)的智能化診斷算法是AI醫療研究領域最重要、最活躍、應用最廣泛的問題之一。傳統的診斷算法或者直接使用端到端分類模型,丟失了可解釋性,或者僅基於知識關係和規則進行推理,可遷移、可擴展性低。本研究提出一種新的診斷算法框架,該框架針對EMR具有無結構化文本和結構化信息並存的特點,結合醫療NLU,以深度學習模型實現EMR的向量化表示、診斷預分類和概率計算。結合醫療知識圖譜增強的多種貝葉斯網絡的組合模型,實現具有可解釋性的診斷推理。該框架能同時兼顧高診斷準確率和強可解釋性的特點,並可應用於面向基層醫師的輔助臨床診斷產品中。


分享到:


相關文章: