ACL 2018 騰訊AI Lab解讀多篇入選長文

第 56 屆計算語言學協會年會 ACL於 7 月 15 至 20 日在澳大利亞墨爾本舉辦。今年共收到 1621 篇投遞論文,其中長論文 1045 篇,短論文 576 篇。除去不合格和被駁回的論文,組委會在 1018 篇提交的長論文中接收 256 篇,在 526 篇提交的短論文中接收 125 篇,總體錄取率為 24.7%。

這是騰訊 AI Lab 第二次參加ACL,共5篇論文入選(去年為3篇),涉及神經機器翻譯、情感分類和自動評論等研究方向。下面將著重介紹其中4篇長文的研究內容。

此外,在近期結束的多個頂級學術會議中,騰訊AI Lab也入選多篇論文,位居國內企業前列,包括ICML 2018(16篇),CVPR 2018(21篇)和此前的NIPS 2017(8篇)。

1、通往魯棒的神經網絡機器翻譯之路

Towards Robust Neural Machine Translation

論文地址:https://arxiv.org/abs/1805.06130

在神經機器翻譯(NMT)中,由於引入了循環神經網絡(RNN)和注意力機制,上下文中的每個詞都可能影響模型的全局輸出結果,這有些類似於“蝴蝶效應”。也就是說,NMT 對輸入中的微小擾動極其敏感,比如將輸入中某個詞替換成其近義詞就可能導致輸出結果發生極大變化,甚至修改翻譯結果的極性。針對這一問題,研究者在本論文中提出使用對抗性穩定訓練來同時增強神經機器翻譯的編碼器與解碼器的魯棒性。

ACL 2018 騰訊AI Lab解讀多篇入選長文

上圖給出了該方法的架構示意,其工作過程為:給定一個輸入句子 x,首先生成與其對應的擾動輸入 x',接著採用對抗訓練鼓勵編碼器對於 x 和 x' 生成相似的中間表示,同時要求解碼器端輸出相同的目標句子 y。這樣能使得輸入中的微小擾動不會導致目標輸出產生較大差異。

研究者在論文中提出了兩種構造擾動輸入的方法。第一種是在特徵級別(詞向量)中加入高斯噪聲;第二種是在詞級別中用近義詞來替換原詞。

研究表明,該框架可以擴展應用於各種不同的噪聲擾動並且不依賴於特定的 NMT 架構。實驗結果表明該方法能夠同時增強神經機器翻譯模型的魯棒性和翻譯質量,下表給出了在 NIST 漢語-英語翻譯任務上的大小寫不敏感 BLEU 分數。

ACL 2018 騰訊AI Lab解讀多篇入選長文

可以看到,研究者使用極大似然估計(MLE)訓練的 NMT 系統優於其它最好模型大約 3 BLEU。

2、Hyperdoc2vec:超文本文檔的分佈式表示

hyperdoc2vec: Distributed Representations of Hypertext Documents

論文地址:https://arxiv.org/abs/1805.03793

現實世界中很多文檔都具有超鏈接的結構。例如,維基頁面(普通網頁)之間通過 URL 互相指向,學術論文之間通過引用互相指向。超文檔的嵌入(embedding)可以輔助相關對象(如實體、論文)的分類、推薦、檢索等問題。然而,針對普通文檔的傳統嵌入方法往往偏重建模文本/鏈接網絡中的一個方面,若簡單運用於超文檔,會造成信息丟失。

本論文提出了超文檔嵌入模型在保留必要信息方面應滿足的四個標準,並且表明已有的方法都無法同時滿足這些標準。這些標準分別為:

內容敏感(content awareness):超文檔的內容自然在描述該超文檔方面起主要作用。

上下文敏感(context awareness):超鏈接上下文通常能提供目標文檔的總結歸納。

新信息友好度(newcomer friendliness):對於沒有被

其它任何文檔索引的文檔,需要採用適當的方式得到它們的嵌入。

語境意圖敏感(context intent awareness):超鏈接周圍的“evaluate ... by”這樣的詞通常指示了源超文檔使用該引用的原因。

為此,研究者提出了一種新的嵌入模型hyperdoc2vec。不同於大多數已有方法,hyperdoc2vec 會為每個超文檔學習兩個向量,以表徵其引用其它文檔的情況和被引用的情況。因此,hyperdoc2vec 可以直接建模超鏈接或引用情況,而不損失其中包含的信息。下面給出了 hyperdoc2vec 模型示意圖:

ACL 2018 騰訊AI Lab解讀多篇入選長文

為了評估所學習到的嵌入,研究者在三個論文領域數據集以及論文分類和引用推薦兩個任務上系統地比較了 hyperdoc2vec 與其它方法。模型分析和實驗結果都驗證了 hyperdoc2vec 在以上四個標準下的優越性。下表展示了在 DBLP 上的 F1 分數結果:

ACL 2018 騰訊AI Lab解讀多篇入選長文

可以看到,添加了 DeepWalk 信息後基本都能得到更優的結果;而不管是否使用了 DeepWalk,hyperdoc2vec 的結果都是最優的。

3、TNet:面向評論目標的情感分類架構

Transformation Networks for Target-Oriented Sentiment Classification

論文地址:https://arxiv.org/abs/1805.01086

開源項目:https://github.com/lixin4ever/TNet

面向評論目標(opinion target)的情感分類任務是為了檢測用戶對於給定評論實體的情感傾向性。直觀上來說,帶注意機制的循環神經網絡(RNN)很適合處理這類任務,以往的工作也表明基於這類模型的工作確實取得了很好的效果。

研究者在這篇論文中嘗試了一種新思路,即用卷積神經網絡(CNN)替代基於注意機制的RNN 去提取最重要的分類特徵。由於 CNN 很難捕捉目標實體信息,所以研究者設計了一個特徵變換組件來將實體信息引入到單詞的語義表示當中。但這個特徵變換過程可能會使上下文信息丟失。針對這一問題,研究者又提出了一種“上下文保留”機制,可將帶有上下文信息的特徵和變換之後的特徵結合起來。

綜合起來,研究者提出了一種名為目標特定的變換網絡(TNet)的新架構,如下左圖所示。其底部是一個 BiLSTM,其可將輸入變換成有上下文的詞表示(即 BiLSTM 的隱藏狀態)。其中部是 TNet 的核心部分,由 L 個上下文保留變換(CPT)層構成。最上面的部分是一個可感知位置的卷積層,其首先會編碼詞和目標之間的位置相關性,然後提取信息特徵以便分類。

右圖則展示了一個 CPT 模塊的細節,其中有一個全新設計的 TST 組件,可將目標信息整合進詞表示中。此外,其中還包含一個上下文保留機制。

研究者在三個標準數據集上評估了新提出的框架,結果表明新方法的準確率和 F1 值全面優於已有方法;下表給出了詳細的實驗結果。

ACL 2018 騰訊AI Lab解讀多篇入選長文

本研究的相關代碼已經開源。

4、兼具領域適應和情感感知能力的詞嵌入學習

Learning Domain-Sensitive and Sentiment-Aware Word Embeddings

論文地址:https://arxiv.org/abs/1805.03801

詞嵌入是一種有效的詞表示方法,已被廣泛用於情感分類任務中。一些現有的詞嵌入方法能夠捕捉情感信息,但是對於來自不同領域的評論,它們不能產生領域適應的詞向量。另一方面,一些現有的方法可以考慮多領域的詞向量自適應,但是它們不能區分具有相似上下文但是情感極性相反的詞。

在這篇論文中,研究者提出了一種學習領域適應和情感感知的詞嵌入(DSE)的新方法,可同時捕獲詞的情感語義和領域信息。本方法可以自動確定和生成領域無關的詞向量和領域相關的詞向量。模型可以區分領域無關的詞和領域相關的詞,從而使我們可以利用來自於多個領域的共同情感詞的信息,並且同時捕獲來自不同領域的領域相關詞的不同語義。

在 DSE 模型中,研究者為詞彙表中的每個詞都設計了一個用於描述該詞是領域無關詞的概率的分佈。這個概率分佈的推理是根據所觀察的情感和上下文進行的。具體而言,其推理算法結合了期望最大化(EM)方法和一種負採樣方案,其過程如下算法 1 所示。

ACL 2018 騰訊AI Lab解讀多篇入選長文

其中,E 步驟使用了貝葉斯規則來評估每個詞的 zw(一個描述領域相關性的隱變量)的後驗分佈以及推導目標函數。而在 M 步驟中則會使用梯度下降法最大化該目標函數並更新相應的嵌入。

研究者在一個亞馬遜產品評論數據集上進行了實驗,下表給出了評論情感分類的實驗結果:

ACL 2018 騰訊AI Lab解讀多篇入選長文

實驗結果表明,本工作提供了一個有效的學習兼具領域適應和情感感知能力的詞嵌入的方法,並提高了在句子層面和詞彙層面的情感分類任務的性能。

本文來源 騰訊AI Lab實驗室官方微信


分享到:


相關文章: