ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

ACL 2018

橋接神經機器翻譯源-目標端詞嵌入

Attention Focusing for Neural Machine Translation by Bridging Source and Target Embeddings

蘇州大學

SoochowUniversity

【摘要】在神經機器翻譯中,編碼器將源語句編碼成一個向量,解碼器在解碼階段根據該向量生成目標單詞序列。不同於傳統的統計機器翻譯,在神經機器翻譯中源端和目標端單詞之間的翻譯對應關係並沒有以短語表的形式明確存儲下來。源端單詞和目標端單詞分別位於encoder-decoder框架的兩端,被編碼器和解碼器的隱層狀態分割開來,中間隔著很長的信息處理通道。NMT的這種架構很容易將源語句中的單詞錯誤地翻譯成目標語言中任何可接受的翻譯對象,造成翻譯質量的下降。在本文中我們提出一種簡單有效的方法來解決該問題,通過橋接源端和目標端的詞嵌入來縮短源-目標端的詞嵌入之間的距離,從而加強它們之間的聯繫。我們嘗試了三種橋接策略:(1)源端橋接模型,使源端詞嵌入更靠近目標端輸出序列;(2)目標端橋接模型,探索和目標端輸出序列更為相關的源端詞嵌入;(3)直接橋接模型,將源端和目標端的詞嵌入直接連接起來,以減少詞彙翻譯的錯誤率。實驗結果和分析表明,我們提出的橋接模型能夠顯著改善句子翻譯質量,提高源端單詞和目標端單詞之間的對齊和翻譯準確率。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

1 引言

神經機器翻譯(NMT)是一種端到端的翻譯模型,在各個語言對上均展現了優秀的翻譯性能。在NMT中,序列到序列(sequence-to-sequence,seq2seq)模型同步學習源端和目標端的詞嵌入。但是如圖1所示,源端和目標端的詞嵌入位於一個長信息處理通道的兩端。由於被源端隱層狀態(由圖1中h1,…, hT表示)和目標端隱層狀態(由圖1中s1表示)所分離,兩端單詞之間的對應和關聯將會逐漸變弱。然而,如果源端和目標端的詞嵌入之間沒有更緊密的交互作用,NMT的seq2seq模型將會產生包含不正確詞對齊關係的候選譯文,這將會嚴重影響譯文質量。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

圖1 NMT的seq2seq示意圖

不同於傳統的統計機器翻譯(SMT),NMT採用注意力網絡來實現源端和目標端單詞之間的對齊。在生成目標單詞yt時,注意力網絡會計算出在源端單詞序列上的概率分佈,然後可以很容易的根據概率分佈推導出詞彙之間的對齊關係。儘管如此,人們仍會發現NMT給出的譯文中存在令人詫異的詞對齊錯誤,這種情況在SMT中是不太可能發生的。

例如,圖2中給出了兩個中英文翻譯樣例。在第一個樣例中,NMT模型給出的譯文中,將目標端單詞“eos”(eos表示句子結束標記)錯誤地對齊到源端單詞“下旬(late)”,這是由於NMT模型未能正確捕捉到源端單詞“下旬(late)”和目標端單詞“eos”之間的對應關係。同樣值得注意的是,單詞“本(this)”和“月(month)”最終在本例中未被翻譯。而在解碼過程中,一旦生成單詞“eos”,則表示翻譯已完成。所以目標單詞“eos”的不正確對齊可能是造成NMT系統漏翻的因素之一。我們在開發集上進行了數據統計,發現目標端和源端“eos”不能正確對齊的比例高達50%以上。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

圖2 NMT系統輸出的翻譯樣例,其中包含錯誤的單詞對齊信息

圖2中的第二個樣例展示了另外一種情況:源語句中的單詞被翻譯成完全錯誤的譯文。例如,單詞“東奧會(winter olympics)”和“載譽(honors)”被錯誤翻譯成逗號“,”和“have”。

在本文中,我們試圖縮短seq2seq模型中源端和目標端詞嵌入之間的信息通道來解決上述問題,我們稱之為橋接模型。該方法可以看作是對注意力網絡進行強化,將注意力網絡的焦點聚集到那些可信的源-目標端之間的詞對齊信息這個方向上。

我們提出了三種簡單而有效的策略來進行詞嵌入橋接,將源端的詞嵌入沿著NMT的信息通道逐步向前移動,使之更靠近目標端詞嵌入。

(1)源端橋接模型(Source-side bridging model):將源端詞嵌入沿著信息通道前移一步,使之更靠近目標端。我們將源端的詞嵌入和源端隱層狀態拼接起來,使注意力網絡可以從詞嵌入中獲得更多的信息來提升詞對齊質量。

(2)目標端橋接模型(Target-side bridging model):將源端詞嵌入更加緊密地結合到預測下一個目標單詞的目標端隱層狀態中。我們根據注意力網絡計算出的權重信息,將權重最高的單詞提取出來,將其融合到目標端隱層狀態中。

(3)直接橋接模型(Direct bridging model):我們直接將源端和目標端詞嵌入關聯起來。將最小化目標端和源端詞嵌入之間的距離作為附加的優化目標,來指導NMT模型的訓練。

中英翻譯任務上的實驗結果和分析表明,提出的橋接模型能夠顯著提升單詞之間對齊準確率,從而提升譯文質量。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

2 橋接模型

如圖1所示,存在很多種不同的方式來橋接x和yt,本文主要探索了以下三種橋接模型。

2.1 源端橋接模型

圖3展示了源端橋接模型。編碼器讀取源端單詞詞嵌入序列

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

,編碼後獲得對應的源端隱層向量

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

。然後我們簡單地將單詞的詞嵌入

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

和隱層向量

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

拼接起來,獲得最終的向量表示

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

。其中前兩個子項

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

是源端前向和後向隱層狀態,如圖3所示。通過這種方式,詞嵌入不僅在注意力權重的計算過程中有更強的貢獻,而且詞嵌入作為源端上下文向量表示的一部分,可以進一步影響目標端單詞的預測。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

圖3 源端橋接模型架構

2.2 目標端橋接模型

源端橋接模型在預測目標單詞時,我們使用了所有的源端詞嵌入。但在目標端橋接模型中,我們只針對和目標端單詞最相關的源端詞嵌入進行橋接,而不是所有的單詞。這種方式借鑑了SMT的思想。在SMT中,兩端的單詞是成對的、互為翻譯的,並且這種對應關係明確存儲在翻譯規則表中以便在翻譯過程中使用。受此啟發,在NMT中,我們利用注意力網絡來確定預測當前目標端單詞

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

時最相關的源端單詞x,並使用該單詞的詞嵌入來影響解碼器隱層狀態的生成。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

圖4 目標端橋接模型架構

圖4給出了目標端橋接模型的架構,通過公式(1)計算解碼器隱層狀態

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

(1)

其中

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

是根據注意力權重選取的具有最大權重的源端單詞的詞嵌入,它通過如下公式(2)計算獲取:

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

(2)

其中

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

是每一個源端隱層狀態

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

對應的權重,通過注意力網絡計算便可得到。

2.3 直接橋接模型

除了上述的兩種橋接方法之外,我們試圖尋找一種更為直接的方式來進行兩端詞嵌入的橋接。因此我們進一步提出直接橋接模型,通過添加輔助目標函數來縮小兩端詞嵌入之間的距離進行詞嵌入的橋接。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

圖5 直接橋接模型架構

圖5給出了帶有輔助目標函數的直接橋接模型架構圖。具體來講,我們想要使NMT學習到的兩端的詞嵌入是可以相互轉換的。也就是說,如果目標端單詞

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

和源端單詞

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

是對齊的,我們希望學習到一個轉換矩陣W使得

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

的差值趨近於0。因此,我們對NMT的訓練目標函數進行更新,如公式(3)所示:

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

(3)

其中

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

是原始的NMT目標函數,

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

是我們添加的輔助目標函數,稱之為詞嵌入損失函數(word embedding loss),用該損失來懲罰目標單詞

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

和源端單詞

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

之間的差異。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

3 實驗

我們提出了三種不同的橋接策略來增強源端和目標端詞嵌入之間的關係。在本節中,我們對提出的模型在中英翻譯任務上進行驗證,以評估橋接模型的有效性。

3.1 實驗設置

我們使用125萬中英語句對作為訓練語料。選擇NIST06作為開發集,並選擇NIST02,NIST03,NIST04,NIST08數據集作為我們的測試集。使用4-gram NIST BLEU (Papineni etal., 2002) 作為評估標準,我們也報告了測試集上的TER分數(Snover et al., 2006)。訓練NMT時,詞表大小設置為30k,使用UNK表示未登錄詞。其他參數設置和(Bahdanau et al. 2015)保持一致。訓練語料的最大長度設置為50。解碼過程中beam search窗口設置為10。

我們將提出的模型和兩個baseline系統進行比較:1. cdec(Dyer et al., 2010):開源的基於層次短語的SMT系統,我們採用系統的默認配置進行訓練;2. RNNSearch*:帶有注意力網絡的NMT系統(參考DL4MT教程)。並在輸出層使用dropout技術,採用adadelta算法進行訓練。

我們提出的模型在RNNSearch*的模型基礎上進行實現。對於直接橋接模型,我們採用一個簡單地預訓練方式進行模型的訓練。

3.2 實驗結果

表1給出了模型的BLEU值和TER值結果。可以看出,和SMT(cdec)和NMT(RNNSearch*)baseline系統相比,我們提出的三種橋接模型,在所有測試集上均獲得了顯著的提升。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

3.2.1 參數分析

提出的三種模型均引入了不同大小的新的參數。在源端橋接模型中,隱層向量的維度從2000增加到2620,額外需要引入3.7M的新參數來適應新的隱層向量。在目標端橋接模型中,使用

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

作為附加信息來計算解碼器隱層,需要引入1.8M的額外參數。在源端橋接模型的基礎上,直接橋接模型需要額外的0.4M的參數(公式(3)中得轉換矩陣W為620*620),即直接橋接模型引入了4.1M的新參數。而baseline NMT模型具有74.8M的參數,可見我們提出的模型並未顯著改變模型的參數量級。

3.2.2 和baseline模型的效果比較

表1中的結果表明,以BLEU和TER作為評估標準,NMT模型的效果均優於基線系統,我們提出的三種橋接模型均優於基線NMT模型RNNSearch*。在所有測試集上,源端橋接模型和目標端橋接模型分別實現了1.1個BLEU點和1.46個BLEU點的提升。直接橋接模型獲得到了最好的性能提升,實現了1.81個BLEU點的提升。

儘管所有的模型並沒有根據TER標準進行調試,但提出的三個橋接模型表現良好。和baseline模型相比,均實現了1.70 個TER 點的降低。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

4 分析

4.1 單詞對齊分析

提出的橋接模型縮短了源端和目標端詞嵌入之間的信息通道,增強了注意力網絡捕捉兩端單詞之間對齊關係的能力。因此我們希望提出的模型能夠提升詞對齊質量,我們從以下三個方面進行了詞對齊質量評估。

4.1.1 更好的eos翻譯

作為標記句子結尾的特殊符號,目標端“eos”對控制生成的譯文長度具有關鍵影響。當生成的目標端“eos”與源端“eos”對齊時,我們才認為這是正確的翻譯。

表2給出了源端“eos”翻譯成目標端“eos”的百分比。表中結果表明提出的橋接模型能夠極大地提升源端“eos”的翻譯正確率。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

4.1.2 更好的單詞翻譯

為了更好地瞭解單詞翻譯的質量,我們將生成的單詞按其詞性(POS)標籤進行分組,並檢查其對齊的源端單詞的詞性。我們使用斯坦福詞性標記工具(Toutanova et al., 2003)進行詞性標記。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

4.1.3 更好的單詞對齊

我們進一步評估了直接橋接模型生成譯文的詞對齊質量。我們在人工標註的詞對齊數據集上(Liu and Sun, 2015)進行評估,該數據集包含900個手動對齊的中英文句對。我們強制解碼器輸出參考譯文,以便獲得輸入句子和參考譯文之間的注意力權重信息,進而獲得自動對齊信息。為了評估對齊性能,我們測量了對齊錯誤率AER (Och and Ney, 2003)和soft AER (Tu et al.,2016)。表4給出了結果。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

如預期的那樣,表4數據表明橋接模型顯著提高了詞對齊質量。這再次證明了橋接模型能夠加強源端和目標端詞嵌入之間的交互關聯。

4.2 長句翻譯分析

參照(Bahdanau et al., 2015)的方法,我們按照句子的長度對句子進行分類,並計算各自的BLEU分數,結果如圖6所示。可以看出,我們提出的模型在所有的句子長度上均優於RNNSearch*。同時,隨著句子長度的增加,翻譯質量呈現下降趨勢,與工作(Cho et al., 2014; Tu et al., 2016; Li et al., 2017)發現一致。

我們還觀察到,與SMT系統cdec的結果相比,NMT系統在長度超過50的句子上的性能非常差。我們認為造成這種結果的因素有兩個:(1)在訓練過程中,我們將訓練語句的最大長度限制為50,從而使得模型並不能很好的翻譯長度超過50的句子;(2)對於長的待翻譯句子,在解碼過程中NMT系統傾向於更早停止解碼。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

4.3 過翻和漏翻分析

停止符“eos”的正確翻譯應該能夠有效幫助NMT解碼器合理判斷在何時停止解碼。因此,我們進一步分析了橋接模型生成譯文的過翻和漏翻情況。

為了評估NMT系統的過翻情況,我們參考Liet al. (2017)給出的評測方法,統計了過度翻譯比率(ratio of over translation, ROT)。我們對單詞按照詞性進行分組,表5中給出了一些主要詞性的單詞的ROT。表中數據表明在NMT系統中,詞性為專有名詞(NR)和其他名詞(NN)的單詞通常比其他詞性的單詞更容易發生過翻情況,與(Li et al., 2017)給出的結果一致。造成這種情況的可能原因是這兩種詞性的單詞通常含有更多的未登錄詞,而這些單詞在一定概率上傾向於被過度翻譯。

另外從表5中數據可以看出,提出的直接橋接模型緩解了15%的過翻問題,ROT從5.28%降低至4.49%。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

對漏翻情況進行準確的評估是十分困難的,因此我們簡單地報告了1-gram分數,用於評估NMT生成的譯文中多少個單詞出現在參考譯文中,使用該方法粗略的評估源語言中多少個單詞被NMT系統翻譯出來。表6給出了測試數據集上的1-gram BLEU分數。這些數據表明提出的模型比baseline系統有更高的1-gram分數,暗示直接橋接模型一定程度上緩解了漏翻問題。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

值的注意的是SMT模型呈現出最高的1-gram得分,這是符合預期的,SMT中基本不會存在漏翻問題。

4.4 詞嵌入轉換分析

在直接橋接模型中,我們引入了一個轉換矩陣將源端單詞轉換為對應的目標端單詞。這裡我們對這種轉換做進一步的分析。給定一個源端單詞

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

,我們通過下面公式(4)獲得它對應的目標端單詞

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

(4)

表7列出了10個出現較頻繁的源端單詞和它們對應的最相近的目標端單詞。為了方便進行比較,我們在表7中也給出了SMT系統的詞彙翻譯表給出的最可能目標端單詞。表7中數據表明,通過轉換矩陣獲得的最相近目標端單詞和從SMT詞彙翻譯表獲得的目標端單詞保持高度一致。也再次印證了我們提出的橋接模型能夠有效地捕捉源端和目標端詞嵌入之間的對應關係,從而進一步加強它們的關聯。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

5 相關工作

注意力網絡在NMT系統中對提升對齊質量起著至關重要的作用,因此許多研究者為之付出很多努力。為了獲得更好的對齊,Luong et al. (2015)提出了全局和局部注意力機制。Cohn et al. (2016) 對注意力網絡進行了擴展,使其包含結構性偏見信息。本文中,我們並未對注意力網絡進行修改,我們期望通過橋接兩端的詞嵌入,來幫助NMT模型更有效地學習詞對齊。

最近也有工作研究利用SMT模型中的詞對齊信息來幫助提升NMT的對齊質量。Mi et al. (2016) 和Liu et al. (2016)使用預先獲得的詞對齊信息來指導NMT的注意力網絡學習更為精準的對齊。Arthur et al. (2016)使用預先獲得的單詞詞典來對目標端單詞的預測進行約束。這些工作都通過使用已知的對齊信息來幫助NMT獲得更好的對齊質量。本文提出的方法不需要額外的對齊信息來指導NMT的訓練,而是通過橋接的方法來讓NMT系統從訓練語料中學習互為翻譯的單詞對,從而讓NMT模型自己學習到更為準確的詞對齊。

此外,現有的研究工作中也提出了很多學習跨語言的詞嵌入的方法。Mikolov et al. (2013)提出一種跨語言的詞嵌入方法,該方法首先在單語語料上面學習單語的詞嵌入表示,然後再學習多個語言對詞嵌入之間的線性映射。Gehring et al. (2017)通過引入源端詞嵌入來幫助預測目標單詞。這些方法和我們的源端橋接模型類似。

ACL 2018|蘇州大學:橋接神經機器翻譯源-目標端詞嵌入

6 結論

本文提出了三種方式來橋接NMT源端和目標端的詞嵌入。這三種模型通過縮短seq2seq模型中兩端詞向量之間的信息通道來增強它們之間的關聯。中英翻譯任務上的實驗表明,提出的橋接模型能夠有效地提升翻譯質量。進一步的分析表明,提出的模型能夠:(1)比baseline系統學習到更好的單詞對齊;(2)緩解NMT系統的過翻和漏翻問題;(3)學習源端和目標端詞嵌入之間的直接映射。

在未來的工作中,我們將進一步探索橋接模型在seq2seq模型和基於樹結構的NMT模型中的應用。此外,我們還準備將這些方法應用到其他序列到序列的任務中,例如對話系統。


分享到:


相關文章: