卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧

ACL 2018 Long Papers

嘈雜社交媒體帖子的零樣本多模式命名實體消歧

Zeroshot Multimodal Named Entity Disambiguation for Noisy Social Media Posts

卡內基梅隆大學

Carnegie Mellon University


本文是卡內基梅隆大學發表於 ACL 2018 的工作,在這項工作中,我們介紹了新的用於社交媒體帖子的多模式命名實體消歧(MNED)任務,我們建立了一個名為SnapCaptionsKB的數據集,併為MNED構建了一個深度zeroshot多模式網絡。

卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧


引言


目前線上交流變得越來越頻繁,用戶生成的社交媒體帖子也越來越多,理解用戶及其喜好是一個很重要的任務。然而,這些社交媒體帖子往往以非結構化的文本或圖像出現,使得大規模的意見挖掘任務極具挑戰性。命名實體消歧(NED)是將模糊實體從自由形式的文本提及鏈接到預定義知識庫(KB)中特定實體的任務,因此是提取結構化信息的關鍵步驟,在推薦、廣告、個性化幫助等方面得到了廣泛應用。

之前許多的NED方法通過語境解析對多義實體進行歧義消除,對於格式良好的文本是成功的,但是對於從社交媒體帖子中發現的極短和粗略的文本中(如“

卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧

”與“I love Justin Bieber/Justin Trudeau/etc.”)消除實體歧義仍然存在挑戰。在許多情況下,僅僅從文本中消除實體歧義是不可能的,大量是由不完整和不一致的符號引起的。此外,社交媒體帖子通常包括在訓練集中看不到的新出現的實體,這使得傳統的基於語境的實體鏈接常常是不可行的。

然而,隨著流行的社交媒體平臺出現越來越多文本圖像結合的帖子(如Snapchat, Instargram,Pinterest等),我們可以結合附加的視覺語境來理解帖子,以推進消岐任務。例如,提到“juuustin”的文本形式是完全模糊的,但是伴隨的音樂會場景的快照圖像可以幫助消除歧義或幾個詞彙候選(例如,下圖中的賈斯汀·比伯(流行歌手)與賈斯汀·特魯多(政治家)之間的重新排序)。


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧



為此,我們引入了一個名為多模式命名實體消歧(MNED)的新任務,它主要處理由極短的文本和圖像組成的社交媒體帖子,旨在通過利用文本和視覺語境來消除歧義實體。

然後,我們提出了一種新的zeroshot MNED模型,該模型利用CNN從圖像中獲取視覺語境向量,並與從雙向LSTM提取的文本語境相結合。此外,從知識圖譜中獲得1M個實體的嵌入表示,並訓練MNED網絡來預測與相應的知識圖譜嵌入在同一空間中的實體的標籤嵌入。這種方法可以對未知實體進行零樣本預測,由於需要大量的人工註釋工作,這對於稀缺標籤場景來說是至關重要的。最後,我們建立了一個詞彙嵌入模型,該模型確定提及和潛在實體之間的詞彙相似性,以幫助預測正確的實體。

注意,我們的方法與之前關於NED的工作採取了完全不同的視角。儘管很多先前的方法為消歧產生固定的“候選”,我們不固定候選生成,因為每個命名實體的表面形式複雜多變,並且不可預見地會提到新的實體。取而代之的是,我們構建一個判別評分函數的詞彙模型。我們從文本帖子的用戶生成圖像中提取檢測實體的輔助視覺語境,這是至關重要的,因為數據集中的標題比大多數其他NED數據集中的文本文檔要短得多。據我們所知,我們的工作是第一個使用視覺語境來完成命名實體消歧任務的。

本文貢獻如下:對於新MNED任務,我們提出了一個深zeroshot多模態網絡,它具有(1)一個從圖像和文本中提取語境的CNNLSTM混合模塊,(2)一個zeroshot學習層,通過嵌入投影允許實體與1M知識圖譜進行實體鏈接,甚至對於在訓練集中從標題中看不到的實體也是如此,以及(3)一個稱為Deep Levenshtein的詞彙語言模型來計算mention和實體之間的詞彙相似度,放鬆了對固定候選生成的要求。我們證明所提出的方法成功地消除了不完全mention和多義實體之間的歧義,在我們新爬取的SnapCaptionsKB數據集上勝過最先進的模型,該數據集由12K個圖像-標題對組成,註釋了命名實體並與外部KB鏈接。

卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧


模型


下圖闡述了提出的模型,該模型將每個多模式社交媒體發佈數據映射到KB中的一個相關實體。


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧



給定一個多模態輸入,給定包含對模糊實體mention的多模式輸入,我們首先分別使用RCNN和Bi-LSTM提取文本和可視特徵語境。我們還使用一個名為Deep Levenshtein的模型,獲得mention的詞彙字符級表示,以與KB實體的詞彙表示進行比較。然後,我們得到由知識圖譜構造的KB實體的高維標籤嵌入,其中相似實體被映射為相同空間中的鄰居。最後,我們將從周圍的文本、圖像和提及的詞彙標記中提取的所有語境信息進行聚合,並基於知識圖譜標籤表示和KB實體候選的詞彙標記預測最佳匹配的KB實體。

標記


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧

是一組N個輸入的社交媒體發佈的用於消除歧義的樣本,其中相應的基礎值命名為實體Y=

卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧

(y ∈ YKB),其中YKB是KB中的一組實體。每個輸入樣本由三種模式組成:x = {xw; xv; xc},其中

卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧

是圍繞文章中提及的長度為Lw的詞序列,xv是與文章相關聯的圖像,

卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧

是包含mention的字符序列。我們表示每個模式的高維特徵抽取函數:w(xw), c(xc), v(xv)。我們用兩種方式表示每個輸出標籤:y = {yKB; yc},其中yKB是知識庫標籤嵌入表示,yc是KB實體的字符嵌入表示。

我們制定zeroshot多模態NED任務如下:


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧



其中fx→y是具有可學習參數的函數,該函數將多模態輸入樣本(x)投影到與標籤表示(y)相同的空間中,並且sim(·)在預測和真值KB實體之間產生相似性得分。

文本與視覺語境特徵

文本特徵:我們使用具有分佈式單詞語義嵌入的BiLSTM語言模型來表示mention周圍單詞的文本語境。對於LSTM,我們使用以下實現。


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧



視覺特徵:我們對在ImageNet數據集上訓練的稱為Inception(GoogLeNet)的遞歸卷積網絡模型的修改版本進行最終激活,以對場景中的多個對象進行分類。

詞彙嵌入:Deep Levenshtein

雖然傳統的NED任務假設mention與其關聯實體之間的詞彙完美匹配,重要的是要考慮與每個實體相對應的各種mention的表面現象(暱稱、拼寫錯誤、不一致的標記等)。為此,我們訓練一個獨立的深層神經網絡來計算近似Levenshtein距離,我們稱之為Deep Levenshtein,它由共享的雙向字符LSTM、共享的字符嵌入矩陣、完全連接的層和點積合併操作層組成,如下圖。


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧


我們做出了以下優化:


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧



基於知識圖譜的標籤嵌入


由於在社交媒體帖子中提到的各種各樣的實體,在測試階段,我們經常遇到在訓練數據中看不到的新命名實體。為了解決這個問題,我們提出一種zeroshot學習方法,通過歸納知識圖譜在KB實體上的嵌入。知識圖譜標籤嵌入是從圖中實體之間的已知關係(例如“IS-A”、“LOCATED-AT”等)中學習的,所得到的嵌入可以將相似實體分組到更接近同一空間(例如,“pop stars”在小集群中、“人”和“組織”群體相距甚遠等)。一旦學習了從語境信息到標籤嵌入的高級映射,基於知識圖譜的zeroshot方法就可以在訓練數據中看不到模糊實體的情況下提高實體鏈接性能。簡言之,從知識圖譜(由主題-關係-對象(s,r,o)三元組組成)獲取嵌入的模型如下:


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧


深度zeroshot MNED網絡(DZMNED)


利用從周圍文本中提取的語境信息以及伴隨的圖像和提到的詞彙嵌入,我們建立了一個深度Zeroshot MNED網絡(DZMNED),該網絡基於知識圖譜嵌入和詞彙相似性來預測相應的KB實體。其目標如下:


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧



我們為MNED網絡制定瞭如下模式的注意力模塊,該模塊選擇性地衰減或放大模式:


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧



在測試時,以下產生標籤的最近鄰(1-NN)分類器用於目標任務(我們緩存所有標籤嵌入以避免重複投影):


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧



卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧


實驗分析


任務:給定標題和附帶圖像,目標是消除標題中提到的目標歧義並將其鏈接到知識庫(Freebase知識圖譜的1M子集)中的相應實體。

數據集:我們的SnapCaptionsKB數據集由12K個用戶生成的圖像和文本標題對組成,其中標題中的命名實體及其與KB實體的鏈接由專家人工註釋者手動標記。

候選生成:為了顯示不需要生成候選的方法的有效性,我們將其與以下候選生成方法進行比較:

m→e哈希表:該方法基於來自訓練語料庫的精確(m,e)成對出現統計數據,檢索每次mention(m)的KB實體(e)候選。

k-NN:我們也考慮使用從KB實體中提到的相鄰詞彙作為候選。我們使用深層Levenshtein來計算KB實體和mention的詞彙嵌入,並檢索Euclidean鄰居(及其多義實體)作為候選。

NED模型:我們選擇sDA-NED (W only)、ARNN (W only)、Deep Zeroshot (W only)、DZMNED + Deep Levenshtein + InceptionNet with modality attention (W+C+V)等針對噪聲文本的最新NED模型作為基線,以及我們提出的方法的若干組成部分,以檢查每個組件的貢獻。

主要結果:下表顯示了Snap Captions數據集上的Top-1、3、5、10和50個候選檢索準確率結果。


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧



我們看到,所提出的方法明顯優於使用固定候選生成方法的基線。這一結果表明,所提出的zeroshot模型也能夠預測未知實體。詞彙子模型還可以被解釋為具有對潛在候選mention的軟神經映射功能,而不是對固定候選的啟發式匹配。

錯誤分析:下表顯示了合併視覺語境影響文本標題中mention消歧的示例情況。一些對視覺語境沒有幫助的情況,包括與mention無關的視覺標記,或不補充已經模糊的語境。


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧



KB嵌入質量的敏感性:該方法依賴於對KB嵌入空間中實體匹配的預測,因此KB嵌入的質量是成功消除歧義的關鍵。為了描述此方面,我們提供了下表,顯示了具有不同嵌入質量的MNED性能。


卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧



卡內基梅隆大學:嘈雜社交媒體帖子的零樣本多模式命名實體消歧


總結


我們引入了一個名為多模態命名實體消歧(MNED)的新任務,該任務應用於由文本和附帶圖像組成的短小社交媒體帖子。我們提出的MNED模型通過1)提取與文本語境互補的視覺語境,2)通過利用詞彙嵌入到實體匹配中,從而考慮實體的各種表現形式,消除了對固定候選生成過程的需要,以及(3)通過在分佈式知識圖譜嵌入空間中執行實體匹配,允許通過語境解析來匹配未知mention和實體。

論文下載鏈接:

http://aclweb.org/anthology/P18-1186


分享到:


相關文章: