ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧

ACL 2018 Long Papers

英語介詞和所有格綜合超義消歧

Comprehensive Supersense Disambiguation of English Prepositions and Possessives

喬治城大學

Georgetown University

本文是喬治城大學發表於 ACL 2018 的工作,本文為英語中介詞和所有格的歧義消除提出了一種新的標註方案、語料庫。不同於以前的方法,本文的標註方案對這些token的類型標記得非常全面;使用廣泛適用的超義類而不是細粒度字典定義;在同一類目錄下統一介詞和所有格;並區分標記的詞彙貢獻及其在謂語或上下文語境中的作用。較高的語料標註一致率和成熟的監督消歧方法,都說明了本方案的可行性。

ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧


1 引言


語法可以比喻為一個共享工具箱,輔助語言使用者構建和解構一些有意義且流暢的話語。英語具有高度的可分析性,主要依賴於詞序和虛詞,如介詞、限定詞和連詞。雖然虛詞很少包含語義內容,但它們對語義表達卻至關重要。例如介詞:用來傳達地點和時間(We met at/in/outside the restaurant for/after an hour),表達諸如數量、所屬、部分/整體和成員關係(the coats of dozens of children in the class),在論元結構中表示語義角色(Grandma cooked dinner for the children vs. Grandma cooked the children for dinner)。像for這樣出現率較高的介詞,多義性很強,它們的解釋主要取決於介詞作用的對象——I rode the bus for 5 dollars/minutes——以及介詞短語(PP)的主導者:I Ubered/asked for $5.。所屬關係也同樣模糊不清:Whistler’s mother/painting/hat/death。語義解釋需要一定形式的語義消歧,但要達到一種足夠靈活、以達到跨用法和類型進行概括的語言表示,同時又足夠簡單以支持可靠標註的形式,一直是一項艱鉅的挑戰。

本文在前人研究的基礎上,提出了一種描述英語介詞和所有格語義學的方法。鑑於介詞和所有格之間的語義重疊(the hood of the car vs. the car’s hood or its hood),我們使用相同的語義標籤目錄。本文的貢獻包括:

  1. 一個新的包含50個超義類的層次化目錄(”SNACS”),廣泛記錄在英語指南中。
  2. 全面標註的黃金標準語料庫:所有類型與介詞和所有格的消歧(如下圖)。
  3. 一項標註一致性研究表明,本方案切實可靠,且可在各風格下推廣。經驗證明,一個介詞的詞彙語義有時可以從PP的語義角色分離出來。
  4. 提出包含兩個監督分類架構的消歧實驗以確定任務的難度。


ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧



ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧


2 模型


標註機制


除了規範介詞和所有格之外,還有許多在詞彙和語義上重疊的封閉類項目,這些項目有時被歸類為其他詞類,如副詞、助詞和從屬連詞。《劍橋英語語法》主張對“介詞”進行廣泛的定義,包括這些其他類別。實際上,我們決定鼓勵註釋者關注這些功能項的語義,而不是它們的語法,所以我們採取包容性方法。

另一個考慮是開發可以適用於其他語言的標註指南。這些語言包括有後置詞、介詞或嵌入詞而不是介詞的語言;這類項目的一般術語是詞綴。英語所有格標記(通過's或所有格代詞,如my)是格標記的一個例子。注意,介詞(4a-4c)在詞序上與所有格(4d)不同,儘管在語義上介詞的賓語與所有格名詞形式一起:


ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧


在跨語言交際中,詞綴和格標記是密切相關的,一般說來,兩種語法策略都可以表達相似的語義關係。這也進一步激發了創建一個通用的語義清單的命題和案例。涵蓋多詞介詞(例如,Outoof,InFrimthoof),不及物小品詞(He flew away)),目的不定式子句(Open the door to let in some air),介詞加上子句補語(It rained before the party started),以及慣用介詞短語(at_large)。本文的標註指南給出了進一步的細節描述。

SNACS層次


Adposition and Case Supersenses(SNACS),介詞和所有格的超義層次結構,如圖2所示。它比它的前身Schneider等人(2016)的介詞超義層次結構在大小和結構複雜性上都更簡單。


ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧



SNAC在4個深度級別上有50個超義,以前的層次在7個級別上有75個超義。頂級類別是相同的:

CIRCUMSTANCE:環境信息,通常是事件的非核心屬性(例如位置、時間、手段、目的)

PARTICIPANT:在事件中扮演角色的實體

CONFIGURATION:事物,通常是實體或屬性,涉及到與其他實體的靜態關係。

解釋分析法


Hwang等人已經指出將介詞語義分離和概括化的危險,以便每個用法都有一個清晰的超義標籤。他們指出的一個關鍵挑戰是預設本身和動詞所建立的情境可能暗示不同的標籤。例如:


ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧


以上例子中場景的語義是相同的:它是僱傭關係,而PP包含僱主。SNACS為此目的具有標籤ORGROLE,同時,(a)中強烈建議一種位置關係,它將對標籤LOCUS作出響應。(5b) 類似於 BENEFICIARY: the employee is working on behalf of the employer。

解釋分析的另一個有用的應用是動詞put,它可以與任何位置PP結合來表達目的地:


ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧



解釋分析的另一個有用的應用是動詞put,它可以與任何位置PP結合來表達目的地:


ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧



標註評論語料


我們將SNACS標註方案應用於STREUSLE語料庫中的介詞和所有格,該語料庫是從英語網絡樹庫中獲取的在線消費者評論的集合。來自英語Web Treebank的句子還包括英語通用依賴的主要參考樹庫。下表顯示了當前標記的總數,總共5455個tokens被標註為場景角色和功能。


ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧



新的層次結構和標註指南是通過協商一致制定的。原始介詞超義標註放在電子表格中並討論。雖然大多數token是明確標註的,有些情況下需要對整個語料庫進一步分析。例如,for的功能非常廣泛,在將集群映射到層次標籤之前,需要對其進行(手動)分類。在正確的超文本不清楚的情況下,指南中包含了具體的說明和實例。所有格沒有被原來的介詞超義註釋所覆蓋,因此從零開始註釋。

下表顯示了作為場景角色和功能發生的最常見和最不常見的標籤。在標註語料庫中從未出現過三個標籤:TEMPORAL從CIRCUMSTANCE層次結構,PARTICIPAN和CONFIGURATION都是各自層次中最高的超文本。雖然所有剩餘的超驗都被證明為場景角色,但也有一些永遠不會發生的功能,如ORIGINATOR,通常被實現為POSSESSOR或SOURCE,以及EXPERIENCER。有趣的是,每個環境的CIRCUMSTANCE(除了TEMPORAL)都表現為場景角色和功能,而其他兩個層次的許多子類型被限定為角色或功能。這反映了我們的觀點,介詞主要捕獲諸如空間和時間之類的間接概念,但是已經擴展到了其他語義關係。


ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧


標註一致性研究


由於在線評論語料庫對我們的方案是如此重要,所以我們試圖在一個新語料庫上測試標註方案的可靠性。下表展示了所有標註者之間的平均標註率。在場景角色上的平均一致性為74.4%,在函數上的平均一致性為81.3%(行1)。功能時隙上的一致性高於場景角色時隙上的一致性,這意味著前者比後者更容易完成。詞綴的功能更加詞彙化,更少依賴於上下文,而角色依賴於上下文(場景),並且可以高度地地道化。


ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧




ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧


3 實驗


我們現在介紹識別和消歧SNACS標註介詞和所有格的系統。目標識別啟發式首先確定哪些tokens(單詞或多詞)應該接收SNACS超義。監督分類器然後預測每個識別目標的超驗分析。研究目的是:(a)研究統計模型學習介詞和所有格的角色和功能的能力;(b)比較兩種不同的建模策略(多特徵和神經網絡)以及句法分析的影響。

實驗設置


實驗使用上文提出的評論語料庫,採用正式的訓練/開發/測試分裂的普遍依賴(UD)項目;所有系統只對訓練集進行訓練,並在測試集上進行評估;開發集用於調整超參數。命名實體識別標註採用默認的12類CORNLP模型,實體識別的實驗結果如下。


ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧



為了便於手動標註和自動分類,我們開發了用於識別標註目標的啟發式算法,通過5種不同的啟發式來過濾詞綴、所有格、從屬連詞、副詞和不定式。這些過濾器大部分是基於從STREUSLE語料庫的訓練部分學到的詞彙列表,但是對於處理主題的不定式有一些特定的規則。消歧實驗結果如下圖所示。

ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧


消歧的下一步是預測標籤的角色和功能標註。本文采用兩種方式,一種是採用豐富的介詞關係分類特徵構建模型進行分類,一種是採用結合BiLSTM的MLP多層感知器。實驗結果如下。


ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧



ACL 2018|喬治城大學:英語介詞和所有格綜合超義消歧


4 總結


本文介紹了一種綜合分析英語介詞和所有格語義的新方法,由一個完全文檔化的層次結構和標註語料庫支持。本文提出了良好的標註一致性方案,並提供了初始監督消歧的結果。我們期望未來工作開發擴展標註過程的方法,而不僅僅需要訓練有素的專家;將這個方案應用到其他語言上;並研究我們的方案與更結構化的語義表示的關係,使模型更加健壯。我們的指南、語料庫和軟件見https://github.com/nert-gu/streusle/ blob/master/ACL2018.md。

論文下載鏈接:

http://aclweb.org/anthology/P18-1018


分享到:


相關文章: