句法分析和語義理解專場|AIS預講會全程乾貨分享

AIS (ACL、IJCAI、SIGIR) 2018

Session 10:Syntactic and Semantic

句法分析和語義理解專場|AIS預講會全程乾貨分享

句法分析和語義理解專場|AIS預講會全程乾貨分享

1. 江心舟 蘇州大學

Supervised Treebank Conversion: Data and Approaches

(本次AIS論文預講會由李正華老師代替江心舟作口頭報告)

句法分析和語義理解專場|AIS預講會全程乾貨分享

我們的主要工作是樹庫轉化。先介紹一下什麼是依存句法分析。依存句法分析的目標就是給一個句子,然後把它上面結構化的信息標出來。它以弧為單位,就是以兩個詞之間的搭配關係為基本單位。搭配關係就是它們之間的語法關係,有時候可能會有一些語義信息。

這幾年依存句法分析發展很快,2016年的時候,谷歌提出來一個模型提高了3個點,2017年Stanford又提出了一個模型,比谷歌又高了4個點。依存句法分析還有什麼挑戰可以做呢?我個人理解,第一方面是怎麼樣處理稍微不規範的網絡文本。另外目前模型還沒有把一些語義的知識、人類世界的知識融入進去,這是整個機器學習領域要去考慮的問題。但是怎麼利用已有的樹庫讓訓練數據更加充分一些。

接下來我們要回答兩個問題,一個問題是怎麼樣把不同規範的樹庫轉化成同一個規範的樹庫。比如說這個句子是哈工大的規範,而我們自己定義了一個規範。這兩個規範不管是依存弧的定義,還是依存關係的定義,都是不一樣的。怎麼樣把別人的這棵樹轉化成自己的這棵樹?這叫樹庫轉化的問題。大家可以理解機器翻譯問題,就是把一個句子轉化成另外一個句子。我們這個問題實際上是怎麼把一棵樹轉化為另外一棵樹,這個問題更復雜一些。第二個問題,如果把這些不同規範的數據轉換統一規範了以後,是不是真的比目前比較常用的方法能更好地幫助句法模型在目標規範上? 這兩個問題我們的工作都有一個初步的答案,是YES。

對於樹庫轉化的問題有什麼挑戰呢?最重要的一個挑戰就是,我們目前沒有這樣的數據。給一個句子,我標了兩棵樹,一棵樹是源端規範的,另外一棵樹是目標端規範的。我們把這個叫bi-tree aligned data。當沒有這個數據,前人他們就用了其他的方式去做,而我們用了super-wise的方式。

第一件事就是標了一個數據,產生有兩棵樹句子的一個數據。不是一個句子拿來標兩棵樹,在哈工大數據上,我們標了1萬句,本來已經有哈工大這棵樹了。我們在這個基礎上,用我們新的規範,再把它標了一遍,差不多標了一萬句。標的過程中,是有選擇地標,每個句子平均標了30%的詞。

我們有一個標註平臺,僱了差不多15個同學,這批數據一共花了差不多500個小時/人,總的準確率是78.6%,人和人之間弧的一致性71.5%,句子一致性43.7%。這個數據是嚴格的雙人標註,兩個人如果不一致,會有專家審核等等,讓我們的數據標註質量有一個流程來控制,確保它的數據。

樹庫轉化的任務是首先給一個句子,然後給了源端的一棵樹,用源端樹產生目標端樹。我們任務本身核心的挑戰,或者最重要的一個難點,就在於怎麼樣能夠充分地利用源端樹的信息,來指導上面目標端樹的產生構建。

我們提出兩種方法,一種叫pattern embedding,一種是treeLSTM。給一個弧打分,打分的時候,考慮怎麼樣用源端的這棵樹,來指導這個弧打分的時候的分值函數。

實驗結果證明了兩點。第一,轉化的結果,其中兩種方法非常接近,結果都差不多,都非常有效,而且非常簡單。另外我們把轉化過的樹庫用了以後,Parsing性能也有比較大的提高。這就是我們的貢獻,數據、方法和第一次提出來這個任務。未來我們會把其他的樹庫轉化成我們的規範,不斷地標其他的樹庫,希望把漢語依存分析做到非常好的效果。

句法分析和語義理解專場|AIS預講會全程乾貨分享

2. 陳宇非 北京大學

Accurate SHRG-Based Semantic Parsing

句法分析和語義理解專場|AIS預講會全程乾貨分享

我們的工作做的是圖結構的語義表示。什麼是圖結構語義表示呢?對比一下SDG和AMR,SDG是一種比較簡單的圖結構,建模的是詞與詞之間的二元關係。而AMR比SDG要複雜一些,它的思想是把不同表述方式統一起來,AMR可以把很多種形式不同的句子,只要語義相同,就可以統一成一種圖結構的表示。例如一句話用主動語態和被動語態說,表面相差是很大的,但是圖結構語義表示希望能把它們表示成統一的語義圖。

我們論文中涉及的數據,也是一種圖結構語義表示,它跟AMR比較像,圖裡面的節點和句子裡的詞並不是一一對應的。它標註的時候,先通過一種語法來得到侯選的結果,然後再進行人工消歧,所以它的標註一致度比前面的AMR高許多。

上下文無關文法是把句子描述成一種遞歸的形式,超邊替換文法是上下文無關文法在圖上面的表示。它的基本概念和剛才的上下文無關文法是同樣的,首先有一個起始符號S,每一步把一條邊替換成一個子圖。經過一系列的替換,就可以從S個符號展開得到一個比較完整的圖。

超邊同步替換文法就是在句子的句法和語義之間建一個同步映射的關係。CFG每條規則都有一個與之同步的語義規則,所以在得到句法規則之後,我們就可以同步找出句法規則對應的語義規則,並進行超邊替換,得到具體的語義圖。但是在語料中是沒有語義圖生成過程的,需要通過抽取的方式得到語義圖的生成過程。語法抽取過程和圖展開的過程是相反的,不斷地從最後得到的圖中找出一個圖的片段,把它縮成一條邊。最後整個圖被縮成一個起始符號S,我們就可以得到這個圖的生成過程了,進而就可以抽出這個圖的語法。

我們的解析主要是利用神經網絡進行。它主要有兩個步驟,第一個步驟是句法解析,第二個步驟是語義解析。句法解析即,首先有一個字符串,要得到它的句法樹。第二個是語義表示,句法樹裡面每個節點都有它的CFG規則,要找出CFG規則對應的SHRG規則。

我們句法分析的過程主要是基於LSTM-Minus進行的。兩個輸出向量相減之後,會得到一個向量,向量之間就可以表示某個字符串的子串。

語義解析也很多種模型,最簡單的就是基於計數的模型。我們就選擇訓練數據裡面出現最多的語義規則。二個是基於規則向量的消歧模型,我們會把子串對應的向量和規則對應的向量拼起來,放到一個全鏈接網絡裡面得到一個分數,再選用分數最高的規則。

第三個是基於全局的模型。我在每一個節點中都選出分數最高的K個子圖,經過Beam-Search操作之後,就可以得到一個考慮全局信息的語義圖。這是我們的結果。可以看到我們的模型比對比模型的效果好很多。我們有三種模型,即使是最簡單的基於計數的模型,也可以得到比較好的效果。

句法分析和語義理解專場|AIS預講會全程乾貨分享

3. 陳宇非 北京大學

Pre-and In-parsing Models for Neural Empty Category Detection

句法分析和語義理解專場|AIS預講會全程乾貨分享

如果大家做過句法分析的話會發現,樹庫除了句子之外,句之間還插入了很多空節點,這些空節點表示的含義,就是省略的主語之類的信息。我們要做的工作就是空節點檢測,就是我給出一個表面的句子,這個句子裡面會有一些省略的主語,怎麼把這些省略的成分標出來,這個任務就是空範疇的檢測。

空範疇檢測方法分為三種:pre-parsing、in-parsing和post-parsing。pre-parsing是在和那個句法分析無關情況下進行空範疇的檢測。in-parsing是空範疇檢測和句法分析兩個結合在一起。post-parsing是先得到句法分析結果,然後再進行空範疇分析。

進行空範疇分析的時候,我們要得到什麼樣的特徵?首先第一個特徵是序列的特徵,空範疇的旁邊可能會有什麼詞。還有一些比較遠距離的依賴,可能有一些詞和空範疇比較遠,但是他們可能也會對空範疇檢測有幫助。

我們提出第一個模型是一個基於序列標註的模型,因為我們已經得到原始句子,可以把空範疇依附到句子旁邊。我們提出了三種模型:第一種是在詞和詞之間插入一些空位,把空範疇依附到空位上面。第二個是空範疇依附到下一個詞上面,pre2表示的是最多會有兩個連續的空範疇。第三個模型是如果有連續空範疇的話,我們可能會把它依附到前面的詞或者後面的詞上面。

第一種模型是在詞和詞之間插入了很多空位,每兩個詞之間都會插入空位,我們就把空範疇的標籤放到空位上面。下面的模型都沒有插入空位,我們把空範疇的標籤放在前一個詞,或者後一個詞上面。

第二種模型是和依賴句法分析一起做的。首先是我們找出分數最大的句法樹的過程。我們的一階模型是對邊進行建模,邊可能是會有實節點和實節點之間的邊,還有實節點和空節點之間的邊,我們分別用一個全連接層對他們進行建模。

還有二階的模型。它的基本元素不是邊,而是兩條邊組成的對、比如說IJ和IK這兩條邊,就可以表示成IJK這個邊對,我們也可以通過一個全連接層對他們進行建模。對二階模型,我們組在2017年提出了一個動態規劃算法,來進行空節點和句法分析的聯合檢測。

我們模型的結果是對比了LSTM-CRF序列標註模型,還有線性的序列標註模型的結果,我們可以看到LSTM-CRF模型對序列模型有很大的提升。

第二個是我們in-parsing模型的結果。因為我們的in-parsing模型是空節點檢測和句法分析一起進行的,所以我們可以看到空節點檢測這種方式,不僅會對空節點檢測效果有提升,而且會對句法分析的結果有提升,就是空節點檢測和句法分析可以互相提高對方。

句法分析和語義理解專場|AIS預講會全程乾貨分享

4. 陳波 中科院軟件所

Sequence-to-Action:End-to-End Semantic Graph Generation for Semantic Parsing

句法分析和語義理解專場|AIS預講會全程乾貨分享

首先我們簡單介紹一下語義解析任務。語義解析是將自然語言句子解析成計算機可識別或可執行的語義表示,比如用邏輯表達式來表達句子的語義。這是一個語義解析的句子,自然語言句子“奧巴馬出身在哪個城市”,它所對應的邏輯表達式,它的解釋就是一個邊的X,它的類別是城市,它與奧巴馬實體之間有出身語義的關係。而我們得到一個句子的語義表示之後,我們在知識庫的支撐下,就可以得到這個句子準確的答案,我們可以得到句子的準確答案,奧巴馬出生的城市是火奴魯魯。語義解析的應用非常廣泛,可以應用於自動問答等等。

現階段語義解析面臨的問題,我們覺得是傳統的語義解析過於依賴於詞典和文法。比如以前很多工作都致力於怎麼進行詞典的學習,怎麼擴充詞典,另外還需要定義很多組合文法。而這兩年有兩類語義解析的方法,它們解決傳統語義解析方法面臨的問題:一類是基於語義圖構建的方法,這類方法是用語義圖表示,這種方法的優點是不再需要組合的文法,把語義落地這部分轉換成一個關係匹配的過程,不再需要詞典。

另外一個現階段比較火的序列到序列的方法,直接把句子的語義邏輯表達式序列化,把語義解析過程轉換成序列-到-序列的過程,這樣就可以解決語義解析的問題。這種方法同樣不需要文法、詞典和定義特徵,整個訓練過程是端到端的。

我們綜合這兩類方法提出Sequence-to-Action,首先我們使用語義圖來表示句子的語義,不使用邏輯表達式。另外我們把語義圖構建過程看成是一個動作序列,我們希望對句子進行解析,得到句子的語義圖。語義圖是一步一步構建過來的,我們把它的構建過程看作是一個動作序列,這樣可以把整個語義解析看作是一個句子的序列到動作系列的過程,這樣可以使用RNN模型進行建模。這種方法的優點,是它綜合利用了語義圖的語義表示能力以及像Sequence-to-Sequence模型序列預測的能力。

這種方法和之前基於語義圖構建的方法對比,不需要藉助於句法分析結果或者是特定的模板構建這麼一個語義圖,而直接使用端到端的方法生成語義圖。而對比基於Sequence-to-Sequence的方法,我們使用動作編碼來構建語義圖、構建建模更多句法信息,同時我們考慮了生成動作之間的一些聯繫。就是在decode過程中,可以方便添加一些句法和語義約束用來過濾一些錯誤的動作。

我們方法的一個框架舉個例子說明。當輸入一個句子的時候,我們使用了RNN的模型,生成一個動作序列。這個動作序列可以用來構建語義圖。在生成動作序列的過程中,可以添加一些約束條件,來限制可生成的動作,及時過濾掉一些錯誤的動作。而整個框架,首先需要定義一個動作集,這個動作集就是來建模語義圖的過程。這個動作集,它比較普遍,任何一個語義圖都是有一些節點、一些邊組建成的,具有一定的普遍性。而具體的針對每個數據集,它的邊、它的實體,它的這些信息是不同的話,可能對應的動作稍微有所不同,但是大體上類別是基於添加邊、添加節點、添加類別節點等等。

而我們所使用的Sequence-to-Action模型與現階段使用最為廣泛的編碼器模型沒什麼區別,唯一的區別是我們加入了一個控制器,用來添加一些句法約束和語義約束。

我們在編碼器中加入一些句法約束和語義約束。句法約束就是保證生成的動作序列能夠構建一個有效的圖,所對應的語義約束保證生成的動作序列所構建的語義圖,不違背知識庫的約束。比如說每一條邊所連接的兩個節點,必須符合知識庫裡面的約束。還有另外一種約束,就是每個節點的類別必須是不矛盾的。

我們在三個數據集上進行了實驗,分別是美國地理GeoQuery和美國航空ATIS數據集和OVERNIGHT數據集三個上面都取得了比較理想的效果。在OVERNIGHT數據集上取得了最好的效果,在GeoQuery和ATIS數據集上面取得了比較好的效果。

句法分析和語義理解專場|AIS預講會全程乾貨分享

5. 屠可偉 上海科技大學

Gaussian Mixture Latent Vector Grammars

(該論文第一作者為趙彥鵬,AIS預講會現場由張力文代替作口頭報告)

句法分析和語義理解專場|AIS預講會全程乾貨分享

成分文法分析(Constituency Parsing)旨在得到語言的結構化表示,即得到語言所對應的語法樹。如右圖所示,He found me 這句話,我們想要找到它的句法結構。概率上下文無關文法(Probabilistic Context Free Grammars)就是一種非常經典的方法,但是這種方法,假設文法規則的概率和其所在的上下文位置無關,有非常大的侷限性。

針對這個侷限性,前人提出了非常多解決方法:句法標註,即在語法樹中的句法類別上標註出其父節點或者兄弟節點的句法信息;詞彙標註,即在語法樹中的句法類別上標註出其對應的句子成分的中心詞。

之後出現了自動學習細粒度句法類別的方法,即隱變量文法(Latent Variable Grammars,LVG)。隱變量文法為每個句法類別(Nonterminal)關聯一個離散隱變量,離散隱變量的取值表示具體的句法子類別(subtype)。但是這種模型對於每個原始句法類別,只能建模其有限個句法子類別。

總結以上工作,我們發現不斷細化句法類別,能夠得到更加精確的文法分析結果。

因此,我們提出隱向量文法(Latent Vector Grammars, LVeG),目的是建模每個 Nonterminal的無窮個subtype。LVeG將 nonterminal 關聯到一個連續空間上,空間上的每個點都可以看做一個subtype。舉例來說,P(0.3, 2.1)這個 subtype 生成了he,而P(0.5, 1.4)生成了me。

與之前的 LVG 做一下對比:在LVG中,每一個nonterminal都變成有限多份,假設NP只有M個subtypes,P也只有M個subtypes,rule:NP->P,它們的subtype rule 只會有M²個,然後因為我們將每個nonterminal分成無限多份,所以我們的 NP->P 也會有無限多種 subtype rule。除此之外,LVG 具有一個表示該文法規則的概率的參數;而在 LVeG 中,grammar rule 具有一個表示該文法規則權重密度的參數。

事實上,LVG 可以被看做是 LVeG 的一個特例。通過將 LVG 的離散變量取值轉換為 One-hot Vectors,就可以將LVG 投影到連續空間上。組合向量文法(Compositional Vector Grammars,CVG)同樣是賦予句法子類別連續向量化表示,我們能夠證明該模型也是 LVeG 的一種特例。

既然 LVeG 可以被看作是LVG的一種擴展,那LVG遇到一些問題,LVeG也會遇到。如果我們直接用 CRK 對LV(e)G做 Parsing 的時間複雜度是 exponential 的,而且最終得到的是 subtype tree,但最終需要的是 unrefined parse tree。因此需要採取一些近似方法。

在這裡我們採取的是max-rule parsing,這種方法針對每個句子在每個位置計算每個grammarrule 的expected count,或者說 posterior probability,然後再利用後驗概率跑 CYK 算法,得到最後的結果。在LVG中計算後驗概率這一步在連續空間上有可能是不可計算的,為了解決這個問題,我們提出了Gaussian Mixture LVeGs(GM-LVeGs)。GM-LVeGs 將grammmar rule 的 weight function 定義為混合高斯分佈(GaussianMixture),因為混合高斯分佈對於加法,乘法,積分都是有閉式解的,所以在我們可得到求 Inside score, outside score 和 posteriorprobability 的解析解.。

GM-LVeG 的目標函數是傳統的 conditional log likelihood,我們用Adam 作為優化算法,而且當高斯分佈是對角高斯的時候,可以推導出梯度計算的解析解。在POS-taggng實驗中,我們在WSJ數據集上以及UD的8種語言做了測試,與LVG做了比較。我們可以取得與相對較好的效果。

在Constituency Parsing 實驗中,我們與LVG 和 CVG 等方法在wsj 數據集上做了比較。可以發現,不管在長度40以下的句子中,還是全部句子中,我們都能取得較好的效果。

總結一下,我們提出了一種新的框架,Latent Verctor Grammar, 將每一個nonterminal關聯到一個連續空間上,並且我們證明了之前的LVG、CVG這些算法都可以看作是LVeG一種特例;之後我們還提出了GaussianMixture LVeGs。其中每個grammar rule 的 weight function定義為 Gaussian mixtures。並且提出了多項式時間的學習與推理算法,可以在POS tagging 和 constituency parsing都取得很好的效果。

句法分析和語義理解專場|AIS預講會全程乾貨分享

6. 金暉明和朱昊 北京航空航天大學和清華大學

Incorporating Chinese Characters of Words for Lexical Sememe Prediction

句法分析和語義理解專場|AIS預講會全程乾貨分享

金暉明:Sememe官方的翻譯叫做義元,考慮一些漢字信息的義元預測。

先給大家講一下背後的知識,首先義元做一個定義就是最小的語義單元。義元的標註不是天然的,而是由語言學家們進行標註的,構成了一個數據庫。這個是董振東和董強先生提出的知網HowNet中用到的概念,知網是廣為人知的數據庫。知網裡面差不多2000個義元,這些義元標註了10萬個詞和短語,每一個詞和短語有若干個意義,可能是多義的,每個意義由若干個義元組成。

義元之間有樹狀的結構組織,然後義元之間存在多種關係。例如“蘋果”這個概念,它有兩個意義,一個是一種電腦,另外是一種水果。首先它的定義是一種電腦,樣式能攜帶。然後它是一種特定牌子、能攜帶的電腦,這就是“蘋果”。另外一個定義就是一種水果,大家可以看到意義就是用一些特定的義元來解釋這個詞的含義。

我們的工作任務是義元推薦。就是用詞彙的表示學習,對新詞進行義元的推薦,你不知道它的義元該怎麼標,你這個模型告訴他,義元該怎麼標。謝若冰等之前的工作提出了兩種方法,基於協同過濾和矩陣分解。這兩種方法還是挺有效的,但是他們的問題是僅用了外部信息,即從大規模文本中學到的Context信息。

我們的模型是先提出使用內部信息的模型,首先是類似於協同過濾的方法。首先將字在單詞中出現的位置分為前、中、後。因為字在不同的位置,可能代表不同的含義。然後根據詞形的相似度進行義元的推薦。

另外矩陣分解也是把這兩個矩陣進行分解,求一個最具代表性的詞,因為字的歧義性比詞要強,所以每一個字學習了多個Embedding,分解的時候選擇一個詞當中最具代表性的一個字最具代表性的Embedding,作為這個詞在和義元進行比較時候的Embedding。

句法分析和語義理解專場|AIS預講會全程乾貨分享

朱昊:我們現在建立了一個從漢字去推斷漢字所構成的詞義元的模型,這是基於一個基本假設,漢字和它所構成的詞之間具有非常強的聯繫。僅僅使用漢字的模型,它的效果雖然不如僅僅使用上下文的模型,但也沒有差特別多。更為重要的是,我們將兩種模型做了很簡單的集成,然後發現效果得到非常大提升。說明兩種模型具有很強的互補性。我們猜測,它其實是在語料比較稀疏,出現頻率比較低的詞上面效果會比較好。

我們的實驗也證明了這一點,當我們的詞頻非常低,甚至低到了只在語料中出現50次的時候,我們會發現,我們模型的效果跟高頻詞之間的效果相差無幾,僅僅低了0.03。之前使用上下文的模型,他們的效果下降了50%。由於我們模型加入,集成模型的能力也更加魯棒。

我們還可以更仔細地分析,究竟在哪些詞上面,我們的效果做得尤其好。例如鐘錶匠,在語料中,儘管鐘錶匠出現頻次比較高,但是使用上下文模型仍然沒有預測出來跟時間相關的義元,而我們的模型就可以。第二個例子是奧斯卡,這樣一個音譯詞,漢字跟詞義之間不具有任何聯繫,我們的模型做得會相對比較差。

我們提出來了一個基於漢字來預測義元的模型,之後也會有非常多可以拓展的工作。我們的模型驗證了了漢字與其構成的詞之間有很強的聯繫,為之後使用character-level 自然語言處理模型提供了基礎。

句法分析和語義理解專場|AIS預講會全程乾貨分享

7. 羅福莉 北京大學

Incorporating Glosses into Neural Word Sense Disambiguation

句法分析和語義理解專場|AIS預講會全程乾貨分享

Word SenseDisambiguation(WSD,詞義消歧)是一個比較傳統的NLP任務了。首先我們看一個例子,對play這個多意詞,它在不同的上下文中,可能會表示不同的意思(sense)。比如說第一個句子,We played football all afternoon,這表示打球。在其他句子中還可以表示彈奏樂器和扮演角色。對於這些sense,它在字典裡面都對應了一段文本的解釋性的句子,通常叫做gloss。比如說對play的第一個sense的gloss是:“participate in games or sport”。對於傳統的無監督的純基於知識的方法只是依靠於多義詞的上下文context和它的gloss計算一個相似度,選取最大相似度的gloss所在的sense,就是這個詞在當前上下文中所對應的正確的含義。

對於傳統的有監督的方法,往往只依靠於上面有標註sense的上下文context,訓練的一個或者多個的分類器。(因為每個詞有不同的sense,所以通常是為為每一個多義詞訓練一個分類器,但是neural-based的方法通常是為所有詞訓練一個統一的分類器)。我們這篇文章主要的工作主要的啟發是:不管是labeled data,還是lexical knowledge,都是對詞義消歧非常有幫助的。於是我們就想,能否用一個模型,把這兩種數據都建模進去,這就是我們這篇論文主要的動機。

怎麼去建模這兩種知識?其實可以把它轉化成閱讀理解的問題。比如說對於閱讀理解的問題,有一個question對應了一段document,並有一個answer。對於我們的詞義消歧任務而言,document也就是這個多義詞所有sense的glosses。比如說play這個單詞在字典裡有N個意思,對應的document就是N個sense的解釋gloss句子。question就是說在當前上下文context當中,play單詞到底是哪一個含義(sense)。對應的answer就是選出正確sense對應的gloss的句子編號。當把“加入知識的有監督詞義消歧問題”這個問題轉化成閱讀理解/QA問題後,就可以利用QA一些框架去解決這個問題。經過調研和實驗,我們發現memory network很適合解決這個問題。

下面看一下模型主要的架構,主要包含了4個module。Context module主要是建模的句子所的上下文的信息,把它建模成一個向量。Gloss module主要是建模的每個句子的sense的解釋gloss,把每個gloss表示成一個向量。在Memory module中通過多輪(pass)不斷地去計算每個gloss跟context的相似性,最後把Memory module最後一個pass的attention取出來,作為最後context跟gloss的相似度得分。最後Answer Module將這個相似度得分和context過一個MLP的得分相加,再取softmax,就得到了不同sense的概率分佈,繼而通過最大化交叉熵來訓練整個模型。

實驗過程中,我們發現由於有些gloss的句子只有幾個單詞,繼而影響生成的gloss vector不準確。因而我們的改進模型用了上下位的詞的gloss來擴充sense的信息。句子的改進是在上一個模型基礎上擴充了Gloss module,用了BiLSTM來fusion上下位詞的gloss的vector。

我們最好的模型相對於完全只使用標註數據的BiLSTM,提高了2.2個百分點。加入gloss的knowledge對性能提高非常明顯,同時我們的模型在所有Semeval數據集上都達到了最好的效果。下面看一個Multi-pass的影響,可以看到加入了多跳的機制,可以拉大正確sense和錯誤sense之間的Attention值。

最後說一下未來的一些工作。我們只用到了Gloss的文本信息,還有很豐富的結構化信息在WordNet中沒有用到。還有一個是我們把每個gloss直接建模成一個向量去用,在Gloss上進行更“細粒度”地跟Context進行關聯度建模的是否更有意義,也值得我們深入思考和實驗。

句法分析和語義理解專場|AIS預講會全程乾貨分享

8. 趙露君 復旦大學

Neural Networks Incorporating Unlabeled and Partially-labeled Data for Cross-domain Chinese Word Segmentation

句法分析和語義理解專場|AIS預講會全程乾貨分享

首先介紹一下中文分詞的任務,然後介紹一下我們的模型,最後講一下實驗的一些結果。

中文分詞的東西,輸入是這樣一段文本,希望輸出的時候,是把它分成每一個詞。這個任務一般來說會建模成一個序列標註的任務,每一個字打4個標籤,表示是否是詞的開頭、中間或者結尾,或者這個字本身就是一個詞。我們主要是利用了兩個語料,第一個是Unlabeled的dada,第二個是Partially-labeled data。

比如說這裡“美國|總統”這樣兩個詞,如果你是在詞的中間去切,比如說“美國總”,你是非常容易預測對下一個字的,預測下一個字是“統”的概率是0.71。如果在兩個詞中間分開,比如說給定“美國”預測下一個字,非常難以預測對下一個字是“總”(概率是0.05)。這個概率是由language model給出的,所以說你可以通過language model來發現字之間共現的信息,這個信息對於分詞是比較有幫助的。而且language model是可以用Unlabeled dada來訓練的。為了把語言模型的特徵更好地結合到分詞裡面,我們的架構中使用了gate機制,就是用GRU來實現的,把三個特徵做一個融合,最後做一個分詞。

第二個是利用partially-labeled data,比如說“美國總統住在白宮”,如果“總統”是一個超鏈接,我們可以認為這就是一個詞,產生了下面的partially-labeled data。

接下來看一下我們的實驗,原領域是人民日報語料(新聞領域),目標領域有四個,金融、醫學、文學和計算機領域。另外一組是一個小說(誅仙)來作為目標領域,CTB5作為原領域。

我們的模型在這5個實驗裡面,只有一個是沒有比過2017年工作,其他4個實驗都達到了最好的結果。這裡有一個比較奇怪的地方,我們發現在文學領域你加了partially-labeled之後,反而比不加partially-labeled效果要差。

我們來分析一下加language model跟加partially-labeled到底有什麼不一樣。“小周”、“田靈兒”,都是人名。我們發現BilSTM把這兩個人名都分錯了,加了語言模型的時候,有一個人名(“田靈兒”)就對了。我們通過分析發現,“田靈兒”是這本書的主角,她出現的次數比較多,“小周”出現的次數比較少。對於Unlabeled data來說,如果這個詞出現次數越多,通過Unlabeled data 就更容易捕捉到這個詞的信息。如果出現次數比較小,你直接把它partially-labeled這是一個比較好的辦法。

這個實驗主要是分析數據量大小對實驗結果的影響,你用了unlabeled越多,效果越好。partially-labeled是不一樣的,它可能是先上升,後下降。partially-labeled裡面有非常非常多噪聲的,導致你用的越多,後面慢慢是下降的,這是我們的分析,謝謝大家!


分享到:


相關文章: