ACL 2018|利用Lattice LSTM的最優中文命名實體識別方法

選自arXiv

機器之心編譯

參與:路、王淑婷

近日,來自新加坡科技設計大學的研究者在 arXiv 上發佈了一篇論文,介紹了一種新型中文命名實體識別方法,該方法利用 Lattice LSTM,性能優於基於字符和詞的方法。與基於字符的方法相比,該模型顯性地利用詞和詞序信息;與基於詞的方法相比,lattice LSTM 不會出現分詞錯誤。這篇論文已被 ACL 2018 接收。

作為信息抽取的一項基本任務,命名實體識別(NER)近年來一直受到研究人員的關注。該任務一直被作為序列標註問題來解決,其中實體邊界和類別標籤被聯合預測。英文 NER 目前的最高水準是使用 LSTM-CRF 模型實現的(Lample et al., 2016; Ma and Hovy, 2016; Chiu and Nichols, 2016; Liu et al., 2018),其中字符信息被整合到詞表徵中。

中文 NER 與分詞相關。命名實體邊界也是詞邊界。執行中文 NER 的一種直觀方式是先執行分詞,然後再應用詞序列標註。然而,分割 → NER 流程可能會遇到誤差傳播的潛在問題,因為 NE 是分割中 OOV 的重要來源,並且分割錯誤的實體邊界會導致 NER 錯誤。這個問題在開放領域可能會很嚴重,因為跨領域分詞仍然是一個未解決的難題(Liu and Zhang, 2012; Jiang et al., 2013; Liu et al., 2014; Qiu and Zhang, 2015; Chen et al., 2017; Huang et al., 2017)。已有研究表明,中文 NER 中,基於字符的方法表現要優於基於詞的方法(He and Wang, 2008; Liu et al., 2010; Li et al., 2014)。

ACL 2018|利用Lattice LSTM的最优中文命名实体识别方法

圖 1:詞-字符網格。

基於字符的 NER 的一個缺陷在於無法充分利用顯性的詞和詞序信息,而它們是很有用的。為了解決這一問題,本論文研究者利用 lattice LSTM 來表徵句子中的 lexicon word,從而將潛在詞信息整合到基於字符的 LSTM-CRF 中。如圖 1 所示,研究者使用一個大型自動獲取的詞典來匹配句子,進而構建基於詞的 lattice。因此,詞序如「長江大橋」、「長江」和「大橋」可用於語境中的潛在相關命名實體消歧,如人名「江大橋」。

由於在網格中存在指數級數量的詞-字符路徑,因此研究者利用 lattice LSTM 結構自動控制從句子開頭到結尾的信息流。如圖 2 所示,門控單元用於將來自不同路徑的信息動態傳送到每個字符。在 NER 數據上訓練後,lattice LSTM 能夠學會從語境中自動找到更有用的詞,以取得更好的 NER 性能。與基於字符和基於詞的 NER 方法相比,本論文提出的模型的優勢在於利用利用顯性的詞信息而不是字符序列標註,且不會出現分詞誤差。

ACL 2018|利用Lattice LSTM的最优中文命名实体识别方法

圖 2:Lattice LSTM 結構。

結果顯示該模型顯著優於基於字符的序列標註模型和使用 LSTMCRF 的基於詞的序列標註模型,在不同領域的多箇中文 NER 數據集上均獲得最優結果。

模型

研究者遵循最好的英文 NER 模型(Huang et al., 2015; Ma and Hovy, 2016; Lample et al., 2016),使用 LSTM-CRF 作為主要網絡結構。形式上,指定輸入句子為 s = c_1, c_2, . . . , c_m,其中 c_j 指第 j 個字符。s 還可以作為詞序列 s = w_1, w_2, . . . , w_n,其中 w_i 指句子中的第 i 個詞,使用中文分詞器獲得。研究者使用 t(i, k) 來指句子第 i 個詞中第 k 個字符的索引 j。以圖 1 中的句子為例。如果分詞是「南京市 長江大橋」,索引從 1 開始,則 t(2, 1) = 4 (長),t(1, 3) = 3 (市)。研究者使用 BIOES 標記規則(Ratinov and Roth, 2009)進行基於詞和基於字符的 NER 標記。

ACL 2018|利用Lattice LSTM的最优中文命名实体识别方法

圖 3:模型。

ACL 2018|利用Lattice LSTM的最优中文命名实体识别方法

表 4:在開發集上的結果。

ACL 2018|利用Lattice LSTM的最优中文命名实体识别方法

表 5:在 OntoNotes 上的主要結果。

論文:Chinese NER Using Lattice LSTM

ACL 2018|利用Lattice LSTM的最优中文命名实体识别方法
  • 論文鏈接:https://arxiv.org/abs/1805.02023

  • 項目鏈接:https://github.com/jiesutd/LatticeLSTM

摘要:我們研究了用於中文命名實體識別(NER)的 lattice LSTM 模型,該模型對輸入字符序列和所有匹配詞典的潛在詞彙進行編碼。與基於字符的方法相比,該模型顯性地利用詞和詞序信息。與基於詞的方法相比,lattice LSTM 不會出現分詞錯誤。門控循環單元使得我們的模型能夠從句子中選擇最相關的字符和詞,以生成更好的 NER 結果。在多個數據集上的實驗證明 lattice LSTM 優於基於詞和基於字符的 LSTM 基線模型,達到了最優的結果。

ACL 2018|利用Lattice LSTM的最優中文命名實體識別方法

✄------------------------------------------------

廣告 & 商務合作:[email protected]


分享到:


相關文章: