NLP領域文本摘要有哪些研究方法?


NLP領域文本摘要有哪些研究方法?


不少人說,對人類語言文本的真正語義理解可能是自然語言處理(NLP)的聖盃——這句話並不誇張。遺憾的是,對人類語言直接的“理解”並不能簡單地依賴文本摘要。

不過,我們的分析必須繼續進行。目前有一系列實際的技術用於文本摘要,其中一些可以追溯到幾十年。本文將介紹目前文本摘要使用的主要方法並討論其特徵。

NLP領域文本摘要有哪些研究方法?


自動文本摘要技術


明確地說,當提到“自動文本摘要”時,我們指的是通過使用機器,並以某種形式的啟發式或統計方法來對一份或多份文檔進行摘要。在這種情況下,摘要是一段簡短的文本,它準確地捕獲和傳達我們想要摘要的文檔中包含的最重要和最相關的信息。我們目前使用的各種不同的自動文本摘要技術,其效果有許多是經過實踐檢驗的。

有一些可以對自動文本摘要技術進行分類的方法,如圖1所示。本文將從摘要輸出類型的角度探討這些技術。在這方面主要有兩類技術:抽取式和抽象式。


NLP領域文本摘要有哪些研究方法?


圖一 自動文本摘要方法

抽取式文本摘要方法:從語篇中識別出重要的句子或摘錄,並逐字複製,作為摘要的一部分。不生成新文本,在摘要過程中只使用現有文本。

抽象式文本摘要方法:採用更強大的自然語言處理技術來解釋文本並生成新的摘要文本,而不是選擇最具代表性的現有摘錄來進行摘要。

雖然這兩種方法都是文本摘要的有效方法,但抽象技術更難實現。事實上,現在大多數摘要過程都基於抽取式方法。這並不意味著抽象式方法應該被忽視,相反,對該種方法進行研究——以及對人類語言的真正語義理解——是一項值得追求的事情。

因此,本文餘下部分將重點介紹抽取式文本摘要的具體內容及其不同的實施技術。

抽取式文摘

抽取式文摘技術各不相同,但它們都有相同的基本任務:

1.建立輸入文本的中間表示(待摘要的文本)

2.根據構建的中間表示對句子進行評分

3.選出按重要性排名前k個句子的摘要

任務2和任務3非常簡單:在句子評分中,我們要確定每個句子在多大程度上傳達了所摘要文本的重要方面,而句子選擇則使用一些特定的優化方法來執行。這兩個步驟的算法各不相同,但其概念簡單易懂——根據某種度量標準為每個句子打分,然後通過一些定義明確的句子選擇方法從得分最高的句子中進行選擇。

第一項任務是中間表示,可以進一步闡述。

NLP領域文本摘要有哪些研究方法?


中間表示


在對句子進行評分和選擇之前需要賦予自然語言某種意義,為了達到此目的,需要為每個句子建立一些中間表示。下面簡要定義了兩個主要類別的中間表示,即主題表示和指標表示,以及它們的子類別。

主題表示 - 以識別文本主題為重點的文本轉換;此方法的主要子類別包括:

· 頻率驅動方法

· 主題詞方法

·潛在語義分析(LSA)(https://en.wikipedia.org/wiki/Latent_semantic_analysis)

· 貝葉斯主題模型 - 例如潛在狄利克雷分配(LDA)(https://en.wikipedia.org/wiki/Latent_Dirichlet_allocation)

最流行的兩種詞頻方法是詞概率和TF-IDF(https://en.wikipedia.org/wiki/Tf%E2%80%93idf)。

在主題詞方法中,有兩種計算句子重要性的方法:通過其所包含的主題簽名的數量(句子討論的主題數量),或者通過句子包含的主題的比例與文本中包含的主題數量。因此,第一類傾向於用於較長的句子,而第二類則衡量主題詞的密度。

對潛在語義分析和貝葉斯主題模型方法(如LDA)的解釋不在本文討論範圍,但可以在上面的鏈接中查看。


NLP領域文本摘要有哪些研究方法?


圖二 構建詞袋特徵向量


指標表示 - 將文本中每個句子轉換為重要特徵列表,其功能可能包括:

· 句子長度

· 句子位置

· 句子是否包含特定單詞(有關此類特徵提取方法的示例,請參見圖2,詞袋(https://en.wikipedia.org/wiki/Bag-of-words_model))

· 句子是否包含特定短語

使用一組特徵來表示文本數據和並對其進行排序,可以通過使用兩種總體指示表示方法中的任一種來執行:圖形方法和機器學習方法。

使用圖形表示:

· 我們發現,子圖最終代表了本文所涵蓋的主題。

· 我們能夠分離出文本中的重要句子,因為這些句子將與更多其他句子相連(如果你將句子視為頂點,並將句子相似性表示為邊緣)。

· 我們不需要考慮特定語言的處理,該方法可應用於各種語言。

· 我們經常可以發現,通過圖形化的句子相似性獲得的語義信息比簡單的頻率方法更能提高摘要性能。

使用機器學習表示:

· 摘要問題被建模為分類問題

· 為了將句子分類為摘要句子或非摘要句子,我們需要標記訓練數據並構建分類器

· 半監督學習等替代方案解決了部分標記數據難題

· 我們發現某些假定句子之間依賴關係的方法往往勝過其他技術

文本摘要是自然語言處理的一個振奮人心的子學科。雖然人們每天都在使用和研究各種摘要的方法,但是在理解上述概念的基礎上,你應該能對這些方法的操作有所瞭解,至少是在一個很高的水平上。


分享到:


相關文章: