學習NLP的第19天——NLP領域的分類問題

分類是指解決預測樣本所屬類別的一類問題,即對於給定樣本x,輸出x所屬的類別。

當供選擇的類別只有2個時,稱為二分類,反之稱為多分類。而多分類的問題也可以通過二分類來解決。具體來說包含one-vs-one和one-vs-rest兩種方案。

  • one-vs-one:進行多輪的二分類,每次比較兩個不同的分類,枚舉所有的所有的兩個分類的組合;理想情況下應該有且僅有一個類別在每一次比較中都被選中,成為預測結果。
  • one-vs-rest:進行多輪的二分類,每次比較某個類別和非該類別,枚舉所有的類別;理想情況下應該有一個類別被模型賦予的費數是最高的,成為預測結果。

由此可見,只要有效實現了二分類,就可以應用於多分類的結果。


在NLP領域,分類問題的應用包括:

  • 本文分類:天然的分類問題
  • 新詞發現、關鍵詞提取:判斷每個單詞是否屬於新詞或關鍵詞
  • 指代消解:判斷每個代詞是否和實體存在指代關係
  • 近義詞替換:判斷兩個單詞是否是近義詞可以替換
  • 語言模型:語言模型中,也可以將每個單詞視作一個類別,給定上文預測接下來要出現的單詞。

學習參考文獻:《自然語言處理入門》(何晗):5.1


分享到:


相關文章: