自然語言處理系列-第二期-詞典法情感分析

背景

自然語言處理系列-第二期-詞典法情感分析

上一期,我們提到了自然語言處理的難度和其巨大的意義。接下來將進入到自然語言處理-情感分析。上一期結尾,我們稍微提到了 某些詞帶明確情感的指向,所以進而想到了建立一個情感詞典的想法。所以,本期自然會介紹該詞典法的情感分析。

題外話,我個人學習的過程主要是通過問問題的方式:

1. 瞭解我們面對的問題,或者說我們的目標;及其環境及其他影響因素;

2. 瞭解該方法的內在邏輯

3. 基於該內在邏輯,瞭解其侷限性及優缺點

總之呢,我學習的過程就是一個提問和回答的循環。所以,我的文章也是基於該思路。

Lexicon-Based Sentiment Analysis詞典法

目標:

首先需要明確,我們的目標是需要對一句話或者一段文本進行情感分析;

方法內在邏輯

詞典法,看這個詞就能大概知道這個方法的邏輯。但是再深入想一想就可以知道其實沒那麼簡單。個人覺得,以下幾個方面就會對該算法造成很大的困難:

  • 分詞. 舉個例子就很好理解了。比如“好壞”這兩個字。 如果把它理解成兩個形容詞,‘好’,‘壞’,那麼這就是一個 正面的詞+一個負面的詞;如果把它理解成一個修飾形容詞的副詞和另一個被修飾的形容詞。那麼這就是 一個 負面的詞。 那麼‘好壞’到底是很壞的意思還是一箇中心詞呢?
  • 語義轉折. 大部分語義轉折出現於 諷刺。 舉個例子“我簡直太喜歡這個手機了,用了兩天就壞了,好開心。” 這種語義轉折的情況,如果用詞典法,會發現這全是“喜歡”,‘開心”這種正面的詞。

那麼詞典法具體是怎麼樣的呢?

基礎版本真的是簡單到不能再簡單了。 假設我們看的是英文(不太存在分詞的問題),詞典法就是簡單調用詞典,算出每個詞的情感分值,然後加起來。

沒有找到中文靠譜的詞庫,而且詞庫法本身準確性也存在問題,所以並沒有深入研究。下面是一個英文詞庫Textblob的例子,大家能看出來實際上非常簡單,就是一個簡單的調用。

當然詞典法也可以在幾個方面做一些升級,比如對於否定的處理,對於副詞的處理。

自然語言處理系列-第二期-詞典法情感分析

詞典法的優缺點

  • 除了前面提到的準確性問題,還有一個更大的缺點,就是詞典是普適性的。 但是,當我們專注一個行業或者一個方面時,同一個詞可能在不同地方有不同的意思。比如“黑屏”,比如“suck” 這種情況非常普遍;
  • 另一個我個人認為的缺點在於,太依賴詞典質量,以至於我們能做的不多。其他的方法,對於算法的改進或者訓練樣本增多,結果自然會好一些。然而,詞典法能做的並不多,因為基礎已經確定

下期預告

本期主要介紹了 情感分析最基礎的一個詞典法。 感覺和神經網絡,機器學習沒啥關係。 不過下一期不一樣,下一期會帶來Word2Vec,這個可以說是自然語言處理很基石的一部分。


分享到:


相關文章: