從產品評論窺探用戶感受,自然語言處理做了什麼?

點擊上方關注,All in AI中國

在這篇文章中,我將展示如何使用自然語言處理從產品評論中提取關鍵字(方面)。這個想法主要是為了複製亞馬遜的評論。例如,在下圖中,您可以看到,根據給定產品的評論,提取關鍵詞,然後允許用戶通過這些關鍵詞來搜索評論。

從產品評論窺探用戶感受,自然語言處理做了什麼?

amazon.in中基於關鍵字的搜索

我將嘗試複製生成這些關鍵字的過程,然後可以使用這些關鍵字。

做各種各樣的任務,從基於關鍵字的搜索到基於它的情緒分析。讓我們開始吧。

NLP:這是什麼?

在我們開始方面提取的任務之前。讓我們瞭解自然語言處理是什麼。

NLP,是一種讓計算機理解人類語言的嘗試。計算機可以輕鬆理解編程語言。但是,我們如何確保計算機能夠理解人類語言?要了解NLP,讓我們瞭解哪些主要任務可歸類為NLP任務。

1.標記化:人類可以閱讀和理解語言,因為我們可以輕鬆識別給定文檔中的單詞、句子、段落等。大多數NLP框架允許計算機理解文本的哪些部分是單詞、句子或段落。

2.詞性標註:另一個語言理解的特徵是人類能夠識別語言中的語法元素。例如,我們可以很容易地在給定的句子中找出哪個詞充當動詞、名詞或代詞等。NLP框架允許計算機識別文本中每個單詞的語法功能。

3.依賴解析:當我們查看任何句子時,我們不僅可以識別語法元素,還可以識別它們如何以“主語”的形式相互關聯,以及什麼是給定句子中的“賓語”的形式存在。我們也理解句子中的名詞短語是什麼,它如何與其他短語以及給定句子中的單詞相關。NLP工具包也有助於完成此任務。

4.共同引用解析:人類能夠輕鬆破譯代詞與句子中不同語法元素的關係。例如在文中

“莫迪指責反對派用雙重標準。他今天在議會提出這一指控。”

我們知道第二句中的“他”指的是莫迪。而使用NLP框架,可以輕鬆地構建規則以理解文本中的哪個代詞指的是哪個名詞或與哪個名詞短語相關。

5.命名實體識別:我們可以很自然地判斷一個句子中的單詞是指一個人、一個地方、一個日期,還是公司實體等。即使我們之前沒有看到這個單詞,但我們仍能夠正確猜測該單詞引用哪個實體。例如,在下面的句子中:

“康科迪亞宣佈向股東派發3000萬美元股息。”

雖然我們可能從來沒有聽說過“康科迪亞”是一家公司,但我們仍然可以合理地說它指的是一個公司。NLP框架還可以幫助計算機理解給定單詞所指的“實體”。

從產品評論窺探用戶感受,自然語言處理做了什麼?

提取關鍵字(方面)

為了複製亞馬遜所做的事情,我將展示如何提取關鍵詞。我們會很依賴基於規則的方法,利用評論的語法結構。這種方法適用的假設是,一般的評論是以尊重語法規則的方式編寫的。我們將使用的語法規則是:

“刪除了常用詞語的文本中最常用的名詞,就會揭示文本中的關鍵詞(方面)。”

要在產品評審意見庫上實施此規則,將需要進行以下預處理的部分。

  1. 從語料庫中提取單詞標記
  2. 刪除常用詞
  3. 提取所有名詞
  4. 找出最常見的5個名詞,它們將是關鍵詞

我使用spacy來實現NLP管道。

以下是我撰寫的用於從特定產品的評論中提取關鍵詞的功能,這是一個非常受歡迎的手機品牌。評論是由在班加羅爾Jigsaw學院從事學期項目的學生團隊收集的。 (https://www.jigsawacademy.com/)

從產品評論窺探用戶感受,自然語言處理做了什麼?

下一步

一旦您能夠從產品評論中識別關鍵詞,您就可以嘗試構建基於它的搜索,甚至可以嘗試進行基於它的情緒分析。基於它的情感分析可用於找出人們對產品的不同特徵的感受。例如,人們通常對手機的電池壽命感興趣。

從產品評論窺探用戶感受,自然語言處理做了什麼?


分享到:


相關文章: