如何使用程序自動化提取一篇文章的關鍵詞

場景需求

有一篇文章,不在人工干預下,自動提取關鍵詞。


基本理論

文章的關鍵詞,最初的方法多是使用詞語出現的頻次(Term Frequency,縮寫為TF)作為衡量的標準,但在實際應用過程中會出現一些無關緊要的關鍵詞,如“我、你、他們”,“的”,“是”。


雖然這些毫無意義的助詞、代詞可以通過停用詞來過濾掉,仍然會有一些有意義但不是關鍵詞的干擾詞語。那麼有沒有一種規則可以降低一些非常通用且常見詞語的權值,而增加不那麼常見詞語的權值呢?


因此人們提出了新的規則,逆文檔頻率(Inverse Document Frequency,縮寫為IDF),IDF可以降低一些非常通用且常見詞語的權值,而增加不那麼常見詞語的權值。下面將就如何在一篇文章自動提取關鍵詞做一個項目框架流程圖。


思路流程圖

如何使用程序自動化提取一篇文章的關鍵詞

圖 1:自動提取關鍵詞原理圖

計算公式

(1) 計算詞頻

如何使用程序自動化提取一篇文章的關鍵詞

(2) 計算逆文檔頻率

如何使用程序自動化提取一篇文章的關鍵詞

(3) 計算tfidf權重

如何使用程序自動化提取一篇文章的關鍵詞

<code>歡迎各位讀者朋友們留言一起探討學習!覺得文章對你有幫助,記得點贊、關注、轉發喔!/<code>


分享到:


相關文章: