場景需求
有一篇文章,不在人工干預下,自動提取關鍵詞。
基本理論
文章的關鍵詞,最初的方法多是使用詞語出現的頻次(Term Frequency,縮寫為TF)作為衡量的標準,但在實際應用過程中會出現一些無關緊要的關鍵詞,如“我、你、他們”,“的”,“是”。
雖然這些毫無意義的助詞、代詞可以通過停用詞來過濾掉,仍然會有一些有意義但不是關鍵詞的干擾詞語。那麼有沒有一種規則可以降低一些非常通用且常見詞語的權值,而增加不那麼常見詞語的權值呢?
因此人們提出了新的規則,逆文檔頻率(Inverse Document Frequency,縮寫為IDF),IDF可以降低一些非常通用且常見詞語的權值,而增加不那麼常見詞語的權值。下面將就如何在一篇文章自動提取關鍵詞做一個項目框架流程圖。
思路流程圖
計算公式
(1) 計算詞頻
(2) 計算逆文檔頻率
(3) 計算tfidf權重
<code>歡迎各位讀者朋友們留言一起探討學習!覺得文章對你有幫助,記得點贊、關注、轉發喔!/<code>