Query詞權重方法(4)- beyond 詞粒度

前文介紹的詞權重方法都是預測單個term的權重,在實際使用中,可能也需要某個短語或n-gram的權重,比如query”我 的 前 半生 在線 觀看“,可能也需要知道”我 的 前 半生“的權重,雖然從單個term角度來看,每個term的重要性都不大,但從整體來看,”我的前半生“的權重還是比較大的。


因此在idf的基礎上,針對n-gram可以基於語料統計計算一個ngram-idf,相比於idf,ngram-idf可以在同一維度空間比較任意長度n-gram的重要性。這是因為idf計算中受限於ngram長度的影響,ngram越長,其出現次數越少,計算出的idf就越高。但是idf的高低和ngram長度並無直接關係,ngram-idf的計算中引入其他計算因子減輕了長度的影響。


Query詞權重方法(4)- beyond 詞粒度


Query詞權重方法(4)- beyond 詞粒度


上圖給出了ngram-idf的計算方式,對於ngram g,df(g)表示g緊鄰出現在語料中的次數,df(\thea(g))表示g非緊鄰出現在語料中的次數,要求在一定窗口內。公式前半部分類似於idf的計算,表示ngram出現的次數越少,ngram的信息量就越大;後半部分表示ngram在文本緊鄰和非緊鄰出現的次數越接近,ngram的內凝度就越大。兩者組成了ngram的重要性。ngram-idf在計算過程中,一個挑戰是如何基於大規模語料統計ngram在預定義窗口內非緊鄰出現的次數。


原文轉自:https://mp.weixin.qq.com/s?__biz=MzU2OTQyOTMxOQ==&mid=2247483921&idx=1&sn=6382ee8b7e4697565bf060c03db4cd14&chksm=fcff9e39cb88172f33eb88346bf467b56e3c55e0cac97634f1d0b4c665d9a4fe37fcb171d118&scene=21#wechat_redirect


分享到:


相關文章: