切切切詞!新詞發現算法TopWORDS的原理及實現


一、介紹

TopWORDS [參考文獻1]是發表在PNAS的一種新詞發現算法,它在沒有任何先驗知識的條件下,快速地從大規模中文語料裡學習出一個排序的詞典以及語料文本的分詞結構。

NB:TopWORDS的代碼實現倉庫

https://github.com/qf6101/topwords


二、應用領域

TopWORDS的應用領域包括新詞發現、短文本分析等。新詞發現一直是文本挖掘領域的一個難題,目前的方法主要是分為兩種:

(1)依賴眾包手段收集詞彙,例如百度的搜索詞和搜狗的拼音輸入;

(2)採用規則方式採集候選詞彙,加以人工篩選,例如Matrix67彙總的一些規則 [參考文獻2]。上述第一種方法需要先天有優勢的大產品才能做,第二種方法效果較差,並且它們都需要大量的人工干預。TopWORDS天然可以做新詞發現,優點是完全無監督,有理論依據,效果較好。短文本分析是文本挖掘領域的另一個難題,內容簡短、拼寫錯誤、縮寫語多、語法隨意等原因為它的分析帶來很多困難。TopWORDS除了可以抽取常用短語外,還可以為短文本分類等任務提供高頻特徵。


三、算法步驟

(1)TopWORDS的問題描述如下(不考慮輔助知識)

* 輸入:一個語料集合

* 輸出:一個排序的詞典、輸入語料的分詞結構(與詞典一致)

(2)TopWORDS採用兩步算法

* 第0步:語料預處理。確定文本片段的粒度,可以是句子、段落、甚至整篇文檔作為一個文本片段,前兩種粒度適合分佈式計算,論文采用後兩種。將語料整理為文本片段的集合,清理掉文本片段中的標點符號。


* 第2步:採用EM算法從語料中估計每個詞的實際使概率,下面是有關符號。


另外,S和T的關係如下:


(3)EM算法的推導


(4)動態規劃的表示形式


四、詞典排序

論文還提出了一種衡量詞使用率的排序標準,比較它出現和不出現情況下語料的概率,作為詞的重要程度。該標準也可以採用動態規劃的方式進行計算,在此不再贅述。


五、最優分詞結構

論文提出以兩種策略來確定最優分詞結構:

(1)所有可能的分詞結構中分詞邊界的頻率大於閾值,且詞典中存在對應的詞;

(2)如果詞典中不存在對應的詞,就採用MLE策略。該策略也可以採用動態規劃的方式進行計算,在此不再贅述。


六、參考文獻

1. Deng K, Bol P K, Li K J, et al. On the unsupervised analysis of domain-specific Chinese texts[J]. Proceedings of the National Academy of Sciences, 2016: 201516510。

2. 顧森 (Matrix67). 基於大規模語料的新詞發現算法. 《程序員》.2012年7月刊。


作者介紹:錢烽,浙江大學計算機博士,現任杭州實在智能科技有限公司「實在智能」算法專家,曾在網易杭州研究院和網易傳媒長期擔任算法專家職位。在VLDB,ECML-PKDD,PAKDD等重要國際會議以及KAIS、JIIS等SCI國際期刊發表十餘篇學術論文,受邀擔任IJGIS,IEEE Access等重要國際期刊的審稿人,擁有2項發明專利。


公司介紹:杭州實在智能科技有限公司是一家以AI+RPA技術為核心的智能軟件機器人一體化供應商。客戶面向財務、金融、數字化園區、運營商領域,涉及到的細分場景有客服、財稅、人力、法務、運維等,幫助用戶替代重複性系統操作,並實現業務場景下的輔助決策。

「實在智能」AI能力:公司產品已實現常見AI組件的全覆蓋,包括NLP(自然語言處理)、OCR(光學字符識別)、Chatbot(對話機器人平臺)、機器學習平臺四大類。

「實在智能」“章魚RPA”由四部分構成:

機器人工廠(Z-Factory,即任務組件編輯器),AI雲腦(Z-Brain,提供複雜場景智能決策解決方案);中樞控制檯(Z-Commander,綜合管理臺,全面管理部署、實時監控、任務管理、運籌調度、機器人運行情況數據化展示);終端機器人(Z-Bot,虛擬員工端,支持無人值守、人機協同等多種交互形式)。RPA搭載AI技術後能讓每一家企業擁有自己的數字員工,進入企業智能化時代。客戶群體已經有中國移動、中國電信、中國鐵塔、國家電網、中國人壽、泰康人壽等在內的多家頭部用戶。



分享到:


相關文章: