ROST-CM軟體分詞和詞頻統計用法體驗

前面的文章我們專門講過,為了給沒有深厚的計算機基礎的研究者使用,GooSeeker分詞工具在開發過程中,參考學習了多個優秀的分詞軟件,其中就有ROST-CM內容挖掘軟件。本文專門針對分詞這一個功能專項,講解一下ROST和集搜客分詞軟件的不同。

ROST作為一款優秀的內容挖掘工具,在自然語言處理上提供一系列能夠快速上手使用的功能,其中"分詞"功能也是廣為使用的。我們在對文本進行分詞處理的過程中,由於詞庫是固定的,所以不管是用哪一款分詞軟件,也都有可能出現分詞結果中沒有你想要的那個詞,即使這個詞確實是在文本中存在的。下面我們主要講解分詞的操作過程和自定義詞的添加過程。

下面我通過實際應用場景來說明一下,前面我的一篇文章《畢業論文寫什麼——微博數據挖掘相關的論文》其中有一塊分析,專門對微博數據挖掘相關的論文的標題做了分詞和統計分析,就用到了分詞處理功能。本文還是以那個數據集為例進行講解。

數據:知網微博數據挖掘研究分析-“論文主題”字段數據

數據進行共享了,有興趣的話可以自己試驗一下。

1,用ROST進行分詞處理

在我們常見的研究場景中,分詞以後基本上都要做詞頻統計,所以我們考察 "分詞-詞頻統計"聯合在一起的操作過程。下面的操作過程可以看到,ROST把這兩個過程明確分開,要做兩步。

1.1,用ROST進行分詞

ROST不支持對excel文件進行分詞,所以先將剛剛的實驗數據複製到txt文檔中,如下。

ROST-CM軟件分詞和詞頻統計用法體驗

選擇"功能性分析" > "分詞",將剛剛準備的txt文檔導入後點擊"確定"。

ROST-CM軟件分詞和詞頻統計用法體驗

ROST分完詞之後會自動將分詞結果打開,文件儲存在分詞文件所在的路徑中,可以看到結果已經進行分詞了。

ROST-CM軟件分詞和詞頻統計用法體驗

1.2 用ROST進行詞頻分析

接著我們要將分詞處理後的文檔進行詞頻分析,選擇"功能性分析" > "詞頻分析(中文)",將剛剛分詞後的txt文檔導入後點擊"確定"。

ROST-CM軟件分詞和詞頻統計用法體驗

當然,在點擊"確定"之前你可以進行如下設置:

· "啟用過濾詞表"、"啟用歸併詞群表"、"啟用保留詞表"默認是勾選的

  • "不輸出詞頻"默認是不勾選的,勾選了的話那麼最後的結果文檔中只有一個詞頻文本結果,不會有相應的詞頻展示

  • 對輸出文本的長度進行設置

  • 對輸出文本的數量進行設置,默認是隻輸出詞頻統計排名前300的詞語

詞頻分析完後結果還是會默認展示出來。

ROST-CM軟件分詞和詞頻統計用法體驗

1.3 用ROST添加自定義詞

瀏覽了一圈之後(或者是CRTL+F調出搜索臺進行搜索)發現並沒有諸如"社會網絡分析"、"社會網絡、"數據挖掘"這些我理想的分詞結果啊。

回到文章剛開始提到的"詞庫",因為ROST"詞庫"裡頭沒有這些詞語,所以它的分詞結果以及詞頻統計中沒有這些詞,如果希望ROST能將分詞中包含這些詞,就要補充這個"詞庫",這樣我們就可以自定義詞組了。

ROST的自定義詞添加過程有些複雜,如果對自然語言處理(NLP)技術有研究的讀者可以看出來,ROST添加的自定義詞放在專門一個詞表中,會用在後續的分詞和詞頻統計中。

首先,我們先通過ROST來自定義詞組,要補充ROST的"詞庫",找到"user"文件夾下的"user.txt"文檔,將要補充的詞在後面補充即可。

ROST-CM軟件分詞和詞頻統計用法體驗

這裡我補充了"社會網絡"、"社會網絡分析"、"數據挖掘"這三個詞語。

ROST-CM軟件分詞和詞頻統計用法體驗

然後重複剛剛的"分詞 > 詞頻統計"步驟,可以看到最後詞頻統計結果中出現了剛剛添加的這三個詞語,說明ROST識別到了詞庫的更新。

ROST-CM軟件分詞和詞頻統計用法體驗

ROST-CM軟件分詞和詞頻統計用法體驗

ROST對這三個詞的詞頻統計結果分別是:

  • 社會網絡:67

  • 數據挖掘:51

  • 社會網絡分析:25

2,用集搜客進行分詞處理

2.1,用集搜客進行分詞和詞頻統計

ROST-CM軟件分詞和詞頻統計用法體驗

導入之後產生一個分詞任務,可以在"我的任務"中看到。如果進入"篩選詞語"頁面,就可以看到分詞產生的詞語已經按照詞頻高低進行了排序。

ROST-CM軟件分詞和詞頻統計用法體驗

此時,可以直接進入後面的三個頁面(選詞結果、打標結果、分詞結果)中的任何一個導出分詞結果。導出的結果是一個ZIP文件,最多含有四張表,有XXXXXXXX,可見,一個導入操作就可導出詞頻表。

集搜客分詞打標工具的特色從第二個網頁"篩選詞語"開始,我們知道,在一篇文章中,可能大量的高頻詞是沒有分析價值的,那麼集搜客分詞打標工具允許用戶手工篩選詞語,只保留研究課題相關的詞。篩選詞是按照詞頻排序的,因為詞語的頻率越小,它其實分析的價值可能越小(不總是正確,按照流行的搜索算法,少見的詞含有的信息量可能更大),而詞頻排在TOP前面的才是用戶需要分析的對象,所以把前面篩選完以後,後面的可以不用看了。

來到第三頁"選詞結果",我們已經手工選出來的課題相關的詞有哪些,他們對應的例句是什麼。

如果再看"打標結果"和"分詞效果"兩個頁面,是比較獨特的,一句話出現了哪些特徵詞,都羅列出來。如果執行導出,可以把句子和詞表的對應矩陣導出來,可用於向量空間計算。

2.2 用集搜客添加自定義詞

在選詞結果、打標結果和分詞效果頁面上,都可以手工添加詞語,集搜客的添加詞語就是添加詞語,不用管系統的詞庫,就是把漏掉的詞補充到分詞結果中,所以,只管添加好了,添加以後立即生效,會自動把含有這個詞的句子匹配出來,形成分詞效果對應關係。

例如,發現集搜客分詞結果中也沒有"社會網絡"、"社會網絡分析"、"數據挖掘"這三個詞語。

ROST-CM軟件分詞和詞頻統計用法體驗

ROST-CM軟件分詞和詞頻統計用法體驗

下面看下這三個詞的詞頻統計結果,分別是:

  • 社會網絡:91

  • 數據挖掘:50

  • 社會網絡分析:25

ROST-CM軟件分詞和詞頻統計用法體驗

ROST-CM軟件分詞和詞頻統計用法體驗

ROST-CM軟件分詞和詞頻統計用法體驗

3,詞頻統計對比

通過對比,ROST和集搜客的詞頻統計結果不同。

ROST-CM軟件分詞和詞頻統計用法體驗

下面進行驗證一下。

ROST-CM軟件分詞和詞頻統計用法體驗

ROST-CM軟件分詞和詞頻統計用法體驗

ROST-CM軟件分詞和詞頻統計用法體驗

通過對比,集搜客分詞軟件的分詞準確率比較高


分享到:


相關文章: