Rost-CM內容挖掘系統的分詞工具研究

由GooSeeker大數據開發團隊研發的在線分詞工具軟件,設計初衷就是 “文科生也能輕鬆上手的分詞工具”,比如,公共管理專業、社會學各專業、工商行政管理各專業、營銷管理各專業等等,這裡對“文科生”沒有任何褒貶含義,因為我們GooSeeker團隊的分析師大部分也都是“文科生”,他們可以免受技術思路的束縛,直接看到業務層面的問題和需求,在商業分析和智慧城市大數據管理等領域執行各種研究工作的策劃、頂層設計和管理工作。

基於以上目標, GooSeeker的分詞打標工具採用了在線雲服務的架構,重點解決以下幾個問題:

1.下載到本地安裝的軟件萬一有病毒或者木馬怎麼辦?即使官方發佈的軟件不會含有病毒,但是從別的軟件下載網站下載的版本就是一個不得不考慮的問題

2.最新的軟件功能是否能及時用上?下載到本地安裝的軟件,這也是一個痛點問題,所以,我們要採用雲的方式,除了能第一時間把新功能交給用戶以外,還可以第一時間用上最新的自然語言處理(NLP)、中文信息處理和文本挖掘技術和產品。比如,在雲服務的架構下,可以隨時採用更加先進的中文分詞技術,畢竟這些基礎技術都需要採用第三方的業界領先的產品。

3.產品和服務是否一直持續提供?技術在發展,用戶需求在變化,一個好的產品一定是一個持續服務的產品,比如,軟件功能升級、用戶問題解答。

4.導入的文檔可以是pdf,word,txt,excel,輸出都是excel,excel是分析師的最愛。

基於以上考慮,在持續的產品發展過程中,GooSeeker研發團隊參考了大量的分詞和文本挖掘軟件。如果講技術或者面向工程師,應該去研究BAT們發佈的NLP雲服務,毫無疑問十分強大。然而,面對“文科生”和各專業寫論文的學生,想要快速幫助他/她完成分析任務,還是應該放眼於那些便捷分詞工具,而不是複雜難用的軟件。

這個系列文章,我們重點剖析Rost-CM內容挖掘系統,只有吸取先進養分,才能做得更加卓越。

1,Rost-CM的功能界面

Rost CM發展了多個版本,下面是我最熟悉和使用最多的版本4.0.0

Rost-CM內容挖掘系統的分詞工具研究

還有5.8.0版的界面是下面這樣的。

Rost-CM內容挖掘系統的分詞工具研究

(1)分詞

點擊功能性分析下拉列表框中的分詞選項,打開分詞窗口,在待處理文本框中載入待處理文件,如“虛擬學習團隊2010‐8‐7.txt”,則系統按照程序目錄下的User 目錄下的User.txt 文檔,自動在輸出文件框中生成“虛擬學習團隊2010‐8‐7_分詞後.txt”文件,獲得以空格分離的分詞後文檔,如果原來文檔中有空格的位置保留空格。點擊確定按鈕,即可打開該文檔。

(2)字頻分析

點擊功能性分析下拉列表框中的字頻分析選項,打開字頻分析窗口, 在待處理文件框中載入待處理文件, 如“ 虛擬學習團隊2010‐8‐7.txt”,則系統自動在輸出文件框中生成“虛擬學習團隊2010‐8‐7_字頻.txt”文件,點擊確定按鈕,即可打開該文檔。

分詞和詞頻統計是兩個最重要的功能,大部分基於分詞的研究任務或者作業基本上用這兩個功能就夠了,得到了分詞結果,可以做各種統計,最可能做的可視化操作是畫一個詞雲。後續的這些數據分析和可視化操作,可以在其他專用軟件上做,很靈活。所以,暫且放下其他功能不去深究,先看看我對產品的規劃。

2,文科生都能用的GooSeeker分詞工具

上面已經說過,最常用的功能就是 分詞和詞頻 統計,能否做到導入要分析的內容就能導出需要的結果?是的,不需要將分詞和詞頻分析分成兩個步驟,gooseeker分詞工具可以一步完成。

Rost-CM內容挖掘系統的分詞工具研究

導入以後,就能看到原始數據和分詞好的數據,也能看到按照詞頻排序的詞語,這時候可以不做任何操作,直接下載數據,你就會得到打包在一起的四張表:

●分詞效果表:一行原始內容對應一行經過分詞的內容

●打標結果表:如果篩選了詞語,就有這種表,把每條原始內容含有的詞語羅列出來

●切詞表:就是通常所說的詞頻表

●選詞結果表:跟切詞表一樣的結構,但是隻有篩選過的詞,如下圖,很多高詞頻的詞是無助於分析的,甚至會干擾分析結果

Rost-CM內容挖掘系統的分詞工具研究

Rost-CM內容挖掘系統的分詞工具研究

3,寫作規劃

接下來,我將用多篇文章,引導讀者深入體驗多個分詞工具的功能特性,感興趣的朋友可以繼續關注。


分享到:


相關文章: