用PPT製作中文詞雲—原來你是這樣的office軟體【連載-2】

上篇文章《用PPT製作詞雲》中使用的分詞文本是英文,如果針對中文,參照上篇的方法使用PPT中的Pro Word Cloud是不能形成一個正確的詞雲圖的。

因為該插件的原理是"識別空格之間的詞語,進而對其詞語進行詞頻統計,根據詞頻大的詞語字體大,詞頻小的詞語字體小的原則形成詞雲圖",下面用一個小實驗來驗證一下。

將一段中文文本複製進PPT實驗,產生的詞雲圖就是一段句子。如下圖所示。

用PPT製作中文詞雲—原來你是這樣的office軟件【連載-2】

如果我人為地將中文文本進行空格分隔,可以看到詞雲圖上的詞語就是我們空格分隔所形成的"詞語"。

用PPT製作中文詞雲—原來你是這樣的office軟件【連載-2】

因為英文本身是有空格分隔詞的,所以形成的詞雲沒有任何問題,換成中文的話,就需要已經分好詞的文本才可以。簡而言之,中文比英文多了一道"加工"程序而已。

藉助集搜客GooSeeker的分詞打標軟件來生成已經分好詞的文本,操作步驟如下:

1. 登錄

2. 導入數據

填寫任務名稱後導入包含一列數據的excel表,文件不要超過10M。

用PPT製作中文詞雲—原來你是這樣的office軟件【連載-2】

3. 進入我的任務,原數據都加載上來之後,點擊"篩選詞語",篩選詞語默認勾選全部,如果你不需要某個詞,可以對其取消勾選。

用PPT製作中文詞雲—原來你是這樣的office軟件【連載-2】

將全部詞語篩選之後,點擊"選詞結果",我們的目的是得到分詞結果,所以到第三步後點擊下載按鈕即可。會有四張表下載,這裡只需要用上分詞效果表。

用PPT製作中文詞雲—原來你是這樣的office軟件【連載-2】

我用集搜客GooSeeker網絡爬蟲在拉勾採集了一些Python軟件開發的職位信息,將其中"職位標籤"一列提取出來做分詞處理,通過上面的分詞軟件下載分詞結果之後,將"分詞效果"表中的"分詞數據"複製到了txt文檔中。

用PPT製作中文詞雲—原來你是這樣的office軟件【連載-2】

然後再將txt文檔中的分詞文本複製到了PPT中,選中文本點擊"Create Word Cloud"完成。

用PPT製作中文詞雲—原來你是這樣的office軟件【連載-2】

通過詞雲,我們可以直觀地瞭解到Python軟件工程師的職位標籤。

  • 職位範圍:爬蟲、數據挖掘、人工智能、機器學習、後臺開發、服務器開發等

  • 相輔技能:mysql、mongodb、linux、js、django、php等

  • 應用領域:金融、信息安全、遊戲、醫療等

用PPT製作中文詞雲—原來你是這樣的office軟件【連載-2】

如果你還有興趣,可以再繼續瀏覽下文,我將簡單介紹一下用分詞軟件處理之後的四張表的用途。這四張表分別是:

  1. 打標結果

  2. 分詞效果

  3. 切詞表

  4. 選詞結果

打標結果表是一張詞與文本的矩陣關係表,左起第一列每行代表一個文本,詞語在某個文本中出現一次,矩陣的值即標為1,如果未出現,即為0。這是文檔的一種結構化特徵表示,該表可用於做進一步的自然語言處理。

用PPT製作中文詞雲—原來你是這樣的office軟件【連載-2】

分詞效果表可以看到原數據、分詞數據與打標詞。打標詞對應文本分出的詞語(去除無效詞)。

用PPT製作中文詞雲—原來你是這樣的office軟件【連載-2】

切詞表和選詞結果都是詞頻統計結果,前者是軟件默認對所有文本進行分詞後得出的詞頻統計結果,後者是你將不需要的詞去掉後剩下的詞語的頻率統計結果。如果你沒有去詞處理,那麼兩個結果表會是一樣的。

詞頻表可以做進一步形成可視化圖表,比如:python軟件工程師職位標籤TOP15分佈情況。

用PPT製作中文詞雲—原來你是這樣的office軟件【連載-2】

PS:

本文重點解釋下如何用PPT插件Pro Word Cloud對中文文本形成詞雲圖,如果你想進一步瞭解分詞打標軟件,移步:

應用案例:


分享到:


相關文章: