收藏:11款開放中文分詞引擎大比拼

在逐漸步入DT(Data Technology)時代的今天,自然語義分析技術越發不可或缺。對於我們每天打交道的中文來說,並沒有類似英文空格的邊界標誌。而理解句子所包含的詞語,則是理解漢語語句的第一步。漢語自動分詞的任務,通俗地說,就是要由機器在文本中的詞與詞之間自動加上空格。

一提到自動分詞,通常會遇到兩種比較典型的質疑。一種質疑是來自外行人的:這件事看上去平凡之極,好像一點兒也不“fancy”,會有什麼用呢?另一種質疑則是來自業內:自動分詞研究已經進行了數年,而網上也存在各種不同的開放分詞系統,但對於實際商用似乎也未見一個“即插即用”的系統。

那麼,目前常見的開放分詞引擎,到底性能如何呢?為了進行測試,我們調研了11款網上常見的並且公開提供服務的分詞系統,包括:

收藏:11款开放中文分词引擎大比拼

上圖為參與比較的10款分詞引擎在不同數據的分詞準確度結果。可以看出,在所測試的四個數據集上,BosonNLP和哈工大語言云都取得了較高的分詞準確率,尤其在新聞數據上。因為庖丁解牛是將所有可能成詞的詞語全部掃描出來(例如:“最不滿意”分為:“最不 不滿 滿意”),與其他系統輸出規範不同,因而不參與準確率統計。

為了更直接的比較不同數據源的差別,我們從每個數據源的測試數據中抽取比較典型的示例進行更直觀的對比。

【新聞數據】

新聞數據的特點是用詞規整,符合語法規則,也是普遍做得比較不錯的一個領域。對比其他數據源,有7家系統都在新聞領域達到最高。包括IKAnalyzer、盤古分詞、搜狗分詞、新浪雲、NLPIR、語言云、BosonNLP。並且有三家系統準確率超過90%。

樣例:香港 中文 大學 將 來 合肥 一中 進行 招生 宣傳 今年 在 皖 招 8 人 萬家 熱線 安徽 第一 門戶

微博數據用詞多樣、話題廣泛,並常包含錯別字及網絡流行詞。能夠比較全面的體現每家分詞系統的準確度。

樣例:補 了 battle 賽 峰暴班 的 兩 個 弟弟 妹妹 @楊寶心 @修兒 一個 是 我 很 挺 的 好 弟弟 一個 是 我 推薦 進 好聲音 的 妹子 雖然 都 在 battle 階段 都 下來 了 但是 我 依然 像 之前 那樣 覺得 你們 非常 棒

【汽車論壇】

汽車數據是針對汽車領域的專業評價數據,會出現很多的專業術語。例如示例中的“胎噪”、“風燥”等,如果系統沒有足夠強大的訓練詞庫或領域優化,會使準確率有較大程度降低。比較有意思的是,對比其他數據源,有3家系統都在汽車論壇領域達到最高:騰訊文智、SCWS中文分詞、結巴分詞。

樣例:舒適性 胎噪 風噪 偏 大 避震 偏 硬 過 坎 彈跳 明顯

【餐飲點評】

餐飲點評數據為顧客評論數據,更偏重口語化。會出現很多類似“閨蜜”、“萌萌噠”口語化詞語和很多不規範的表達,使分詞更加困難。

樣例:跟 閨蜜 在 西單 逛街 想 吃 壽司 了 在 西單 沒 搜 到 其他 的 日料店 就 來 禾綠 了 我們 倆 都 覺得 沒 以前 好 了

各家系統對於多數簡單規範的文本的分詞已經達到很高的水平。但在仔細對比每一家中文分詞後依舊發現切分歧義詞和未登陸詞(即未在訓練數據中出現的詞)仍然是影響分詞準確度的兩大“攔路虎”。

1.切分歧義:根據測試數據的切分結果,一類屬於機器形式的歧義,在真實語言環境下,只有唯一可能的正確切分結果,稱其為偽歧義。另一類有兩種以上可實現的切分結果,稱為真歧義。由於真歧義數據無法比較正確或者錯誤。所有我們著重舉例來比較各家系統對偽歧義的處理效果。

正確: 在 倫敦 奧運會 上 將 可能 有 一 位 沙特阿拉伯 的 女子

(BosonNLP、新浪雲、語言云、NLPIR、騰訊文智)

錯誤: 在 倫敦 奧運會 上將 可能 有 一 位 沙特阿拉伯 的 女子

(PHP結巴分詞、SCWS中文分詞、搜狗分詞、庖丁解牛)

示例中原意指倫敦奧運會可能有一位沙特阿拉伯的女子,錯誤分詞的意思是指上將(軍銜)中有一位是沙特阿拉伯的女子,句意截然不同。當然,分析的層次越深,機器對知識庫質量、規模等的依賴性就越強,所需要的時間、空間代價也就越大。

2.未登錄詞:未登錄詞大致包含三大類:

a)新湧現的通用詞:類似“神馬”、“納尼”、“甩賣”、“玫瑰金”等新思想、新事物所帶來的新詞彙,不管是文化的、政治的、還是經濟的,在人們的生活中不斷湧現。同時很多詞語也具有一定的時效性。

b)專業術語:是相對日常用語而言的,一般指的某一行業各種名稱用語,大多數情況為該領域的專業人士所熟知。這種未登錄詞理論上是可預期的。能夠人工預先添加到詞表中(但這也只是理想狀態,在真實環境下並不易做到)。

c)專有名詞:如中國人名、外國譯名、地名、公司名等。這種詞語很多基本上不可通過詞典覆蓋,考驗分詞系統的新詞識別能力。

【新湧現的通用詞或專業術語】

示例中的藍色字包括專業術語:“肚腩”、“腹肌”、“腹直肌”、“腹外斜肌”、“腹橫肌”;新湧現的通用詞:“人魚線”、“馬甲線”。大多數的系統對於示例文本的分詞結果都不夠理想,例如:“大肚 腩”(SCWS中文分詞) “腹 直 肌 腹 外 斜 肌”(搜狗分詞、IKAnalyer、NLPIR、SCWS中文分詞)、“人 魚線”(PHP結巴分詞)。總的來說這兩種類型的數據每家系統都存在一定的缺陷,相對而言哈工大的語言云在這方面表現的較好。

本 季 最 強 家庭 瘦 腰 計劃 徹底 告別 大 肚腩 沒有 腹肌 的 人生 是 不 完整 的 平面 模特 yanontheway 親身 示範 的 9 個 動作 徹底 強化腹直肌 腹外斜肌 腹內斜肌 以及 腹橫肌 每個 動作 認真 做 足 50 次 一定 要 堅持 做 完美 的人魚線 性感 的 馬甲線 都 要 我們 自己 去 爭取

【專有名詞】

示例出現的專有名詞包括“蒂莫西伊斯頓”(姓名)、“英國”“意大利”“北歐”(地點)、“金斯敦”(機構名)、“伊麗莎白 格林希爾茲”(機構名)。而這種用詞典無法窮盡的專有名詞也成為各家分詞準確率降低的重要原因。其中搜狗分詞、IKAnalyer、PHP結巴分詞、騰訊文智、SCWS中文分詞在新詞識別時較為謹慎,常將這類專有名詞切分成多個詞語。

油畫 英國 畫家 蒂莫西伊斯頓 唯美 風 油畫 timothy easton 畢業 於 英國 金斯敦 藝術 學院 曾 獲伊麗莎白 格林希爾茲 基金會 獎 得以 前往 意大利 和 北歐 學習 一 年 的 機會

當然在分詞準確度可以接受的情況下,很多細節問題,包括是否有出錯情況、是否支持各種字符、是否標註詞性等都可能讓我們望而卻步。在分詞顆粒度選擇當中,BosonNLP、SCWS、盤古分詞、結巴分詞、庖丁解牛都提供了多種選擇,可以根據需求來採用不同的分詞粒度。與北大的分詞標準對比來說,新浪雲默認的分詞粒度較大,而搜狗分詞、騰訊文智分詞粒度相對較小。除此之外,BosonNLP、新浪雲、NLPIR、騰訊文智同時提供了實體識別、情感分析、新聞分類等其他擴展服務。下表給出了各家系統在應用方面的詳細對比。

1款開放中文分詞引擎大比拼

中文分詞是其他中文信息處理的基礎,並且在很多領域都有廣泛的應用,包括搜索引擎、機器翻譯(MT)、語音合成、自動分類、自動摘要、自動校對等等。隨著非結構化文本的廣泛應用,中文分詞等文本處理技術也變得越來越重要。通過評測可以看出,部分開放分詞系統在不同領域已經達到較高準確率。對於數據分析處理的從業者,相信在此之上構建數據分析系統、人機交互平臺,更能夠起到事半功倍的效果。

注意:分詞數據準備及評測由BosonNLP完成。

附錄

各家分詞系統鏈接地址

本文出處:segmentfault,鏈接:https://segmentfault.com/a/1190000003971257,採用「CC BY-SA 4.0 CN」協議轉載學習交流,內容版權歸原作者所有

數據分析網(www.afenxi.com),國內數據分析第一門戶,提供大數據新聞資訊、前沿技術、業界觀點的信息平臺。

網站宗旨

大數據,讓世界更簡單;數據分析網,讓大數據更簡單。

網站LOGO

收藏:11款开放中文分词引擎大比拼


分享到:


相關文章: