10.17 大規模1.4億中文知識圖譜數據,我把它開源了

作者 | Just

出品 | AI科技大本營(ID:rgznai100)

人工智能從感知階段逐步進入認知智能的過程中,知識圖譜技術將為機器提供認知思維能力和關聯分析能力,可以應用於機器人問答系統、內容推薦等系統中。

不過要降低知識圖譜技術應用的門檻,也需要公共平臺上沉澱的各種數據和技術。要構建知識生態,共同貢獻知識是關鍵。

現在,一個名為 OwnThink 的平臺在 GitHub 上開源了中文知識圖譜項目,這也是目前已開源的最大規模的中文知識圖譜,數據是以(實體、屬性、值),(實體、關係、實體)混合的形式組織,數據格式採用csv格式,總共有 1.4 億個三元組。

AI科技大本營(ID:rgznai100)採訪了該知識圖譜開源項目的算法工程師 Yener,他是開源平臺 OwnThink 的作者,主要從事知識圖譜、對話機器人、語義理解方面的研究。他表示,知識圖譜的開發過程是一個標準的百科知識圖譜構建流程,數據抽取來源於結構化數據、半結構化數據、非結構化數據,對各大百科進行抽取後,再對知識進行融合、實時更新等一系列操作。

這個項目究竟怎樣?先給出 GitHub 鏈接:

https://github.com/ownthink/KnowledgeGraphData

在其官網上,AI科技大本營嘗試使用了其知識圖譜功能窗口。在輸入“周杰倫”後,會看到與其相關的大量鏈接實體。

大規模1.4億中文知識圖譜數據,我把它開源了

值得一提的是,除了開源知識圖譜項目外,OwnThink 平臺還開放了對話機器人、語義理解、自然語言處理工具。機器人採用了基於知識圖譜的語義感知與理解,自然語言處理工具包的功能有:中文分詞、詞性標註、命名實體識別、關鍵詞提取、文本摘要、新詞發現、情感分析等。

大規模1.4億中文知識圖譜數據,我把它開源了

以下為其 1.4 億知識圖譜數據下載途徑,同時還可以從網站上獲取歧義關係、獲取實體知識、獲取屬性值。

數據下載方式:

https://pan.baidu.com/s/1LZjs9Dsta0yD9NH-1y0sAw 提取碼: 3hpp

注:解壓密碼是 OwnThink 首頁地址:https://www.ownthink.com/

解壓後查看知識圖譜規模:

$ wc -l ownthink_v2.csv
140919781 ownthink_v2.csv

查看知識圖譜數據:

$ head ownthink_v2.csv
實體,屬性,值
膠飴,描述,別名: 飴糖、暢糖、暢、軟糖。
詞條,描述,詞條(拼音:cí tiáo)也叫詞目,是辭書學用語,指收列的詞語及其釋文。
詞條,標籤,文化
紅色食品,描述,紅色食品是指食品為紅色、橙紅色或棕紅色的食品。

紅色食品,中文名,紅色食品
紅色食品,是否含防腐劑,否
紅色食品,主要食用功效,預防感冒,緩解疲勞
紅色食品,適宜人群,全部人群
紅色食品,用途,增強表皮細胞再生和防止皮膚衰老

使用 python 進行讀取測試:

import sys
import csv
with open('ownthink_v2.csv', 'r', encoding='utf8') as fin:
reader = csv.reader(fin)
for index, read in enumerate(reader):
print(read)
if index > 10:
sys.exit(0)

運行以上腳本輸出結果:

['實體', '屬性', '值']
['膠飴', '描述', '別名: 飴糖、暢糖、暢、軟糖。']
['詞條', '描述', '詞條(拼音:cí tiáo)也叫詞目,是辭書學用語,指收列的詞語及其釋文。']
['詞條', '標籤', '文化']
['紅色食品', '描述', '紅色食品是指食品為紅色、橙紅色或棕紅色的食品。']
['紅色食品', '中文名', '紅色食品']
['紅色食品', '是否含防腐劑', '否']

['紅色食品', '主要食用功效', '預防感冒,緩解疲勞']
['紅色食品', '適宜人群', '全部人群']
['紅色食品', '用途', '增強表皮細胞再生和防止皮膚衰老']
['紅色食品', '標籤', '非科學']
['紅色食品', '標籤', '生活']

以下為AI科技大本營對 OwnThink 平臺的作者 Yener 的對話內容:

AI科技大本營:知識圖譜項目是如何啟動的?您一個人開發嗎?服務器資源及維護費用如何解決?

Yener:我是一名人工智能愛好者,在人工智能方面不斷努力著,希望有一天能夠出現獨立思考的人工智能機器人。為了能夠實現這樣的機器人,自己經常在思考,人是如何學習的?人是如何理解的?人的思考方式是怎麼樣的?

思考的過程中,我發現人在思考的時候好像總有一團知識混沌體圍繞著自己思考的主題,也就是相關的知識,當時自己就提出了一種叫“關聯圖譜”的概念,這個圖譜可以從一個知識聯想到另外一個知識,知識之間可以包含有明確關係的關聯關係,也可以包含有潛移默化的關聯關係。

在學習與實現的過程中,發現谷歌在 2012 年發佈了和自己所想的類似概念叫“知識圖譜”,後面也就將有明確關係的關聯部分從“關聯圖譜”中單獨拆分出來,以“知識圖譜”這個概念為準了。

OwnThink 的知識圖譜項目是我一個人做的,並且在 2017 年開始對外開放。這個項目主要是用個人業餘時間來維護,服務器資源是自己掏錢買的雲服務器,當然還有網友的捐贈支持,這裡也非常感謝那些幫助過、關心過 OwnThink 的人工智能愛好者。

AI科技大本營:簡單介紹下這個知識圖譜項目開發的過程?

Yener:知識圖譜的開發過程是一個標準的百科知識圖譜構建流程,數據抽取來源於結構化數據、半結構化數據、非結構化數據,對各大百科進行抽取後,再對知識進行融合、實時更新等一系列操作。非結構化抽取採用的是聯合信息抽取模型,數據標註格式也是採用的(實體、屬性、值)或者(實體、關係、實體)的混合標註模式,標註完就是常規訓練、調參了。

AI科技大本營:為什麼要開源?

Yener:我是一名人工智能愛好者,也非常期待能夠獨立思考的人工智能機器人到來的那一天,為了儘自己的一份綿薄之力,將這個知識圖譜項目開源,讓大家去了解知識圖譜,去免費使用知識圖譜。

AI科技大本營:對開發者以及構建行業知識圖譜的企業有什麼益處?

Yener:知識圖譜構建重要的是一個思想,不管百科類的知識圖譜,還是金融知識圖譜,或者是醫療知識圖譜,其實構建思想都是一樣的。大家可以直接使用這個知識圖譜,當然如果是想要構建行業知識圖譜,這個項目也可以給大家提供一個參考,能夠幫助開發者快速去了解知識圖譜、去構建自己所需要的行業知識圖譜。

AI科技大本營:後續的更新計劃是怎樣的?

Yener:目前這個知識圖譜已經做到實時更新,只需要對服務器進行續費即可,後續的發展計劃是融合行業的知識圖譜知識,比如說金融知識圖譜、醫療知識圖譜等等,這些知識其實對行業是非常有用的,以後大家可以直接使用,當然數據也將會繼續開源下載。

AI科技大本營:OwnThink 還開放了對話機器人、知識圖譜、語義理解、自然語言處理工具,還會推出其他開源項目麼?OwnThink 平臺最終會朝什麼方向發展?

Yener:我們後續的開源項目是語音識別和語音合成,這是人工智能機器人鏈路上不可獲取的一項技能,人是有感知和認知的,機器人也一樣,語音識別和語音合成是感知層,對話機器人是屬於認知層,有了感知和認知才能算一個比較完整的人工智能機器人;語音識別和語音合成開源項目應該會在 2020 年開始,後續大家也可以在開源平臺上 clone 然後直接使用這些項目。

OwnThink 最終的方向是類似於 Wikipedia 這樣的組織,我們將開放接口調用,也將開源數據下載,當然也會開源代碼工具等。

AI科技大本營:做開源這件事的源動力是什麼?

Yener:最大的動力其實就是我的人工智能夢。興趣是最好的老師,目前我所做的也都是興趣驅動。希望有更多的愛好者加入我們,為開源項目做貢獻。

大規模1.4億中文知識圖譜數據,我把它開源了


分享到:


相關文章: