史上最大規模1.4億中文知識圖譜開源啦


史上最大規模1.4億中文知識圖譜開源啦

知識就是力量,知識圖譜是人工智能新時代的產物,簡單地說知識圖譜就是通過關聯關係將知識組成網狀的結構,然後我們的人工智能可以通過這個圖譜來認識其代表的這一個現實事件,這個事件可以是現實,也可以是虛構的。

知識圖譜可以應用於機器人問答系統,知識推薦等等,下圖為知識圖譜在機器人上的應用。

史上最大規模1.4億中文知識圖譜開源啦

本次ownthink開源了史上最大規模的中文知識圖譜,數據是以(實體、屬性、值),(實體、關係、實體)混合的形式組織,數據格式採用csv格式,下載鏈接見文末。

解壓後查看知識圖譜規模:

$ wc -l ownthink_v2.csv
140919781 ownthink_v2.csv

查看知識圖譜數據:

$ head ownthink_v2.csv
實體,屬性,值
膠飴,描述,別名: 飴糖、暢糖、暢、軟糖。
詞條,描述,詞條(拼音:cí tiáo)也叫詞目,是辭書學用語,指收列的詞語及其釋文。
詞條,標籤,文化
紅色食品,描述,紅色食品是指食品為紅色、橙紅色或棕紅色的食品。
紅色食品,中文名,紅色食品
紅色食品,是否含防腐劑,否
紅色食品,主要食用功效,預防感冒,緩解疲勞
紅色食品,適宜人群,全部人群
紅色食品,用途,增強表皮細胞再生和防止皮膚衰老

使用python進行讀取測試:

import sys
import csv

with open('ownthink_v2.csv', 'r', encoding='utf8') as fin:
reader = csv.reader(fin)
for index, read in enumerate(reader):
print(read)

if index > 10:
sys.exit(0)

運行以上腳本輸出結果:

['實體', '屬性', '值']
['膠飴', '描述', '別名: 飴糖、暢糖、暢、軟糖。']
['詞條', '描述', '詞條(拼音:cí tiáo)也叫詞目,是辭書學用語,指收列的詞語及其釋文。']
['詞條', '標籤', '文化']
['紅色食品', '描述', '紅色食品是指食品為紅色、橙紅色或棕紅色的食品。']
['紅色食品', '中文名', '紅色食品']
['紅色食品', '是否含防腐劑', '否']
['紅色食品', '主要食用功效', '預防感冒,緩解疲勞']
['紅色食品', '適宜人群', '全部人群']
['紅色食品', '用途', '增強表皮細胞再生和防止皮膚衰老']
['紅色食品', '標籤', '非科學']
['紅色食品', '標籤', '生活']

GitHub :KnowledgeGraphData


分享到:


相關文章: