如何實現大規模知識圖譜的構建、推理及應用?

產業智能官

一 Konwledge Graph概念

Konwledge Graph是谷歌於2012年提出的用於增強其搜索引擎功能的知識庫。本質上來說,知識圖譜是一種揭示實體之間關係的語義網絡,可以對現實世界的事物及其相互關係進行形式化地描述。現在的知識圖譜已被用來泛指各種大規模的知識庫。

具體表現:在谷歌中搜索北京景點,能夠得到結構化的知識,而不是簡單的網頁結果。

知識圖譜是一種結構化的語義知識庫,其基本組成單位是“實體-關係-實體”的三元組,以及實體及其相關屬性-值對,通過實體間的關係構成網狀的知識結構,如:

上圖構成一個特定領域(明星)的知識網絡,每一個節點(如:謝霆鋒)均為實體,實體具有屬性-值(key-value)對(如:明星名字:謝霆鋒),同時實體與實體之間通過關係(如:王菲-舊愛-謝霆鋒)相互連接。

也就是說:

實體-對應現實世界的語義本體;

屬性-描述一類實體的common特性,實體被屬性所標註;

關係-對應本體間的關係,連接了不同類型的實體。


二 Konwledge Graph架構

從邏輯架構上分,可將Konwledge Graph分為兩層:數據層與模式層。

數據層主要由一系列的事實組成,而知識將以事實為單位進行存儲,如:實體-關係-實體,實體-屬性-值這樣的三元組,對應到實際的數據;模式層則建立在數據層之上,主要是通過本體庫來規範數據層的一系列事實表達,對應到實際的數據規範,術語描述等。

從體系架構上分,可將Konwledge Graph分為兩種模式,自頂向下與自底向上。

1)自頂向下

自頂向下,首先定義好本體,確定領域的層次結構及各個概念屬性及概念與概念間的關係,之後再將實體加入到知識庫中,類似一種填充的模式,代表工作是Freebase,從維基百科中提取結構化數據。


2)自底向上

自底向上指的是從開放的數據源中,抽取實體、屬性及關係,往上構建概念,最終形成本體。目前,這個模式被大多數工作採用,代表工作有谷歌的Knowledge Vault。

下面是一般自底向上構建本體庫的流程:


三 Konwledge Graph應用

1)優化搜索


2)金融領域的智能投顧、反欺詐等

3)社交領域中的興趣推薦、用戶聚類等


分享到:


相關文章: