「知識圖譜」獲取到知識後,如何進行存儲和便捷的檢索?

互聯網時代,人類在與自然和社會的交互中生產了異常龐大的數據,這些數據中包含了大量描述自然界和人類社會客觀規律有用信息。如何將這些信息有效組織起來,進行結構化的存儲,就是知識圖譜的內容。

知識圖譜的難點在於知識圖譜的搭建,如何高效、高質量、快速的搭建知識圖譜是知識圖譜工程的核心,那之後獲取到的知識,該如何存儲以及便捷的檢索呢?

1 知識存儲

在前面的知識圖譜的文章中,我們介紹瞭如何進行知識表示以及知識抽取。今天我們來思考這樣一個問題,當獲取到了大量的知識(通常是一系列的三元組)之後,該用什麼樣的形式存儲這些知識呢?

先思考一下,用來存儲知識的系統,應該具有哪些特點呢?

首先,圖譜的價值體現在其對對話系統,信息抽取等下游任務的加成,因此知識的存儲系統應該能夠支持快速和頻繁的知識查詢操作。

其次,圖譜裡的知識是按照shcema的結構抽取的,因此,知識的存儲應該能夠按照schema的結構,體現出知識的層次結構和知識間聯繫。

此外,知識存儲應該儘量高效,避免出現過多的存儲空間的浪費。

1)關係型數據庫

數據存儲最容易想到的就是常用的關係型數據庫,包括Oracle、MySQL等。

「知識圖譜」獲取到知識後,如何進行存儲和便捷的檢索?

如上圖所示,是採用傳統關係型數據庫表示知識的示意圖。每條知識是一個三元組(S,P,O),其中S稱為主語Subject,其取值可以是實體、事件或者概念中的任何一個;P被稱為謂語Predicate,取值可以是關係或者屬性;O被稱為賓語Object,取值可以是實體、事件、概念或者其他普通的值(例如數字,字符串等)。

在傳統關係型數據庫中,將三元組一個一個的存儲在數據庫的一個數據項中,當數據量非常大時,表的規模就非常大,這樣的話,查詢和修改操作的開銷會變得非常的大,這會極大傷害知識圖譜的實用性。雖然,基於關係型數據庫,有人提出了類型表的方法,即將數據按照schema進行分類,然後數據按照不同的類型表分表存儲。但是,由於其本質上並沒有“理解”知識圖譜的複雜結構,其查表過程仍然較慢較繁瑣,無法適應數據量極大的知識圖譜的應用。

2)圖數據庫

將實體看作節點,關係看作帶有標籤的邊,那麼知識圖譜的數據很自然的滿足圖模型結構。因此,基於圖結構的存儲方式能夠直接準確的反映知識圖譜的內部結構,有利於對知識的查詢。另外,以圖的方式對知識進行存儲,還可以借鑑圖論的相關算法,有利於知識推理和知識挖掘。

常用的圖數據庫有:Neo4J,OrientDB,InfoGrid,HyperGraphDB等。目前,應用較為廣泛的為Neo4J和OrientDB。圖數據發展較晚,相關標準和技術均不完備,實際應用時可能會遇到意想不到的問題。因此,在為項目選擇圖數據庫時,需要將數據庫的易用性和技術文檔的完整性等因素也考慮進來。Neo4J是目前較為流行的圖數據庫,它極易入門,訪問速度快。

基於圖結構的存儲模型用節點表示實體,用邊表示實體之間的關係。如下圖所示,展示了基於圖數據庫的知識存儲示例。由圖可見,節點可以定義屬性,用來描述實體的各種特性,下圖中“周杰倫”有“身高”,“體重”等屬性。基於圖結構的存儲方法,還可以為邊定義屬性,因此,還能夠描繪實體之間的關係,例如,“周杰倫”和“黃秋生”之間就用了一條叫“義父”的邊來連接,表達了他們之間的關係。

「知識圖譜」獲取到知識後,如何進行存儲和便捷的檢索?

2 知識的檢索

知識檢索的過程,通常是知道三元組(S,P,O)中S和P,從圖譜中獲取O的過程。以KBQA為例,我們來講述一下知識檢索的過程。

假設用戶輸入這樣的query:“周杰倫的義父是誰?”,讀者先想一下,需要經過哪些步驟,才能檢索圖譜得到答案呢?

「知識圖譜」獲取到知識後,如何進行存儲和便捷的檢索?

如上圖所示,展示了這樣一個過程:

1.通過實體識別模塊,識別出S:周杰倫

2.通過關係識別模塊,識別出P:義父是誰

3.檢索圖數據庫,得到答案“黃秋生”

上述過程是一個標準的流程,在實際的應用過程中,可能還會有實體的鏈接以及關係校正等過程。

當然,檢索數據庫過程因不同數據庫而異,具體不會太複雜,感興趣的同學可以參考自己所使用的數據庫的文檔,這裡不做詳細的介紹。

總結

知識圖譜是人工智能技術最重要的基礎設施,是計算機能夠實現推理、預測等類似人類思考能力的關鍵。知識存儲和檢索是知識圖譜系列技術中相對簡單的一環。對開發者而言,其難點在於檢索過程,即組建檢索語句的過程,設計實體識別及關係識別。

我會在知識星球中討論NEO4J的具體操作以及KBQA的具體實現,感興趣的同學可以掃描下面的二維碼加入。

讀者們可以留言,或者加入我們的NLP群進行討論。感興趣的同學可以微信搜索jen104,備註"加入有三AI NLP群"

下期預告:知識圖譜中知識查詢


分享到:


相關文章: