01.04 知識圖譜入門系列


來自 | 淺夢的學習筆記

作者 | gaojing

來源 | https://zhuanlan.zhihu.com/p/85556255


本文對知識圖譜基礎知識,領域應用和學術前沿趨勢進行了介紹,包含知識表示,NER命名實體識別,實體鏈接,事件關係抽取,知識融合,知識存儲和知識推理等

知識圖譜

  • 針對於知識圖譜基礎知識,領域應用和學術前沿趨勢進行介紹。

知識圖譜介紹

  • 知識圖譜(Knowledge Graph)以結構化的形式描述客觀世界中概念、實體及其關係。是融合了認知計算、知識表示與推理、信息檢索與抽取、自然語言處理、Web技術、機器學習與大數據挖掘等等方向的交叉學科。人工智能是以傳統符號派與目前流行的深度神經網路為主,如下圖所示,知識圖譜發展史。

知識圖譜入門系列
知識圖譜入門系列

  • 各大公司佈局知識圖譜
知識圖譜入門系列補充其中還包括國內的京東與美團(美團的AI大腦,數十億知識圖譜構建)
  • 知識圖譜應用模式(來自美團的Ai大會報告)
知識圖譜入門系列
  • 知識圖譜技術鏈
知識圖譜入門系列
  • 知識圖譜賦能

知識圖譜應用非常廣泛,目前主要應用到搜索引擎、智能問答、大數據分析、語言翻譯和語言理解及輔助設備互聯(Iot領域),如下圖所示,知識圖譜在搜索引擎的應用。

知識圖譜入門系列
  • 通用知識圖譜與垂直領域知識圖譜對比

  • 相比較DBpedia、Yago、Wikidata、百度和谷歌等通用知識圖譜,+特定領域內的知識圖譜在知識表示、知識結構、知識質量及知識應用更高的要求(關於領域知識圖譜與通用知識圖譜之間的問題可以查看 復旦肖仰華 )。

知識圖譜入門系列
  • 國內外知識圖譜項目

  • 國外:早期的常識知識庫Cyc、WordNet、ConceptNet等;互聯網知識圖譜,主要有 FreeBase 、 DBpedia 、Schema、Wikidata 、BableNet、Microsofot ConceptGraph,醫療領域 Linked Life Data 等

  • 國內:中文知識圖譜 OpenKG , CN-DBpedia , 中醫藥知識圖譜 , 阿里電商知識圖譜 、 美團知識圖譜 、XLore(清華大學)、Belief-Eigen(中科院)、PKUPie(北京大學),開放類的中文百科知識圖譜,zhishi.me

知識圖譜技術模塊

知識表示

  • 如何利用計算符號運算來表示人腦中的知識和推理過程,知識表示主要有兩種,基於離散符號的知識表示法和基於連續向量的知識表示。

  • 基於離散符號的知識表示法

知識圖譜入門系列
  • RDF(Triple-based Assertion Model) 三元組模型,構建方式主要是主-謂-賓有向標記圖和RDFS(simple Vocabularty and schema)
知識圖譜入門系列
  • OWL(Web Ontology language):是一種W3C開發的網路本體語言,用於對本體進行語義描述。
知識圖譜入門系列
  • SPARQL(Protocol and RDF Query Language) :RDF的查詢語言,支持主流圖形數據庫。下圖URI/IRI為主要網絡協議,主要數據存儲格式是RDF與XML
知識圖譜入門系列
  • 基於連續向量的知識表示

    • KG embedding 主要是KG中實體與關係映射到一個低維的向量空間,主要的方法有張量分解、NN、距離模型(現有的詞向量模型基於連續向量空間來表示)(Embedding projector)
知識圖譜入門系列
  • 兩種方法對比
知識圖譜入門系列

知識抽取

  • KG中知識抽取主要從結構化、半結構化、結構化數據中轉為三元組表示的標準知識形態。
知識圖譜入門系列
  • 主要處理流程
知識圖譜入門系列

實體抽取(NER命名實體識別)

  • 目的是識別文本中指定類別的實體,主要包括人 名、 地名、 機構名、 專有名詞等的任務“ 姚明(Yao Ming),1980年9月12日出生於上海市徐彙區,祖籍江蘇省蘇州市吳江區震澤鎮,前中國職業籃球運動員,司職中鋒,現任中職聯公司董事長兼總經理“。如下圖所示,命名實體識別主要包含兩個部分:實體邊界識別與實體分類。傳統方法(HMM(隱馬爾科夫模型) CRF(條件隨機場) SVM、最大熵分類模型等方法進行處理。現在能採用深度學習,比如CNN\\RNN\\LSTM及LSTM-CRF。採用的工具可以有 Jiagu 、 jieba 、 Stanford CoreNLP 等。
知識圖譜入門系列

實體鏈接

  • 目的是將實體提及與知識庫中對應實體進行鏈接 ,主要解決實體名的歧義性與多樣性問題,是文本中實體名指向真實世界實體的任務。傳統模型是計算實體提及與知識庫中實體的相似度,並選取特定的實體提及的目標實體,比如“蘋果發佈新的手機‘IphoneX11’”,[蘋果(水果)、蘋果(電影)、蘋果(公司)等候選實體],主要使用包括實體統計信息、名字統計信息、上下文詞語分佈、實體關聯度、文章主題等信息,同時,考慮到一段文本中實體之間的相互關聯,相關的全局推理算法也被提出來尋找全局最優決策。目前深度學習方法,構建多類型多模態上下文及知識的統一表示,並建模不同信息、不同證據之間的相互交互 通過將不同類型的信息映射到相同的特徵空間,並提供高效的端到端訓練算法。包括多源異構證據的向量表示學習、以及不同證據之間相似度的學習等工作[Ganea & Hofmann, 2017] [Gupta et al., 2017] [Sil et al 2018] 。開源工具 dexter2
知識圖譜入門系列

實體關係抽取

  • 實體關係抽取是知識圖譜構建與信息提取的關鍵環節,主要提取兩個或者多個實體之間的某種聯繫。格式,三元組(實體1,關係,實體2),"北京是中國的首都、政治中心和文化中心 "中實體關係可以表示為(中國、首都、北京)(中國 政治中心 北京)(中國 文化中心 北京)。
  • 限定關係抽取:採用弱監督/監督機器學習進行預定義的實體關係知識抽取,一般為多分類問題,可以直接抽取三元組關係。一般會採用基於特徵向量的方法、基於核函數的方法和基於神經網絡的方法 。
  • 開發域關係抽取:預先不進行預定義,系統本身自動抽取實體之間的關係,一般採用無監督學習方法進行自動提取實體之間的關係(三元組)。缺點是抽取的知識缺乏語義化、很難做歸一化處理,弱監督學習可以自動生成大規模的訓練醫療庫,但是會產生噪音數據。

關於NER與實體鏈接可以查看另一篇文章

gaojing:知識圖譜-實體抽取與實體鏈接 (https://zhuanlan.zhihu.com/p/85567106)

事件關係抽取

  • 識別文本中關於事件的信息,並以結構化的形式呈現,核心概念包括:事件描述、事件觸發詞(動詞或者名詞)、事件元素(實體、時間和屬性等表達語義的細粒度單位組成)、元素角色(角色在某件事情上面的語義關係)、事件類型(事件元素和觸發詞決定事件的類別),如下圖所示
知識圖譜入門系列
  • 基於模式匹配的方法:對於某一個事件的識別與抽取是在一些模式的指導下進行的,主要有兩個步驟:模式獲取和模式匹配,有可分為基於人工標註語料和弱監督學習

  • 基於機器學習的方法:把事件建模成多分類問題,可以分為基於特徵、基於結構和基於神經網路。

  • 基於特徵:該方法多用管道式事件抽取

  • 基於結構預測:將事件結構看做是依存樹結構預測。基於結構感知機的聯合模型可同時完成觸發詞與事件元素識別的兩個子任務。

  • 基於神經網路:利用RNN進行事件檢測及聯合模型與RNN相結合進行預測觸發詞和事件元素

  • 基於弱監督:在學術上,[Chen and Ji, 2009] [Liao and Grishman, 2011a; 2011b] [Liu et.al., 2016b] 等,但是由於該方法無法直接映射到結構化數據中,無法直接構建三元組。

  • 中文事件抽取

  • 中文與英文事件抽取區別較大,主要是缺乏統一、公認的事件語料庫及公開評測系統(上海大學CEC(Chinese Event Corpus))

知識融合

  • 知識融合是指合併兩個知識圖譜,本體可以讓用戶非常方便和靈活的根據自己的業務建立或者修改數據模型。通過數據映射技術建立本體中術語和不同數據源抽取知識中詞彙的映射關係,進而將不同數據源的數據融合在一起。同時不同源的實體可能會指向現實世界的同一個客體,這時需要使用實體匹配將不同數據源相同客體的數據進行融合。不同本體間也會存在某些術語描述同一類數據,那麼對這些本體間則需要本體融合技術把不同的本體融合。

知識融合-異構問題

  • 語言層不匹配:RDF OWL OWL2等本體語言之間不兼容。

  • 實體對齊問題:由於多源、異構、跨語言知識圖譜差異性較大,比如結構化不可比、實體名稱表述差別較大、外部工具不穩定等,可訓練數據較少。方法:可以基於圖神經網路的實體結構語義表示及匹配(關於知識融合中實體對齊在學術上有很多研究)

知識圖譜入門系列

知識存儲

  • 知識圖譜的知識存儲一般是採用圖形數據庫進行存儲,主要有兩種圖數據模型:RDF圖和屬性圖

  • 查詢語言:RDF圖---SPARQL;屬性圖:Cypher 和 Gremlin

  • 常見知識圖譜存儲方式

    • Neo4j
    • 分佈式圖形數據庫 JanusGraph
    • OrientDB
    • Cayley
    • Jena RDF4J RDF-3X gStore
    • 主要是三元組表(3store)、水平表(DLDB)、屬性表(JENA)、垂直劃分(SW-Store)、DB2RDF和六重索引(RDFX-3X、Hexastore)
    • 基於關係數據庫的存儲方案

    • 面向RDF的三元組數據庫

    • 原生圖數據庫

    • 圖形數據庫對比

知識圖譜入門系列

來之DB-Engiens圖引擎和美團知識圖譜報告,美團採用JanusGraph分佈式圖形引擎

知識圖譜入門系列

知識推理

  • 根據已有的知識圖譜中的事實或者關係推斷出新的事實與關係,一般是考察實體、關係和圖譜結構三個方面的信息特徵

基於演繹的知識圖譜推理

基於歸納的知識圖譜推理

  • 基於圖結構

  • 基於規則學習

  • 基於表示學習

  • 新的方法

    • 時序法
    • 基於強化學習
    • 基於圖神經網路

開源工具

  • Jena和Drools

知識圖譜構建流程

  • 主要介紹主流的知識圖譜構建流程,實體圖譜的構建主要有自底向上、自頂向下和二則混合的方法,如下圖所示,分別為自底向上和自頂向下

知識圖譜入門系列

知識圖譜入門系列知識圖譜入門系列

參考文獻

知識圖譜怎樣入門

一篇比較好的知識圖譜發展史

美團技術團隊

王昊奮視頻筆記

Embedding Projector

知識圖譜的應用

中文知識圖譜構建的知識融合與驗證

湖心小笨酸:ACL 2019 知識圖譜的全方位總結

DB-Engines



分享到:


相關文章: