12.20 基於隨機遊走的圖嵌入之快速指南

1. 背景

1.1 何為圖嵌

圖嵌入是利用節點屬性、節點間拓撲關係將複雜、高維圖數據進行向量化的一項技術。

圖數據結構突破傳統數據庫按記錄組織數據的限制,具備更靈活的現實數據建模能力。如何將圖數據結構中的信息進行合理表徵,方便地應用於下游任務成為一個問題。

近年來隨著NLP領域預訓練詞向量技術的流行,圖嵌入,也就是圖數據向量化也成為了一個越來越活躍的研究領域。

1.2 圖數據向量化

①可以進行相似/相關節點計算、圖數據挖掘等下游計算,延伸至內容推薦業務興趣擴展模塊、連接預測;

②也可以將圖數據中蘊含的知識編碼到深度學習網絡中,參與到文本、圖像、流媒體等內容理解的計算中。

在本文中,OPPO互聯網技術團隊針對知識圖譜領域數據特性對圖嵌入計算的三種思維方法,進行簡要介紹。

1.3 通用知識圖譜數據的特點

①關係:節點(知識圖譜中稱實體)之間會存在諸如互為好友、參演作品、作品歸屬類型等關係;

②屬性:每個節點會存在各種各樣的屬性,比如人物會存在基本信息、背景描述等屬性;

③類型:圖譜中會存在諸如人物、作品、品牌、景點等類型。

基於隨機遊走的圖嵌入之快速指南

2. 方法

2.1 node2vec

針對圖數據中的關係,B. Perozzi等提出DeepWalk模型,開啟了隨機遊走圖嵌入的先河。

DeepWalk基本思想如下:

隨機選中圖中的節點,沿圖中的關係進行隨機的閒逛,將圖數據轉化為一段段類似自然語言的序列,然後通過NLP(自然語言處理)領域word2vec對序列中節點的相鄰性進行建模,進而得出每個節點的向量。

基於隨機遊走的圖嵌入之快速指南

DeepWalk存在一個問題:遊走完全隨機,無法根據網絡特點(如關係權重)做到對遊走進行干預。

Aditya Grover等針對這一問題提出node2vec算法,通過p/q兩個參數控制隨機遊走下一跳的概率分配。

基於隨機遊走的圖嵌入之快速指南

2.2 ANRL

針對圖譜中未拆分為關係的屬性(諸如描述等拆分後度極低的屬性以及其他一些)研究者們提出了很多方法。本文選取其中一種ANRL來進行介紹;

ANRL由Zhen Zhang等提出,思想如下:

通過一個雙目標網絡,分別對節點屬性、關係進行建模,最終得到的圖嵌入向量受屬性、關係訓練數據的制約,得到一個融合了屬性和關係信息的圖嵌入向量。

基於隨機遊走的圖嵌入之快速指南

2.3 Metapath2Vec

知識圖譜通常涵蓋若干領域,尤其是通用知識圖譜,其中節點的類型更是各式各樣。除了其中有實際意義的實體,也會有一些為了屬性節點。(諸如國家)

不同類型的節點具有不同的特性:諸如國家可能會與一個電影有地域關係,也會與一個明星有國家歸屬關係,也會與一個景點有歸屬關係,也會與一個戰鬥機有產地關係。

所以不同類型的節點按照相同的規則進行隨機遊走也會存在一些固有的問題。

事實上,node2vec的隨機遊走確實會偏向度比較大的節點,另外我們也需要根據業務場景對不同領域的節點進行不同程度的隔離。

Yuxiao Dong等提出MetaPath2Vec算法,算法中將通過類型序列控制隨機遊走只在特定的類型之間進行遊走,當然也可以根據業務特點進行遊走概率降權。其主要過程如下:

基於隨機遊走的圖嵌入之快速指南

3. 最後

知識是人類之於機器的優勢。現今隨著深度學習的發展,AI在很多領域通過大量的監督數據能夠高效、精準的完成各種具體的任務。

然而現今深度學習等各種模型尚不能像人類一樣進行普世知識積累、聯想、推理、想象,或許知識圖譜會是AI下一個飛躍的翅膀;事實上,圖嵌入、圖神經網絡領域的研究近幾年逐漸成為AI頂會熱門話題。


分享到:


相關文章: