大數據時代淘金利器,不學點關係網絡分析可還行

六人定律,相信大家一定都不會陌生。簡單的說,你只需要通過6個人,就可以認識到世界上所有的人。足以說明,世界就像一張網,任何事物之間都能找到關係。

大數據時代,我們把這樣的網絡叫關係網絡,那麼,如何從關係網絡中挖掘出有價值的信息?以下為你一一道來。

什麼是關係網絡

關係網絡有時也叫社會網絡,是指社會參與者及其間的關係的集合。也可以說,一個關係網絡是由多個點(社會參與者)和各點之間的連線(參與者之間的關係)組成的集合。

這裡的參與者不但指具體的個人,還可指一個群體、公司或其他集體性的社會單位或實體。每個參與者在網絡中的位置被稱為"節點(node)"或“頂點(Vertex)”,參與者之間的關係稱為“邊(Edge)”。

常見的關係網絡可能由以下關係構成:

  • 親屬關係:父母、子女、夫妻關係等。
  • 社會關係:社會角色也是關係性的,如老闆/職員、教師/學生、醫生/病人關係等。
  • 個人之間的評價關係:贊成、喜歡、信任、尊重等。
  • 行為上的互動關係:參與者之間的自然交往,如談話、參加會議、拜訪、提建議等。
  • 隸屬關係:如參加一項協會、屬於某些俱樂部等。
  • 物質或資本的傳遞:商業往來、物資交流。
  • 非物質資源的轉換關係:參與者之間的交往、信息的交換等。
  • 空間關係:城市之間的關係,遷入和遷出。
  • 職位的升遷,地位的變動

關係網絡分析方法

要分析關係網絡,從瞭解一些基本概念開始。

1、“圖”的概念

為方便計算機處理關係網絡,在計算機理論中,把關係網絡抽象為“圖”的概念。這裡的“圖”不是圖形,也不是照片,而是一種數據結構。“圖”由下面三種關鍵元素構成:

  • 節點(Node):即頂點(Vertex)
  • 邊(Edge):表示節點之間的關係
  • 屬性(Property):節點和邊都可以有自己的屬性

“圖”中的屬性用於描述節點或邊的特徵。例如,對於某學校關係網絡,點的屬性可能有姓名、角色等,邊的屬性可能有同學、師生、同事等。

大數據時代淘金利器,不學點關係網絡分析可還行

2、有向圖和無向圖

圖也分為有向圖和無向圖,分別用有箭頭的連線和無箭頭的連線表示。有向圖中的關係是有方向的,如借貸關係、權力關係等。無向圖中的關係是無方向的,例如參會、交談等。所有的關係網絡都可以抽象為“圖”的形式來表述

大數據時代淘金利器,不學點關係網絡分析可還行

3、最短路徑

有個很著名的理論,世界上任意兩個人之間最多經過6個人就能建立聯繫。也就是說,你只需要通過6個人,就可以和美國總統特朗普說上話。但是,如何找到這6個人呢?最短路徑算法就用於這樣的場景,用於找到源節點到目標節點的最短路徑。它的主要特點是以起始點為中心向外層層擴展,直到擴展到終點為止。Dijkstra(迪傑斯特拉)算法是典型的單源最短路徑算法,是很有代表性的最短路徑算法。

如下圖所示,通過最短路徑計算,我們很容易在一個複雜的網絡中找到任意兩個節點(我和特朗普)之間的最短路徑。

大數據時代淘金利器,不學點關係網絡分析可還行

4、度和權重

點的“度”數,是指與該點相連的邊的條數。對於有向圖,“度”也可以細分為出度和入度。與節點相連的邊越多,說明該點越重要,所以節點的“度”數反映了一個點的重要程度。

再說說點的權重,權重是表示點的重要程度的另一種方式。權重有很多種評價方式,可以用點的某項屬性度量值為權重,例如:註冊資本等。也可以用某種算法求出點的權重,例如:PageRank。

可以用度數或權重在”圖”中直觀表示節點的重要程度。下圖是《悲慘世界》人物關係,用PageRank為直徑表示不同人物的重要性,可以看到,Valjean是其中的核心人物(主角)。

大數據時代淘金利器,不學點關係網絡分析可還行


5、中介中心性

中介中心性在我們WonderDM中又稱節點影響度。中介中心性指的是一個結點擔任其它兩個結點之間最短路徑的橋樑的次數。一個結點充當“中介”的次數越高,它的中介中心度就越大。中介中心性是研究一個參與者在多大程度上居於其他兩個參與者之間,因而是一種"控制能力"指數。

下圖是《悲慘世界》人物關係,用中介中心性為直徑表示人物節點。可以看到,Fantine是其中的關鍵人物。

大數據時代淘金利器,不學點關係網絡分析可還行

6、模塊化

模塊化(Modularity)是關係網絡分析中用於分析網絡結構的一種方法。根據一個群組內部比群組外部具有更高密度的聯結的原則,它將網絡分成不同的群組,通常也叫群(groups)、族群(clusters)或者社群(communities)),通常用來偵測網絡的社群結構。通俗的說,找出網絡由哪些小圈子組成。

以微博轉發數據形成的關係網絡為例,將此網絡模塊化之後按模塊進行分組配色,可以很鮮明的看到整個網絡形成了若干個不同的圈子,可以對圈子內的個體詳細瞭解後,定位該圈子的群組特徵。

大數據時代淘金利器,不學點關係網絡分析可還行

7、K-Core

一個圖的k-Core是指反覆去除“度”小於k的節點後,所餘下的子圖,所有的節點度數都為k。K-Core算法是簡化複雜網絡並得到核心子網絡的算法之一,其簡單有效可以運用到很多領域。K-Core可以幫助我們從複雜的關係網絡中提取高度相關的子結構(如社區、團體、關聯企業等)。例如可以在採購欺詐模型中,幫助我們分析買家或賣家之間行為異常的團伙或找出整個交易網絡中處在核心位置的供應商或採購商。

如下圖所示,使用K-Core算法,我們在一個複雜的關係網絡中,找到若干關聯度比較高的客戶群體。

大數據時代淘金利器,不學點關係網絡分析可還行

小結:現在是萬物互聯的時代,可謂萬物皆有關係,關係網絡分析可以應用到幾乎所有社會活動當中。利用關係網絡分析手段,結合時空數據、地理關係等建立可視化表徵,可以揭示對象間的關聯和對象時空相關的模式及規律,可以廣泛應用於金融、銀行、保險、物流、交通、安防、互聯網等各行各業。這也是數據挖掘領域的一個分析方法,後續文章將給大家介紹更多。


分享到:


相關文章: