獨家|一文讀懂社交網絡分析-下(應用、前沿、學習資源)

獨家|一文讀懂社交網絡分析-下(應用、前沿、學習資源)

(點擊可查看大圖)

獨家|一文讀懂社交網絡分析-下(應用、前沿、學習資源)

本文主要闡述:

  • 社交網絡分析的應用

  • 社交網絡前沿研究

  • 學習資料

瀏覽前三章的內容請見上篇(2017年9月26日頭條)。

四. 社交網絡分析的應

1. 社交推薦

社交推薦顧名思義是利用社交網絡或者結合社交行為的推薦,具體表現為推薦 QQ 好友,微博根據好友關係推薦內容等。在線推薦系統最早被亞馬遜用來推薦商品,如今,推薦系統在互聯網已無處不在,目前大熱的概念“流量分發是互聯網第一入口”,支撐這個概念有兩點核心,其一是內容,另外就是推薦,今日頭條在短短几年間的迅速崛起便是最好的證明。

根據推薦系統推薦原理,社交推薦可定義為一種“協同過濾”推薦,即不依賴於用戶的個人行為,而是結合用戶的好友關係進行推薦。對於互聯網上的每一個用戶,通過其社交賬戶能很快定義這個用戶眾多特點,再加之社交網絡用戶數之多,使得利用社交關係的推薦近些年備受關注。

獨家|一文讀懂社交網絡分析-下(應用、前沿、學習資源)

人們更願意接受來自朋友的推薦,來源:尼爾森

筆者所瞭解到的研究有,根據不同社交網絡之間進行信息信息匹配進而進行推薦,有根據社交關係解決新註冊用戶的冷啟動問題等。總之社交推薦在內容分發、廣告宣傳等領域有著十分重要的地位。具體應用細節大家可以關注筆者的一篇介紹騰訊社交廣告的文章(http://mp.weixin.qq.com/s/ mLpNoMdBpDAEb5IZB_A3Rg),如果想了解這方面更多信息還可以關注推薦系統領域頂級會議 ACM RecSys。

2. 輿情分析

輿情分析在互聯網出現之前就被廣泛應用在政府公共管理,商業競爭情報蒐集等領域。在社交媒體出現之前,輿情分析主要是線下的報紙,還有線上門戶網站的新聞稿件,這些信息的特點是相對專業準確,而且易於分析和管理;但隨著社交媒體出現,輿情事件第一策源地已經不是人民日報新華社這樣的大媒體,而是某一個名不見經傳的微博用戶,一個個人微信公眾號。他們的特點是信息非常新鮮,缺點是真實度較低且傳播十分迅速,難以控制。所以在社交網絡下的輿情分析是一門新的學問。

獨家|一文讀懂社交網絡分析-下(應用、前沿、學習資源)

“刺死辱母者”微博轉發趨勢,來源見水印

舉幾個例子,去年的和頤酒店,今年的北京地鐵罵人事件這類急性輿情事件最早就是在微博上爆出,而且在短時間內迅速傳播。還有去年的關於快手的“中國農村殘酷底層物語”,今年的“北京房價”等這類民生話題,也是在微信公眾號逐漸發酵。

當然,在新形勢下的輿情應對,也已經有新的工具,大家百度“輿情分析平臺”或者“輿情分析軟件”可以找出一大堆。比較有名的有蟻坊、紅麥、清博、知微、新榜等等。一些傳統的輿情分析機構開始轉型做“大數據”的輿情分析,也有近年來完全基於社交媒體的輿情平臺,比如基於微信的新榜和基於微博的知微 。除此之外,BAT 等大型平臺有自己輿情分析工具,可以私人訂製,也有開放的指數(百度指數、微信指數)。

3. 隱私保護

隱私問題在互聯網時代已經是老生常談的問題了。在社交網絡中,作為用戶,我們可能會留下大量痕跡,這些痕跡有隱性的,也有顯性的,好不誇張地,社交服務提供商可以根據你的少量痕跡,挖掘到大量你的個人信息,有些信息是你不願意別人知道的。

這其中存在一個矛盾,即社交服務提供商處於商業目的想盡可能獲取你的個人信息,但是你又擔心自己的個人信息被洩露。所以在隱私保護領域,一方面要設計足夠安全的機制,技術層面的,法律層面的,在保護個人隱私的前提下最大化商業利益和用戶的體驗。

獨家|一文讀懂社交網絡分析-下(應用、前沿、學習資源)

“雲端”的隱私,來源:http://s9.sinaimg.cn

舉一個大家比較熟悉的例子,即許多網站註冊賬戶的時候使用微信、支付寶賬戶驗證,即免去了大家填寫個人信息的煩惱,又保護了大家的隱私。同理,螞蟻金服提供的芝麻信用功能也有隱私保護的功能。

目前學界對隱私保護的研究主要還是從技術層面設計完善的隱私保護機制。

4. 用戶畫像

獨家|一文讀懂社交網絡分析-下(應用、前沿、學習資源)

一種用戶畫像流程,來源:http://www.51callcenter.com

用戶畫像,這是個營銷術語,即通過研究用戶的資料和行為,將其劃分為不同的類型,進而採取不同的營銷策略。傳統的用戶畫像最常用的手段就是調查問卷,訂閱過雜誌和報紙的讀者都知道,會有各種各樣的有獎問卷,一方面用來獲得對於產品的反饋,另一方面就是對你進行畫像,這些畫像資料甚至廣泛在黑市流通,這就是你為什麼有時候會接到莫名其妙的電話的原因(又扯到了隱私保護問題)。

在社交網絡,用戶畫像方式變得更多了,除了傳統的線下問卷變成在線問卷。我們通過用戶的行為,一方面通過統計學方法獲得一些用戶特徵(經典的例子是沃爾瑪的“啤酒和尿布”,另一方面通過機器學習進行建模和驗證獲得意外的收穫(參見上面提到的騰訊社交廣告文章)。

接觸過微信公眾號後臺的讀者都知道,公眾號後臺對微信公眾號文章的讀者還有公眾號粉絲的畫像已經做得非常充足了,好像微博會員也有粉絲畫像的功能。這些便捷的功能對於媒體運營者和廣告投放者都有非常重要的作用。

5. 謠言檢測

謠言檢測算是輿情分析的一部分,之所以單獨提出來是因為這部分非常重要,而且謠言的確定對於輿情管理非常重要。早起微博因為充斥著大量謠言,使得新浪微博不得不推出“微博闢謠”官方賬號,到如今微博以及有許多自發和官方的闢謠賬號,微信公眾號也是如此。

獨家|一文讀懂社交網絡分析-下(應用、前沿、學習資源)

“六小齡童春晚被拒”謠言傳播走勢,來源見水印

傳統闢謠方法無非是進行試試檢驗,用證據說話,隨著現在機器學習技術的迅速發展,我們也可以通過信息傳播的軌跡,信息內容等維度自動判斷消息是否屬於謠言,而且判斷地越迅速,對於輿情管理的意義就越大。同理,這種技術也被應用在社交網絡有害信息識別。

在國外,有關 Facebook 假新聞的新聞被炒得火熱,有興趣的讀者可以關注一下。

6. 可視化

可視化是隨著大數據一起成為熱門話題的。因為人類對於圖像信息的理解速度要大於文字信息數百倍,所以講一些數據可視化有助於人們更生動地理解某一結論或現象。當然不是所有數據都適合可視化,在社交網絡中,我們最常見的有信息傳播軌跡還有詞雲圖等。有關這方面的內容可以參考微博賬號“社交網絡與數據挖掘”。

獨家|一文讀懂社交網絡分析-下(應用、前沿、學習資源)

微博明星好友關係可視化,來源見水印

除了專門可視化的機構,網上也有許多開源的可視化庫,百度的 Echarts 就很有名。 對於社交網絡信息傳播以及好友關係等的可視化,使得我們能直觀看到一些事實,這對於輿情報告製作以及新聞報道都有很好的輔助作用。

五. 社交網絡前沿研究

我在本部分蒐集了幾篇近兩年來在社交網絡頂級會議上比較受關注的文章,將文章的摘要翻譯並陳列,以供各位讀者參考。

1. Negative Link Prediction in Social Media

Tang, Jiliang, et al. "Negative link prediction in social media." Proceedings of the Eighth ACM International Conference on Web Search and Data Mining. ACM, 2015

近年來,符號網絡(signed network)越來越受到關注。對於符號網絡的研究表明,負關係(negative link)對分析過程有幫助。由於許多網絡中用戶無法指定這種負關係,這是其被有效利用的主要障礙。話句話說,負關係的重要性與其在真實數據集之間的應用存在著差距。因此,我們自然而然會探討是否能通過公開的社交網絡數據自動預測用戶的負關係。在本文中,我們研究了在社交媒體中僅僅用正關係和內容為中心的交互行為(content-centric interactions)來預測負關係的問題。我們對負關係做了一些列觀測並且提出了一個原則性框架 NeLP,該框架可以利用正關係和以內容為中心的交互來預測負關係。我們對在現實社交網絡的實驗結果表明,NeLP框架可以準確地預測具有正關係和以內容為中心的交互關係的負關係。 我們的詳細實驗還說明了各種因素對NeLP框架有效性的重要性。

2. Twitter Sentiment Analysis with Deep Convolutional Neural Networks

Severyn, Aliaksei, and Alessandro Moschitti. "Twitter sentiment analysis with deep convolutional neural networks." Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2015

本文介紹了我們用於推特輿情分析的深度學習系統。我們工作主要的貢獻是提出了一個初始化卷積神經網絡參數權重的模型,這對於準確訓練模型至關重要,同時避免增加新的特徵。簡而言之,我們用無監督神經語言模型來訓練初始的詞嵌入(initial word embeddings),這個詞嵌入將被通過我們的基於遠程監督語料庫(distant supervised corpus)的深度學習模型進一步調整。在最後階段,預先訓練的參數將被用於初始化我們的模型,然後我們通過由Semeval-2015組織的Twitter情緒分析官方系統評價競賽最近提供的監督訓練集對後者進行培訓。我們的方法得到的結果和參與競賽的系統的結果之間的比較表明,我們的模型可以分別排在短語級別子任務A(11個團隊)和消息級子任務B(40個團隊)前兩位。這證明了我們解決方案的實際價值。

3. Social Recommendation with Strong and Weak Ties

Wang, Xin, et al. "Social Recommendation with Strong and Weak Ties." Proceedings of the 25th ACM International on Conference on Information and Knowledge Management. ACM, 2016

隨著在線社交網絡的爆炸式增長,現在人們普遍瞭解,社會信息對推薦系統非常有幫助。社會推薦方法能夠應對關鍵的冷啟動問題,從而可以大大提高預測精度。主要的原因是,基於信任和影響,人們對其朋友購買過的產品表現出更多的興趣。儘管在社交推薦領域已經有大量工作,但是很少有人關注社交強關係和弱關係這兩個重要的社會學概念之間的區別。在這篇文章中,我們使用鄰域重疊來逼近關係強度,並擴展受歡迎的貝葉斯個性化排名(BPR)模型並將其用於區別強弱關係。我們提出了一種基於 EM (EM-based)的算法,它可以根據最優推薦準確度(optimal recommendation accuracy)對強弱關係進行分類並學習所有用戶和所有商品的潛在特徵向量(latent feature vectors)。我們對四個現實世界數據集進行廣泛的實驗,並證明我們提出的方法在各種精度指標中顯著優於目前最好的成對排名(pairwise ranking)方法。

4. Online Actions with Offline Impact: How Online Social Networks Influence Online and Offline User Behavior

Althoff, Tim, P. Jindal, and J. Leskovec. "Online Actions with Offline Impact: How Online Social Networks Influence Online and Offline User Behavior." Tenth ACM International Conference on Web Search and Data Mining ACM, 2016:537-546

如今許多應用軟件都廣泛地利用了社交網絡功能並允許用戶互相連接、互相關注、分享內容和評價動態。儘管這些功能已經被廣泛應用,對於用戶在線時和離線後參與還是保留的行為卻很少有人理解。本文中,我們通過一個運動記錄 APP研究了社交網絡是如何影響用戶線下行為的。

我們分析了600萬用戶五年間的七億九千一百萬條線上和線下活動記錄,結果表明社交網絡對用戶線上和線下的行為有著巨大的影響。具體來講,我們提出了社交網絡影響用戶行為的因果關係。我們發現新社交關係的建立能將用戶在 APP 中的活躍度提高30%,用戶保留率提高17%,線下活躍率提高7%(大約每天多走400步)。通過開展自然實驗,我們將新社交關係對用戶的影響和用戶因為對 APP 的興趣而走更多步數作了區分。

我們發現社交影響佔所有對用戶行為影響因素的55%,剩下的45%可以用用戶對 APP 本身的興趣來解釋。此外我們還發現一連串的個人用戶之間的社交關係建立對每日步數的增加有顯著影響,用戶之間每增加一條邊都對會減弱這種影響,並且這些變化是基於邊屬性和用戶自己的資料屬性。最後我們用這些現象設計了一個模型,模型用來判斷哪些用戶最容易被新建立的社交網絡關係影響。

5. Intertwined Viral Marketing in Social Networks

Zhang, Jiawei, et al. "Intertwined viral marketing in social networks." Advances in Social Networks Analysis and Mining (ASONAM), 2016 IEEE/ACM International Conference on. IEEE, 2016

傳統的病毒式營銷問題旨在為一個單一產品選擇一個種子用戶的子集,以最大限度地提高其在社交網絡中的知名度。而然在實際情況下,許多產品可以同時在社交網絡中進行推廣。從產品層面來看,這些產品之間的關係是互相纏繞的,舉個例子,就是競爭、互補且獨立的關係。

在這篇文章中,我們將研究“糾纏影響力最大化”問題,它是基於一個目標產品需要在社交網絡上進行宣傳,而同時有多個競爭/互補/獨立的產品在推廣這樣的場景。糾纏影響力最大化是一個非常具有挑戰性的問題,首先是因為很少有模型能模擬多種產品同時宣傳時的信息擴散形式;第二是對於目標產品最優種子集的選擇可能很大程度上取決於其它產品的營銷策略。為了解決此問題,我們提出了一種統一貪心算法框架(interTwined Influence EstimatoR, TIER),在四種不同類型現實社交網絡數據集的實驗表明TIER 優於所有的比較方法,在解決糾纏影響力最大化問題上有著顯著優勢。

6. Who to Invite Next? Predicting Invitees ofSocial Groups

Yu Han, and Jie Tang. "Who to Invite Next?Predicting Invitees of Social Groups " Proceedings of theTwenty-Sixth International Joint Conference on Artificial Intelligence (IJCAI-17).2017.

WhatsApp、Snapchat 和微信等社交即時通訊工具很大程度上改變了人們工作生活和交流的方式,也受到了多個領域例如計算機科學、心理學、社會學和物理學的關注。在社交即時消息工具中,社交群組在多用戶交流中扮演著重要的角色。一個有趣的問題是,社交群組動態演變的機制是什麼?更具體來說,在一個群組中,誰將會被邀請加入?這篇文章中,我們研究社交群組潛在加入者這樣一個新穎的問題。我們採用微信這個中國最大的社交軟件作為實驗數據的來源。我們提出了一個概率圖模型用來計算影響用戶被邀請加入群組概率的因子。我們的實驗預測結果表明我們的模型相比目前的其他模型有顯著的提高。

7. The Co-Evolution Model for Social NetworkEvolving and Opinion Migration

Gu,Yupeng, Yizhou Sun, and Jianxi Gao. "The Co-Evolution Model for SocialNetwork Evolving and Opinion Migration." Proceedings of the 23rd ACMSIGKDD International Conference on Knowledge Discovery and Data Mining.ACM, 2017.

幾乎所有的真實社交網絡都是動態且隨著時間演化的。新的鏈路的形成和舊的鏈路的消失很大程度上取決於社交網絡用戶的同質性。同時,一些社交網絡用戶的隱性性質例如用戶的觀點也隨著時間而變化。其中一部分原因是用戶從社交網絡中接收到影響力,這些改變進而會影響社交網絡的結構。社交網絡的演化和節點性質的遷移通常被認為是兩個獨立正交的問題。

在這篇文章中,我們提出一種協演化模型,通過對兩種現象的建模形成閉環。模型有兩個主要部分:

  • 一個已知節點性質的網絡生成模型;

  • 一個已知社交網絡結構的節點性質遷移模型。

通過模擬發現我們的模型有一些不錯的特性:

  • 它可以模擬一個大範圍現象,例如觀點的收斂和基於社群的觀點差異;

  • 它可以通過一系列因子例如社交影響力範圍,意見領袖,噪聲等級來控制網絡的演化。

最後,我們模型的有效性通過在對議會立法議案支持者的預測中得到了驗證,並且我們的模型優於一些目前的方法。

六. 學習資料

1. 圖書

  • 《社會計算》Lei Tang, Huan Liu

獨家|一文讀懂社交網絡分析-下(應用、前沿、學習資源)

  • 《社交網站的數據挖掘與分析》Matthew A. Russell

獨家|一文讀懂社交網絡分析-下(應用、前沿、學習資源)

  • 《在線社交網絡分析》 方濱興等

獨家|一文讀懂社交網絡分析-下(應用、前沿、學習資源)

  • 《社交媒體挖掘》Huan Liu等

  • 《大話社交網絡》郎為民

獨家|一文讀懂社交網絡分析-下(應用、前沿、學習資源)

2. 網站

  • 大數據導航(此網站包含很多資源)

    http://hao.199it.com/

  • 斯坦福數據集網站(Jure 男神)

    http://memetracker.org/data/index.html

  • 加州大學歐文分校數據集網站

    http://archive.ics.uci.edu/ml/datasets.html

  • 國內社交網絡數據集共享網站

    http://www.socialysis.org/data/project/project

  • 清華大學搭建的學術數據庫

    https://cn.aminer.org/

  • 亞馬遜商品流行趨勢分析平臺

    http://132.239.95.211:8080/demowww/index.jsp#

  • 明尼蘇達雙城分校社會計算實驗室

    https://grouplens.org/

  • 新華網信息傳播影響力評估

    http://www.xinhuanet.com/xuanzhi/zt/xzyxl/index.html

  • http://www.newrank.cn/

  • 清博新媒體大數據平臺

    http://www.gsdata.cn/

  • http://echarts.baidu.com/

  • 阿里雲 DataV 數據可視化庫

    https://yq.aliyun.com/teams/8

3. 工具

  • Python 及其相關庫(scipy,numpy,pandas,scikit,scrapy,twitter )更多請見 http://blog.csdn.net/hmy1106/article/details/45166261

  • 圖分析分析工具 Graphchi,SNAP,Pajek,Echarts

  • 可視化工具 Gephi,Graphviz

  • 數據挖掘工具 WEKA,AlphaMiner

  • 圖數據庫 Neo4j

4. 會議

筆者僅列出與社交網絡相關的部分國際會議,排名不分先後,加粗的會議為專門討論社交網絡話題的會議。

KDD, WWW, ICDM, CIKM, AAAI, SDM, IEEE BigData, ASONAM, WSDM, ICWSM, ACL, IJCAI, NIPS, ICML, ECML-PKDD, VLDB, SIGIR, PAKDD, RecSys, ACM HT, SBP, ICWE, PyData

筆者在這裡推薦兩個國內的社交網絡分析會議,一個是全國社會媒體處理大會(SMP),由中國中文信息學會主辦,會議論文 EI 檢索。第二個是國際網絡空間數據科學會(IEEE ICDSC),會議由中科院,北大,中國網絡空間安全協會等機構籌辦。

5. 課程

筆者在上一部分提到的國際會議,例如 WWW、KDD 等,每年都有關於社交網絡分析方向的 tutorial,其視頻和 PTT 都是在網上可獲取的,通過 tutorial 能對相關領域有一個宏觀瞭解並且能瞭解領域前沿動態。

除此之外,在 Coursera 上面密西根大學安娜堡分校開設的一系列 Python 學習課程也值得一看。在網易公開課上面也有中文的 Python 數據挖掘課程可供學習。

萬能的淘寶也提供大量廉價的視頻和電子學習資料。

最後,利用好科學上網工具和搜索引擎(不是百度)才是王道。

[1] 方濱興, 許進, 李建華. 在線社交網絡分析[M]. 電子工業出版社, 2014.

[2] Reza Zafarani, Mohammad Ali Abbasi, Huan Liu. 社會媒體挖掘[M]. 人民郵電出版社, 2015.

[3] Carlos Castillo, Wei Chen, Laks V.S. Lakshmanan, Information and Influence Spread in Social Networks,KDD 2012 Tutorial

更多精彩請關注清華-青島數據科學研究院官方微信公眾號“THU數據派”


分享到:


相關文章: