Giraph:基於Hadoop的開源圖計算框架

簡介

開源項目Giraph的支持者或許都知道,Facebook在開發圖譜搜索(Graph Search)服務時,選擇採用了Giraph,並開始了對此項開源技術的研究。Facebook將Giraph規模化並作為其Open Graph工具的核心,用來處理數萬億次用戶及其行為之間的連接。

Giraph:基於Hadoop的開源圖計算框架

Giraph的起源

據維基百科介紹,Giraph是一個迭代的圖計算系統。Giraph計算的輸入是由點和直連的邊組成的圖。例如,點可以表示人,邊可以表示朋友請求。每個頂點保存一個值,每個邊也保存一個值。輸入不僅取決於圖的拓撲邏輯,也包括定點和邊的初始值。

Giraph最早出自雅虎。雅虎在開發Giraph時採用了Google工程師2010年發表的論文《Pregel:大規模圖表處理系統》中的原理。後來,雅虎將Giraph捐贈給Apache軟件基金會。目前所有人都可以下載Giraph,它已經成為Apache軟件基金會的開源項目,並得到Facebook的支持,獲得多方面的改進。

Giraph:基於Hadoop的開源圖計算框架

Giraph之所以格外受到關注,因為它是基於Hadoop建立的。Hadoop大數據平臺已經在很多企業中部署,其中規模最大的當屬Facebook。Facebook工程師、Giraph的貢獻者Avery Ching在自己的博客中介紹了Facebook對Giraph的規劃,並表示基於Hadoop是選擇Giraph的一個重要原因。

Facebook對Giraph的改進

圖形(Graph)是大數據領域最熱門的關鍵詞。為了能夠更好的分析人群、位置和事件之間的聯繫,圖形處理引擎和圖形數據庫利用系統節點(node,例如Facebook用戶的興趣愛好)和邊(edge,用戶及其興趣愛好之間的聯繫)對數據進行分析。

但是到目前為止,Giraph應用還需要考慮Hadoop的兼容性。據Avery Ching介紹,Facebook選擇了三個生產應用,分別是標籤傳遞、網頁排名和k-means聚類,用來推動產品的發展方向。在完整的Facebook好友關係圖中運行這些應用,圖中包含10億用戶和數千億好友關係,這要求Giraph增加新的功能,主要是可擴展性的提升。

Giraph:基於Hadoop的開源圖計算框架

Avery Ching分享了Facebook在可擴展性和性能上對Giraph的改進,成果令人敬佩。目前Facebook可以在擁有1萬億連接的真實的社交圖譜上運行一個迭代的頁面排名,這一社交圖譜由各類用戶在4分鐘之內交互產生,伴隨適當的碎片收集和性能調節。除此之外,還可以聚集Facebook每月的活躍用戶數據集,在幾分鐘內即可完成對如此大規模數據和變量的處理。

選用Hadoop領域相關的開源產品最大的好處,是有很多技術實力雄厚的公司也在使用,並不斷貢獻出最新的研究成果。Apache Giraph項目就已經被Facebook應用,並將該平臺改進到1.0.0版本,該平臺更穩定且更易使用。

原文鏈接:

【Giraph:基於Hadoop的開源圖形處理平臺】http://m.it168.com/article_1523700.html


分享到:


相關文章: