復旦大學王新團隊研發高可靠高效能的超大規模分布式存儲系統

新聞中心訊 萬物互聯的時代,雲計算數據中心已成為各行各業的必需品。小到個人的數據事務,大到國民經濟的各個環節,每天都在持續產出海量數據,維繫著社會的正常運轉。“工業4.0”和“互聯網+”時代的到來,人工智能、物聯網、區塊鏈技術的發展,讓數據規模量級持續提升。當數據規模數以億計時,如何安全、高效地對其進行存儲、收納、歸類、修改?

復旦大學王新團隊研發高可靠高效能的超大規模分佈式存儲系統

復旦大學計算機科學技術學院教授王新團隊研發的高可靠高效能的超大規模分佈式存儲系統技術,以領先的技術方法在數據傳輸、存儲等方面對分佈式存儲系統進行了優化,為企業提供了構建高效數據存儲系統的技術方案,幫助其處理源源不斷的海量數據。今年,該技術將亮相2018中國國際工業博覽會,向公眾展示數據存儲中的數學密法。

理論創新:一個靈感點,十二年研究路

過去需要4塊存儲板的數據,通過高效能的分佈式存儲只需使用3塊,節省了1/4的存儲空間;分佈式存儲在數據備份上打通多個存儲空間,更安全可靠,能存儲的數據類型也全面多樣。作為一種利用網絡分散數據存儲壓力的新型存儲模式,分佈式存儲系統在容量、性能擴展性、訪問接口及協議的豐富性上,相比傳統的存儲系統都有了極大提升。而復旦大學團隊聯合上海天璣科技股份有限公司等單位研發的分佈式存儲系統,革新了原先採用直聯方式的專業存儲系統,形成一個集網絡設備、存儲單元、應用軟件、訪問接口和客戶端程序等多個部分組成的複雜系統。

據介紹,該研究團隊在研究中的最初的啟發來源於一張表示網絡編碼理論的“蝴蝶圖”。

“上世紀40年代,信息論之父香農提出,點對點通信存在一個速率上界。就像一條公路,存在一個最大通過車流量。”王新說:“香農公式並沒有告訴我們達到通信容量的具體方法,在通信網絡中亦是如此。”直到2000年,三位華人科學家提出了網絡編碼思想,在香農理論的基礎上,對信息論進行了一個新的重要拓展,說明在多播網絡中,如何利用節點進行編碼計算以提高信息傳輸速率,從而達到網絡容量。從簡單的直接傳輸,到利用節點編碼計算,網絡編碼用一張“蝴蝶圖”的原理圖,實現了傳輸效率的顯著提高。

2006年,以網絡編碼理論指導存儲系統設計的思路剛剛萌芽,復旦大學團隊也開始將網絡編碼理論應用於存儲技術研究中,並逐步對再生冗餘編碼等進行了深入探究。“那年,我們獲得了國家863計劃項目的支持,非常感謝當時這個項目給予的支持,讓我們有了一個好的起點。”

十二年歲月一晃而過,王新帶領團隊在以網絡編碼為主要方向的分佈式存儲技術的研究道路上,孜孜不倦地前行著。跟隨著時代和業務需求的變化,持續不斷地更新技術,完善理論,致力於研發出更高效、可靠的超大規模存儲系統。近年來,團隊主要研究的分佈式冗餘編碼、存儲修復優化等部分研究成果先後發表在 IEEE/ACM JSAC、IEEE TIT、IEEE TCOM、IEEE INFOCOM、IEEE TOC、ACM MM等專業會議或期刊上,獲得了學術界的廣泛認可。團隊的研究生,也先後多次獲得過中國計算機學會信息存儲技術年會優秀論文、中國計算機學會大數據學術年會優秀論文、上海市研究生優秀成果(學位論文)、上海市挑戰杯競賽一等獎等榮譽。

“越接近本源的東西,其內涵越簡單。”王新這樣說道:“編碼計算本質上是數學,更多部分是線性代數。一個簡單原理,合適地應用到一個領域中,就可能創造出一個全新的技術或應用。”4位導師, 20餘位博士/碩士研究生,在這一成果的研究中,他們從一個基本點出發,對存儲的各個環節進行了細緻的優化。“海量的信息需要上傳、歸檔、備份,也需要調用、修復、更新,因此高效、可靠、便捷可用的屬性都是當前數據存儲中必不可少的。”目前,團隊還在繼續尋找提高存儲效能、降低開銷的更優方案,例如合理處理冷熱數據、尋找更好編碼、針對不同場景尋找不同的存儲方案等。

產品效用:為產業信息化保駕護航

中國人民財產保險浙江分公司、中國移動浙江分公司、中國電信吉林分公司、上海海勃物流軟件公司……復旦團隊與天璣科技合作開發了諸多數據存儲解決方案,PhegData、PBData等面向市場的產品,一經推出就在電信、金融等行業中獲得了諸多重要客戶的青睞,並獲得了良好的市場反響。

今年年初,上海地鐵全面實現了手機“刷碼進閘”,團隊參與研發的PBData產品在幫助上海地鐵支持該功能上,助予了重要的一臂之力。由於“刷碼進閘”高併發場景下所產生的大量數據會負載業務系統的運行,上海地鐵的基礎架構只有同時具備強勁的並行計算能力、快速響應能力以及高吞吐,才能支撐數據對後臺的衝擊。而運用復旦團隊技術研發的PBData數據庫雲平臺解決方案產品,能夠為企業提供高速InfiniBand與智能緩存的分佈式存儲,為ACC清分系統提供高性能、高可用的一站式雲平臺,大大減輕了原有基礎架構的壓力,使其得以正常運轉。

類似於上海地鐵集團,目前我國的許多企業在產業信息化轉型中都面臨著一個矛盾:這些企業都有擁有類似於谷歌、百度、阿里、騰訊的高效數據中心的迫切需求,然而由於自身研發實力不足,多數企業無法擁有自己研製的數據中心,但是採用傳統存儲系統又無法滿足企業日益增長的數據需求。

面對這樣的情況,復旦團隊與天璣科技合作開發存儲解決方案,為企業解決了這一難題。企業只需部署這樣的方案,就能自己擁有適合自身需要的高效數據中心,實現高可靠、高安全性、高擴展性的企業私有云存儲。對於有大規模的數據存儲處理需求,卻缺少研發力量的企業來說,這樣的服務更具性價比,也為其實現數字化產業升級,提供了技術保障。

上海滬東集裝箱碼頭公司每天都有大量的視頻監控需求,穩定的監控系統是其維護物資安全的重要保障。然而,大量的視頻數據在存儲、調用及應急處理上都對技術有著很高要求,滬東碼頭公司對此難以自顧。直到2015年其將PhegData超大規模分佈式存儲應用於公司視頻監控系統,配置4個存儲節點數,獲得288TB容量,才解決了數據存儲的大問題,支撐起了其視頻監控系統的正常運行。

復旦團隊研發的高可靠高效能的超大規模分佈式存儲系統技術,不僅為企業解決了經營的難題,更在國產自主產品的替代、升級換代中發揮了重要作用,對推動IT系統國產化,保護重點行業網絡與信息安全做出了切實貢獻。

通向未來:存儲的可用性與個性化

從存儲的需求維度來看,王新認為除了“高效”傳輸以外,在“超大規模”“可靠性”“便捷性”上,分佈式存儲技術還有繼續拓展與耕耘的廣大空間,提高存儲系統的可用性和智能化,是未來發展的重要方向。

數據的超大規模,不僅表現在量級上,還在於存儲數據的類別與複雜程度。文本、表格、流媒體,不同類別數據的編碼轉化需要做到統一而流暢。在存儲的可靠性上,如何實現經濟又安全的備份,尋找安全備份的最優解,是需要考慮的對象。在便捷性上,存儲系統也需要更加“智能”。不同用戶對存儲的需求各不相同,因此,根據用戶的存儲使用習慣,調節存儲系統的性能,將使存儲更經濟而高效。在不同場景下將冷熱數據進行劃分,可以幫助用戶快速獲取熱數據,而將冷數據進行編碼節約存儲空間,從而實現存儲的智能優化。

“經濟上講究成本可控,但其實經濟與高質量是存在矛盾的。就像食堂每天應該開設幾個服務窗口的問題一樣,我們能做的就是找到一個動態的優化方案,尋找一個平衡點,來實現用戶體驗和存儲效能的均衡。”王新這樣總結。

在眾多學術研究的案例中,都存在從無到有,從有到高效,從高效到智能的發展路徑。復旦團隊對分佈式存儲系統的研究,也正遵循著這條發展的道路日益優化,為了實現分佈式存儲系統的持續優化,孜孜不倦地探索求知著。

談到項目的未來發展,團隊成員周揚帆副教授說:“存儲系統這些年來的技術研究,都在解決信息技術發展提出的新需求,針對各種業務場景進行適配和優化。無論從技術發展趨勢還是國際國內市場形勢來看,未來分佈式數據存儲技術都具有非常廣闊的發展前景。如何設計更好的存儲軟、硬件架構,面向人工智能應用,實現高效的大數據存儲、訪問方式,會是我們下一步涉及的領域。”

雲計算、人工智能、物聯網……互聯網發展到今天,數據的規模量級已不可同日而語,未來存儲的需求也將持續上升,對技術需求也將愈發具有挑戰性。高可靠高效能的超大規模分佈式存儲系統憑藉其優秀的性能與技術,不斷滿足物聯網、大數據等數據中心級應用。

文:李雨蓁

封面製圖:張琦


分享到:


相關文章: