「深度觀察」數字化轉型加速,分佈式存儲迎來春天

隨著5G的到來,Cloud、AI技術的應用和普及,各行各業數字化轉型的不斷加速,分佈式存儲已經成為產業界炙手可熱的話題。不禁有人會問,是曇花一現,還是分佈式存儲迎來春天?今天,我們不妨來一探究竟。

非結構化數據爆發式增長,分佈式存儲大有可為

8K、5G、IoT、大數據、AI等系列技術的發展,帶來了數據量的爆發式增長。IDC在《Data Age 2025》的報告中預測,從2018年到2025年,全球數據將從33ZB急速增長到175ZB,其中非結構化數據佔比將超過80%。分佈式存儲憑藉高擴展性和易管理能力,成為承載海量數據的重要選擇。Gartner 2019年新定義的第二存儲陣列,更是專門強調架構上必須是Scale Out的。

「深度觀察」數字化轉型加速,分佈式存儲迎來春天

IDC數據增長趨勢預測

IDC指出,目前每年存儲下來的數據只有新產生數據的1%左右,其中真正用於數據挖掘的量不⾜存儲數據的10%。數據資產已成為企業數字化轉型的核心,未來隨著大數據和AI等新生產工具的發展,數據存儲比例和挖掘比例必將大幅提升,需要專業的分佈式存儲來提供更高的存儲容量和併發性能。Gartner定義的第二存儲陣列也將大數據分析作為其典型應用場景,認為未來的大數據分析會為分佈式存儲帶來海量的數據和性能需求。

市場趨勢明顯,分佈式存儲產業爆發在即

IDC將分佈式存儲歸入了軟件定義存儲來跟蹤,IDC發佈的《中國軟件定義存儲(SDS)及超融合存儲(HCI)系統市場季度跟蹤報告,2019年第二季度》顯示,中國區軟件定義存儲已經連續多個季度同比大幅增長。

「深度觀察」數字化轉型加速,分佈式存儲迎來春天

IDC中國區SDS存儲2017Q2-2019Q2銷售數據

按IDC的預測,中國區SDS存儲銷售從2018年到2023年將保持20%以上的年化增長率;到2023年,全球40%左右的存儲系統都將是分佈式存儲架構。另一家調研機構Zion Market Research更是預測,全球分佈式存儲的銷售額將從2018年的20億美元快速增長到2027年的285億美元,年化增長率高達34.7%。無論從過去幾年的銷售數據還是未來幾年的銷售預測來看,分佈式存儲的春天已經到來,以Ceph為代表的開源分佈式存儲蓬勃發展,以EMC、華為為代表的專業存儲廠商重兵投入,同樣也印證了這一結論。

「深度觀察」數字化轉型加速,分佈式存儲迎來春天

IDC中國區SDS存儲2018-2023年銷售數據預測

分佈式存儲技術發展趨勢

分佈式存儲是未來的發展方向已成為業界共識,那麼分佈式存儲技術上又有哪些發展趨勢呢,這點可以從Gartner分佈式文件&對象存儲關鍵能力要求和各大主流廠商的產品方向上來看一下:

極致效率

Gartner對第二存儲的定義是:首要目的是經濟高效地支持延遲和IOPS不是必需屬性的非結構化數據工作負載, 典型用例包括長期歸檔,大數據分析應用程序的存儲庫,深度歷史研究以及備份/恢復軟件的備份/恢復目標。這就意味著,分佈式存儲的首要目標是提供極致效率的數據存儲方案。

從Gartner分佈式文件&對象存儲關鍵能力要求來看,效率主要體現在幾個方面:

  • 擴展性:整集群應具備擴展到幾百甚至上千存儲節點的能力,簡化管理;單文件系統或單桶需要支持幾百甚至上千億文件,應對現在及未來的海量文件挑戰。
  • 互通性:以自動駕駛為代表的新型應用已經越來越多的使用了文件、對象、HDFS多種訪問協議,多協議互通可以避免文件的多次拷貝,有效提升文件的共享訪問效率。
  • 存儲效率:分佈式存儲需要使用大比例EC(Erasure Coding)替代傳統的副本技術,獲得更高的存儲利用率;應具備重刪、壓縮等數據縮減能力,相同硬件可存儲更多的用戶數據;應支持高密硬件,應對海量數據的空間佔用和功耗問題;應具備數據分級能力,熱、溫、冷數據可以使用不同的存儲硬件;

極致性能

分佈式存儲不以支持低時延和高IOPS為首要目標,但並不意味著性能對分佈式存儲就不重要了。IDC在《Data Age 2025》的報告中預測,實時數據佔比將逐年提升,到2025年實時數據佔比將達到30%,這麼大規模的實時數據,很大一部分是需要藉助分佈式存儲實現數據採集、存儲和分析的,這就需要分佈式存儲能夠提供極致性能來應對。

「深度觀察」數字化轉型加速,分佈式存儲迎來春天

IDC全球實時數據佔比預測

比較典型的如金融的風險評估、交通的自動駕駛、新興的AI應用,都需要從海量數據中快速獲取所需的信息並進行實時分析,這就要求存儲提供亞毫秒級的響應時延,同時以高擴展性應對高併發處理性能需求。業界主流廠商如EMC、PureStorage、華為等都推出了基於全閃存的分佈式存儲產品,通過存儲軟件、專有硬件、網絡的深度配合,來滿足上層應用的極致性能需求。

智能管理

隨著數據量的增加和存儲集群規模的增大,如何實現存儲的高效管理成為用戶面臨的一大課題。各主流廠商紛紛推出“AI in Storage”的概念,通過端到端DIF和靜默數據校驗技術保障數據的一致性;通過AI訓練實現系統性能自動優化;通過系統亞健康檢測和故障模式庫實現故障預測和故障自動解決。

提到智能管理,不可避免的還會涉及純軟件和軟硬一體的流派之爭。以Ceph為代表的開源分佈式存儲曾經以低成本的純軟部署佔領輿論的風口,但這種方式無法實現軟硬件密切配合的智能管理,也難以達到極致性能,最終用戶還是更多選擇了軟硬一體的方案,純軟件方案的代表IBM和XKY也開始大力推廣自己的軟硬件一體機方案ESS和XSCALER。

「深度觀察」數字化轉型加速,分佈式存儲迎來春天

隨著分佈式存儲越來越多進入到企業的在線生產業務,如基因測序、自動駕駛、衛星測繪等,它已不再是低成本、低可靠存儲的代名詞。遍及各行業越來越多的大規模應用表明,分佈式存儲的春天已經到來。未來,硬件+算法將成為分佈式存儲的核心競爭力,以及廠商新的角逐焦點。


分享到:


相關文章: