「Hadoop大數據」Hadoop架構的人氣下滑原因有哪些?

Hadoop架構的人氣在下滑,這可能歸咎於幾個不同的因素,尤其是機器學習的興起。

過去這幾年,HDFS的使用量一直在下降,這種基於Java的文件系統已幾乎成為所謂的大數據革命的代名詞。這主要歸因於市場對Hadoop普遍缺乏興趣。但是導致Hadoop被大規模拋棄的Hadoop架構方面又如何呢?要知道,就在不久前Hadoop還大有希望。


「Hadoop大數據」Hadoop架構的人氣下滑原因有哪些?


坦率地說,Hadoop走下坡路似乎找不到一個最根本的理由。相反,Hadoop架構人氣下滑可能歸咎於幾個不同的因素。

一些IT專業人員對於自己無法在Hadoop集群上執行任何有意義的數據分析頗為沮喪。一種常見的觀點是,Hadoop非常適合存儲大量數據,但是對於需要最終用戶可以直接處理這些數據的那些企業來說,它又往往不是最佳解決方案。

幾家供應商已經開發了SQL on Hadoop解決方案,讓客戶可以針對駐留在Hadoop上的數據運行SQL查詢。即便如此,這些工具也不是天生一模一樣,每家SQL on Hadoop供應商都似乎為特定的使用場合設計其工具。不難想象眾多企業組織痛苦地發現:它們購買的SQL on Hadoop引擎其實並不是很適合自己的大數據項目。

​不僅僅是很難讓Hadoop完成企業組織需要它完成的任務這個因素導致Hadoop的使用量減少。導致Hadoop日漸式微的偶爾提到的另一個原因是,Hadoop與目前的IT趨勢不相合拍。

大數據革命似乎在一夜之間就立穩了腳跟;大數據蔚然成風時,Hadoop完全準備好了響應號召。畢竟,據Hortonworks聲稱,HDFS文件系統“已表明了它具有在生產環境下支持200 PB存儲的可擴展性”,而4500臺服務器組成的單單一個集群就能支持“近10億個文件和塊”。很顯然,HDFS處理得了大數據。

可問題是,大數據潮流似乎已翻篇了。儘管IT部門仍然在搞可能歸屬大數據這個大類的項目,但這個術語用得越來越少。相反,當下的IT潮流似乎是機器學習;當然,Hadoop並不直接支持機器學習。市面上有一些第三方工具(比如Apache Mahout)能夠做到讓Hadoop支持機器學習,但可能數量太少、動作太晚。

然而,Hadoop使用量下降的最大原因可能是亞馬遜AWS和微軟Azure等IaaS雲日漸成熟。公共雲對於企業組織遠離Hadoop起到了重要的作用,這出於幾個不同的原因。

第一個原因是純粹的感知或看法。我們生活在一個雲優先的世界。公共雲提供商在說服人們相信在雲端運行工作負載比在本地運行同樣那些工作負載要省錢得多這方面做得很到位。

另外,外頭往往認為繼續在本地環境部署新工作負載的企業多少落後於時代。

公共雲提供商慢慢促使Hadoop衰落的第二個原因是,雲提供商實際上構建了一個更管用的捕鼠器。雖然值得一提的是,亞馬遜確實通過亞馬遜EMR支持Hadoop和Spark,但對於需要大數據分析功能的企業組織而言,EMR並非亞馬遜的唯一解決方案。亞馬遜還提供Athena和Elasticsearch,前者可用於分析存儲在亞馬遜S3中PB級的數據,後者支持PB級的日誌分析、文本搜索和應用程序監控功能。


分享到:


相關文章: