Hadoop變局

Hadoop变局

在開源已經逐漸成為一種政治正確的時候,開源項目最終會走向哪裡?

Hadoop变局

當行業排名前兩位的企業選擇合併,往往意味著壟斷巨頭的出現和某種模式下市場競爭的告一段落。

不久前,Cloudera和Hortonworks的宣佈合併,讓大數據領域的競爭也變得撲朔迷離。兩家上市公司為什麼要合併?對Hadoop這又意味著什麼?都是值得思考的問題。

Hadoop变局

Hadoop的商業化

Hadoop幾乎可以算作大數據的代名詞,隨著開源技術的被廣泛使用,Hadoop已經成為事實上的大數據標準。十幾年前,企業數據還普遍是在數據倉庫中處理,使用Oracle、SAP、IBM等數據相關軟件,但隨著互聯網的發展,數據類型的多樣化,對海量結構化、半結構化數據以及流式數據的處理需求,都成為了舊式商業軟件的瓶頸。

2003年,Google Lab開發了Map/Reduce 和 Google File System(GFS),在兩年後的秋天,Hadoop由 Apache Software Foundation 公司作為Lucene的子項目Nutch的一部分正式引入。這一能夠對大量數據進行分佈式處理的軟件框架正式出現 ,給大數據軟件市場帶來了新的機會。2006 年 3 月,Map/Reduce 和 Nutch Distributed File System (NDFS) 分別被納入Hadoop 的項目中。

對於數量巨大但單條數據價值較低的數據類型,比如輿情數據,在傳統的數據倉庫中進行分析的性價比較低,遠不如在基於Hadoop的平臺上更能體現價值。因此在互聯網領域,Hadoop得到了普遍的應用,比如Facebook、百度、雅虎,都使用Hadoop技術進行數據處理等工作。作為一項開源技術,雖然可以免費下載,但Hadoop本身卻很複雜,對許多有大數據處理需求的公司來說,讓IT部門基於Hadoop進行開發的成本太高,難度也太大。因此,如Cloudera和Hortonworks這樣的創業公司出現了。

Cloudera成立於2008年,在2009年,Cloudera發行了第一個Hadoop集成版本——CDH。CDH產品包括企業版和開源版,在企業版中,包含管理組件Cloudera Manager,這個組件是閉源的,可以對計算機集群進行管理、部署、升級,監控,提供包括數據管理、數據追溯、安全性保障和多雲架構管理等功能,在3個月的試用期後,需按照部署節點的數目按月交費,這也是Cloudera的主要盈利模式。

而Hortonworks是從雅虎Hadoop團隊剝離成立的創業公司,不同於Cloudera,Hortonworks的軟件是完全開源的,通過技術支持來盈利。另外還有一家MapR,這三家公司也常被稱作是Hadoop的三大發行商。

Hadoop变局

將開源軟件商業化的價值在哪裡?Cloudera大中華區的技術總監劉隸放曾對此解釋:“開源並不意味著免費”。對一些技術實力相對較弱的企業,如金融、電信、製造業等行業,將帶來大量的IT開發成本。在這個過程中,由於軟件被不斷髮現BUG,以及需要針對企業情況去修改和打補丁,每當開源項目向下一個版本躍進時,所有的補丁都要在新版本上進行驗證,會帶來非常大的工程化難題,造成積重難返甚至無法更新只能停在舊版本上的窘迫——而有的開發誤判了開源項目的生命週期,甚至會出現開源項目中止的尷尬。

而除了促進Hadoop的易用化之外,Cloudera和Hortonworks的價值還體現在版本演進中,尤其是Cloudera,CDH版本中26個項目有18個是由Cloudera發起或研發的,佔據了商業版平臺的50%,在下載平臺上,甚至超過了60%,是主流的開源版本。這意味著Cloudera在開源社區裡有足夠的話語權,讓產品受益於開源社區的創新力而又不會失去控制。

也因為如此,市場對Cloudera以及緊隨其後的Hortonworks都報以期待,2014年Hortonworks成功上市,而同年Cloudera則獲得了來自英特爾7.4億美元的投資,估值高達41億美元,成為大數據公司中最耀眼的獨角獸。

合併前後

對於這一輪技術革命帶來的商業演進,我們習慣稱之為“ABC”時代,然後相對於A(人工智能)和C(雲計算),前者湧現了大量的獨角獸企業,並在應用上呈現了遍地開花的景象,後者已經實際上出現了諸如亞馬遜等的雲計算巨頭。而以Cloudera等為代表的大數據公司,卻顯得有些乏力。

無論是Cloudera還是Hortonworks,,都處於持續的虧損之中,盈利水平的不足體現在其財報和股價上。Hortonworks上市之初股價曾一度接近30美元,但之後一直在15美元下的地點徘徊;而Cloudera提交IPO申請時的估值和3年前接受英特爾投資時的估值一樣都是41億美元,今年上半年時,由於對2019年收入的預測低於市場預期,其股價一度下跌超過28%,目前市值18.62億美元。

造成這一現象的原因很多,首先是Cloudera與Hortonworks等公司的競爭,但競爭並不侷限於Hadoop領域。比起Hortonworks和MapR,處於領頭位置的Cloudera更希望與Oracle、SAP等軟件公司對比。但開源軟件的商用化,意味著需要在研發上投入大量的成本,以滿足大型企業的需要,而在實際銷售中,由於大企業對穩定性、業務連續性等的考慮,對比傳統企業軟件並不一定會佔到優勢。

另一方面,是來自雲計算公司的跨界挑戰。雲計算的發展將越來越多的企業囊括其中,並催生了亞馬遜AWS等巨頭,而他們本身也會提供託管的Hadoop/Spark服務,如AWS的Elastic Map Reduce(EMR),不僅集成在雲平臺內部而且成本也更低。而對象存儲服務,如AWS S3,Azure Blob存儲和Google雲端存儲,從成本上來說,也低於Hadoop的存儲成本。

Hadoop变局

在2017年的一次採訪中,Cloudera零售、製造及物聯網行業的行業專家Dave Shuman曾表示,Cloudera與雲計算公司並非競爭關係,而是合作伙伴關係,重視數據資產的大型企業依舊需要Cloudera的產品。

與此同時,Cloudera也一直致力於向雲計算轉型,目前在公有云領域,Cloudera已經可以在AWS等雲平臺上做到存儲對象分離;在私有云領域,也可以支持基於OpenStack和VMvare的私有云平臺,以及混合雲的部署。

然而來自雲計算公司的競爭壓力依舊客觀存在,實際上,今年8月份數據庫製造商 Redis Labs 將開發的Redis 模塊的開源協議的授權方式變更,矛頭便指向了藉助開源獲利的雲計算公司。

在今年的10月初,Cloudera和Hortoworks宣佈全股票對等合併,其中Cloudera的股東擁有60%股權,Hortonworks的股東擁有40%的股權。在Hadoop的領域,這意味著“強強聯手”,而在大數據領域,則更像是“抱團取暖”。但毫無疑問,這至少可以幫助兩家企業結束近十年的競爭,並且依靠壟斷地位早日擺脫長期虧損的窘狀。受此消息影響,兩家公司都隨後大漲,據2018年10月2日收盤價計算,兩家公司的總股價達為52億美元。

合併後的兩家公司擁有超過2500名客戶,年收入將達到7.2億美元,降低1.25億美元成本,並有超過5億美元的現金。在技術上,兩家公司也可以進行互補,不過由於雙方存在很多重合的業務,意味著將在組織架構和產品結構上進行整合(主要是Cloudera的CDH和Hortonworks的HDP兩條產品線的合併問題),不過他們也承諾,在3年內會繼續提供兩家公司的服務,考慮到Cloudera的產品訂期為1年和3年,這基本可以保證用戶的權益。而新的公司也會在發佈新的統一版本的產品。

目前有關合並的細節還有許多在挑戰中,不過原Cloudera的CEO Thomas Reilly,也是新公司的CEO對此十分看好,表示新的公司將成為行業領導者,為客戶提供更好的平臺,創建世界首個企業數據雲,並將在雲計算、物聯網和容器技術等領域繼續發力。

而從第三方的角度來看,這無疑會影響整個Hadoop的生態,開源大數據目前已經成為互聯網企業的基礎設施,兩家公司合併後,意味著Hadoop的標準將更加統一,長期來看新公司的盈利能力也將大幅提升,並將更多的資源用於新技術的投入。

對此,“三駕馬車”中的MapR曾表示“兩個錯誤也不會導致一個正確”,但從體量和級別上來看,新公司將基本代表Hadoop社區,其他同類型企業將很難與之競爭。而新公司未來也可能會面對和雲計算公司更直接的競爭,或者如Redhat一樣被巨頭收購,這些猜測都要等待新公司重組的進一步塵埃落定了。

作者 | 李昊原

本文選自《IT經理世界》雜誌2018年 12 月 5 號刊 特寫 欄目,更多精彩內容歡迎訂閱紙質版雜誌!現在訂閱即可享受八折包郵優惠!郵發代號:1-28,購買地址:

http://ceocio.taobao.com(店鋪:IT經理世界雜誌商城)或http://buy.ceocio.com.cn(雜誌網上商城)


分享到:


相關文章: