大數據獨角獸Databricks憑什麼估值280億美元?

大數據獨角獸Databricks憑什麼估值280億美元?

2021年是大數據開源項目Hadoop的第15年以及Spark的第12年。此前已經出現了不少基於Hadoop的大數據獨角獸,例如Hortonworks和Cloudera。不過,這些基於Hadoop的大數據獨角獸們並未實現業界的期待,幾家上市公司均出現了大幅業績下滑,2018年Hortonworks和Cloudera宣佈合併,抱團取暖。

2021年2月,由Apache Spark初始成員創立的大數據初創公司Databricks宣佈已完成 10 億美元G輪融資,公司估值高達280億美元。2019年10月,Databricks完成F輪融資時,估值為62億美元,一年後公司估值即飆升近5倍。而Databricks的G輪投資機構中有AWS、Salesforce的風險投資基金Salesforce Ventures、谷歌母公司的風險投資公司Capital G等以及參加過早前投資的微軟等多家投資方。

Databricks受到追捧,與其產品和技術的關係密不可分。從根本上來說,Spark與Hadoop本是相互依存關係——Hadoop為分佈式大數據存儲技術,而Spark是對存儲的分佈式大數據進行處理的技術或者說是面向大數據處理的統一分析引擎。Spark開源技術棧中提供了Spark SQL結構化數據處理、Spark Streaming實時計算、MLlib機器學習庫、GraphX圖形計算等組件,其中Spark SQL可直接查詢Hive、HBase等外部數據源中的數據、MLlib是一個大名鼎鼎的開源機器學習庫、GraphX更是著名的分佈式圖處理框架。

簡單理解,Hadoop並不能挖掘和發揮大數據的價值,而Spark則是具備完整技術生態的統一分析引擎,同時Spark支持基於Hadoop Yarn、Apache Mesos以及時下最流行的Kubernetes等集群管理器,可運行在廣泛的計算平臺上,以及部署在企業內部或在公有云之上。簡單理解,Spark解決了Hadoop生態分裂的問題,通過統一數據分析平臺讓大數據分析變得簡單。Apache Spark官網對Spark的一句話介紹,即為“光速般的統一分析引擎”。

Databricks誕生於2013年,創始人來自Apache Spark的創始團隊,包括加州大學伯克利分校的專家學者。Databricks以Apache Spark開源技術為基礎,創建了一系列蓬勃發展的開源項目,包括Delta Lake、MLflow、Koalas等。截止2020年底,Databricks已經建立了一家擁有1500多名員工的公司,為數千個數據團隊提供數據分析、數據工程、數據科學和人工智能方面的幫助。

2020年初,Databricks發表了一篇博客文章,分析了一直觀察到的一個趨勢:向Lakehouse架構(湖倉一體,即數據湖技術與數據倉庫技術結合為一體)邁進。該體系結構基於開放架構,把構建在低成本雲對象存儲之上的數據湖的靈活性與 ACID 事務、數據模式(Schema)強制執行和數據倉庫相關的性能結合起來。2019年,Databricks推出了Lakehouse的關鍵開源技術Delta Lake;2020年6月,Databricks宣佈收購以色列初創公司Redash並基於其技術推出了Lakehouse關鍵開源技術Delta Engine。2020年,Delta Lake、Apache Spark和Databricks統一分析平臺的進步,不斷提高了Lakehouse架構的功能和性能。

大數據獨角獸Databricks憑什麼估值280億美元?

(湖倉一體的技術優勢)

湖倉一體,簡單理解就是把面向企業的數據倉庫技術與低廉的數據湖存儲技術相結合。數據湖主要是公有云上提供的一種海量的結構化與非結構化數據的存儲技術,而數據倉庫主要是關係型數據的結構化數據存儲與分析技術。兩種技術各有其優缺點,當下企業往往分別建數據湖與數據倉庫,而如果能夠二者合一則可以同時獲得兩種技術的優點。當然,湖倉一體技術本身並不簡單,整個2020年Databricks都在填補Lakehouse的技術空白。

2020年底,Gartner發佈了雲數據庫管理系統的魔力象限(MQ),Databricks進入了遠見者象限,這也是Databricks首次被納入與數據庫相關的Gartner魔力象限中。

大數據獨角獸Databricks憑什麼估值280億美元?

Databricks對Lakehouse架構的追求,通過一種新的系統設計,直接在雲數據湖的靈活、低成本存儲上實現了與數據倉庫類似的數據結構和數據管理功能。通過將兩種體系結構的優點結合在一起,企業可以在同一平臺上同時運行傳統分析和數據科學/ML工作負載。這大幅減少了在數據湖和下游數據倉庫之間不斷移動數據的複雜數據操作,而且還消除了數據孤島,讓數據團隊就可以在一個真實的數據源上進行操作。

Databricks的統一數據分析平臺最大的優勢在於能夠在一個地方大規模地運行數據處理和機器學習工作負載。Databricks在2020年歐洲數據+AI峰會上宣佈推出SQL Analytics,大幅擴展了數據管理和分析能力。SQL Analytics為Databricks客戶提供了一流的體驗,可以直接在數據湖上執行BI和SQL工作負載。該服務讓數據分析師可以使用熟悉的BI工具查詢數據湖和提高查詢性能。Databricks表示,其技術可以為分析工作負載提供比傳統雲數據倉庫高出9倍的性價比。

Databricks還創建了MLflow,這是一個開源的機器學習平臺,可以讓團隊可靠地構建和生產ML機器學習應用程序。Databricks表示,隨著每月超過250萬次的下載,來自100個組織的200個貢獻者以及4倍的同比增長,MLflow 已經成為最廣泛使用的開源機器學習平臺,這個平臺可以跨不同的機器學習庫、語言、雲和本地環境。如今,MLflow構成了Databricks機器學習工作流能力的基礎,以幫助確保客戶能夠獲得最開放和最靈活的工具集。

2020年,Databricks還入選了Gartner的2020年《數據科學和機器學習平臺魔力象限》,並進入了領導者象限。

大數據獨角獸Databricks憑什麼估值280億美元?

Databricks是僅有幾家同時被納入兩份Gartner魔力象限報告(雲數據庫管理系統與數據科學和機器學習)的廠商之一,也是唯一一家通過統一平臺實現這一目標的廠商。Databricks讓客戶可以通過一個簡單、開放的分析、數據科學和機器學習平臺,更好、更快地利用數據來推動創新,這個平臺將團隊、流程和技術結合在一起。

除了在技術上不斷推進統一分析平臺外,Databricks與微軟和AWS的緊密合作是推高其估值的重要原因,特別是與微軟的合作。Databricks和微軟合作創建Azure Databricks始於約4年前,在此期間Azure Databricks與Azure Synapse等其它Azure服務一起發展。建立在雲存儲上的數據湖,並不能原生地提供分析所需的所有類似數據庫的功能,而如今Azure數據湖存儲(ADLS)與Delta Lake相結合,Databricks、Synapse和Power BI等關鍵分析服務已經就緒,可以在讓企業在一個地方利用數據應對BI、數據科學和數據工程的各種分析場景。

Azure Databricks通過高效的協作平臺和代碼優先的數據管道為數據工程師和數據科學家提供支持;Azure Synapse 為低延遲、高併發的 BI 提供了高性能的數據倉儲,並與無代碼/低代碼開發集成在一起。兩者都讓分析師可以直接在數據湖中使用最常見的數據語法SQL進行分析,這極大提升了Azure的用戶體驗。

總的來說,Databricks是一個統一分析平臺,同時與微軟Azure的第一方合作為其提供了廣闊的市場,而與AWS的緊密合作也為Databricks提供了豐富的客戶源。大數據+統一分析+AI+雲存儲+開源+微軟Azure/AWS,這就是Databricks高估值的成功公式。(文/寧川)


分享到:


相關文章: