大數據十年回顧(2):當代理論與Google雲

在這篇文章裡,我們沿大數據發展時間線,從產品、行業、技術多角度討論其發展脈絡,究其發展承其脈絡大家可以學習、借鑑、並最終推測未來大致走向。

大數據十年回顧(2):當代理論與Google雲

大數據當代

理論

人人皆言,是 Google 最早提出了雲計算的概念。猶記得當年 Google 正值硅谷的當紅炸子雞,Google 的 CEO 乃 Eric Schmidt 老爺子,其本人在硅谷的搜索引擎大會上,首次提出了 Cloud Computing(雲計算)概念時,何等意氣風發,頗有指點江山激揚文字之意。彼時之 Google 乃最為高光之時刻,整個硅谷視之為“顛覆微軟邪惡帝國”的自由燈塔,一時間無數文人騷客為此趨之若鶩、門庭若市。但 Google 雖貴為雲計算概念所創者,似頗得雲計算之精髓,但 Google 躺在其最大的廣告現金流之上,類似於“站著就能把錢給掙回來”,似乎缺少開拓新 B 端市場的毒辣眼光,以為雲計算乃“科技幻想,當前切勿有此執念”,和中外諸多頭部互聯網一起落入俗套,紛紛為雲計算概念點贊卻本身不落地推進執行。而恰恰相反的,僅僅在 Google 高調宣稱雲計算之概念的十天之後,亞馬遜的雲服務 EC2 就向公眾開放提供試用。我一直揣測當時亞馬遜 /AWS 其本身仍然認為此業務乃傳統虛機租賃的延續,和雲計算之類高大上的科幻名詞尚有差距,自認為也不可一視同仁。但亞馬遜理論上雖未創新但在商業市場孜孜不倦推動雲計算產品、產業逐步落地。

回顧這段歷史,我們得承認彼時亞馬遜在技術領先性上和 Google 尚有差距,不能一概而論,但其市場先行、產品試探的商業做法無異於更加貼近於當前瞬息萬變、波詭雲譎的互聯網時代下的企業服務。最終,Google 首提雲計算之概念,但花落他家,亞馬遜 /AWS 在市場上率先證明了雲計算在商業市場上的可行性。對於雲計算而言,我們可以說大家(包括 Google 開始)都沒有為此真正相信過,以至於亞馬遜 /AWS 最終靠商業行動力獲得雲計算歐美市場的定義權。因為相信所以看見,為亞馬遜 /AWS 市場商業創新能力手工點贊!

暫且按下 Google 雲計算不表,早期 Google 對業界另一大貢獻即是大數據概念提出,同樣不幸,Google 在大數據領域比雲計算領域更是親力親為扮演活雷鋒的角色。雲計算中 Google 僅僅貢獻科技概念和名詞包裝,早期市場方面全靠 AWS 一家將其發揚光大,Google 早期除了貢獻這個概念本質上對於雲計算商業和市場並無特殊貢獻,相反是貢獻了“技術指導商業”往往會拖累市場發展的反例:一個純粹的技術公司承載不了雲計算的商業夢想;而大數據領域,Google 不僅是貼錢、貼人地支持大數據發展,以至於最終開源大數據社區蓬勃發展成就一方霸業,但 Google 與之 Hadoop 社區,好比一匆匆過客,呆痴痴、傻乎乎地眼見諸多理論被開源“山寨”進而被其他雲計算公司使用,毫無作為令人嘆惋。於是乎,Google 在完美地錯過了雲計算的先發優勢之後,順便再進一步丟棄了主導開源大數據理論、技術以及市場彪炳千秋之機會。

篇幅有限,在此我們僅從兩個維度切入討論 Google 的三駕馬車,同時順帶聊聊 Google 在大數據領域的先發後至,以及 Google 雲計算的思考。


大數據:退步還是進步?

討論的第一個主題就是大數據相比於數據庫在數據處理理論上是進步還是退化?筆者專門加上了一個“理論上”,因為前文已述,我等產品經理對於技術理論並無多大興趣,特別對於技術領先型,如果無法轉換為成本優勢、性能優勢、體驗優勢,此類技術之牛 X,於我不甚關心。我會直接從商業或市場上給出結論:大數據相比於數據庫是市場進步,因為他們當前更加貼近市場對於大規模數據處理的訴求。

以 MapReduce 為例(有關 MapReduce 的概念解釋,請參看下文的資料推薦,本文非技術入門科普文不討論技術原理),當年 David J. DeWitt 以及 Michael Stonebraker 有關 MapReduce 的聲討檄文仍歷歷在目。2008 年,上述兩位數據庫大拿在 databasecolumn 網站發表《MapReduce: A major step backwards》(MapReduce: 一個巨大的倒退)基本上把互聯網大數據派和數據庫派之間的爭吵推向一個高潮。任何一個稍懂數據庫以及大數據的相關從業人員,都能夠明確看到兩者之間的嚴重分歧。於數據庫人員而言:我派祖師爺數十年之心血積累,創建諸如關係模型、SQL 語言、ACID、存儲優化等等理論精髓,方才以開山立派流芳百世,爾等小屁孩一登場啥都不懂就把祖師爺數十年積累貶的一文不值,砍得七零八落,你這個不是開歷史倒車又是什麼?數據庫提了大致五點問題,擺出架勢準備為數據處理的後生小輩諄諄教導一番:

在大規模的數據密集應用的編程領域,它是一個巨大的倒退

它是一個非最優的實現,使用了蠻力而非索引

它一點也不新穎——代表了一種 25 年前已經開發得非常完善的技術

它缺乏當前 DBMS 基本都擁有的大多數特性

它和 DBMS 用戶已經依賴的所有工具都不兼容

筆者認為上面問題將 MapReduce 當前設計實現的弊端描述得恰如其分,一點不冤。看 MapReduce 論文,其核心實現基本上推翻之前數據庫幾乎所有優秀研究成果,而採用了最原始最簡單最暴力的實現方式,將就能用,但實屬不雅。在互聯網業務之局外人看來,特別在於數據庫這幫學院派人士看來,類似處理方式無異於鼠目寸光、飲鴆止渴、開歷史之倒車。但身居互聯網行業久矣,我深知互聯網行事作風:快、糙、猛。互聯網做事,能用就行,快速佔領市場,管什麼狗屁規矩。類似鄧小平先生那句名言:不管白貓黑貓,抓住老鼠就是好貓。我管你們數據庫之前如何設計精巧,今天要快速搞定我大 Google 大數據,為何不能做 trade-off。

從 MapReduce 之後,緊接著 2006 年 Google 再發大作《Bigtable: A Distributed Storage System for Structured Data》,BigTable 則是完全瞄準在線數據處理領域,講述了用於存儲和管理結構化數據的分佈式存儲系統,其建立在 GFS、MapReduce 等基礎之上。該論文啟發了後期的很多的 NoSQL 數據庫,包括 Cassandra、HBase 等。如果說 MapReduce 完全專注於離線批量大數據處理 / 計算,則 BigTable 可以說和數據庫完全在同一戰場。可以想象適時諸多計算機學院派大牛當面對 BigTable 論文時必定搖頭嘆息:孺子不可教也。之後整個大數據行業藉助 Hadoop 生態春風,蓬勃發展,至今十年有餘,催生諸多雲計算、大數據產品的市場。

在此,我想重申我的觀點,大數據是大數據時代之下系統演化結果,是更加貼近大數據場景下用戶處理數據的訴求,而非開歷史倒車。大數據、大數據,我們討論的就是一個“數據爆炸”時代下如何進行有效地大規模數據處理問題。這個問題是數據庫之前未曾遇到、也未曾解決的特定問題,這些數據可能非結構化、非關係化,可能是半結構化的 Nginx 日誌或者是用戶上傳的圖片、再或者可能是整個城市大腦的交通探頭高清視頻數據。這些數據用傳統的、狹義的關係型數據庫無法解決,因此大數據方案捨棄了數據庫模型中當前不適合上述數據處理的特性,犧牲某些功能從而換取大規模數據處理之能力。這是面向市場的、面向問題的、積極應對需求變化的技術做法,不教條也不做作。誠然,我相信大數據領域中某些領域,例如在處理關係數據事務型或者分析型場景下,可能仍然有大量數據庫理論發揮作用,甚至看上去像一個數據庫系統,如 Google Spanner;但在更大的數據處理與分析領域,我們將使用更多更分門別類的數據處理和存儲方式,這類方式完全異於傳統數據庫,例如機器學習、例如圖像識別。同時,我們可以預見,隨著整個物理世界更多地數據化(上篇我們曾經討論,凡是有利於加速信息生成、採集、傳輸、處理、反饋的技術都能夠創造市場價值),而更多的物理社會數據化(IOT)、網絡化(5G)勢必造成更加複雜多樣的數據處理需求類型,進而可以預見未來大數據處理會更加多樣化,大數據分工於數據庫系統,而接下來大數據同樣內部面臨巨大的分工:更多更垂直更定製化的大數據系統將源源不斷產生,以應對快速爆炸的數據時代。社會分工理論在此同樣具備適用性。

大數據十年回顧(2):當代理論與Google雲

Google 大數據:機遇和失誤

前文已述,Google 確實在技術和理論高度創造了”大數據“的概念,Google 無償將其技術框架理論貢獻給開源社區,整體上有效促進大數據開源社區以及周邊行業發展,以至於最終開源大數據社區蓬勃發展成就一方霸業,Google 勇氣可嘉精神可嘆。但至始至終,Google 在大數據領域除了成就其技術影響力美名之外,基本毫無所獲,遑論從雲市場大數據獲益。Google 確實起了大早趕了晚集。究其原因,大概如下:

缺少對於雲計算的重視和投入

試看當前的技術變現手段,最為直接即是雲計算領域。任何一個技術領先的技術型產品,無論 IaaS、PaaS 甚至是 SaaS 的技術型產品,放置雲上進行售賣乃變現之最快途徑。Google 早年對此市場似乎有些暈頭轉向,毫無章法,以至於錯失諸多大數據技術商業變現機會。

看最近 Google 似乎已經轉換雲市場策略,在 Google Cloud 上大量鋪開其核心產品,但可惜由於開源大數據早已成為業界標準,Google 自行一套的大數據產品體系不一定能夠討得用戶歡心。生不逢時。

缺乏對於開源社區的重視和投入

Google 以技術起家,十分重視技術影響力建設,以至於一直以來都是世界各大 IT 人員心中的技術燈塔。但從某種角度而言,技術影響力若無法變現,包括人才變現、營收變現,均是徒有虛名。Google 以三駕馬車敲開大數據大門,雖打開一嶄新行業,但概念雖新、落地很難,Google 顯然缺乏讓大數據在整個行業落地的動力和想法。同時,萬萬沒想到開源社區竟然依樣畫葫蘆”山寨“一把並最終形成 Hadoop 生態體系,並最終受眾眾多,用戶甚廣,時至今日 Hadoop 體系早已成為大數據行業事實標準,而其祖師爺 Google 未能實質獲得任何可見好處,有點像祖師爺的技術被江湖小輩盜版後發家致富,最終餓死祖師爺了。試想,如果當年 Jeff Dean 公開 MapReduce、GFS 論文同時,直接開放一套剝開 Google 內部系統依賴的完整開源軟件。以 Google 自身強大的技術號召力,開源社區絕對不敢造次、多半服從 Google 技術生態。由此 Google 基本控制了大數據生態社區,後續雲計算變現順水推舟。但,Google 錯失定義開源大數據軟件機會,一失足成千古恨。

不過,Google 何等聰明伶俐,早已洞察一切。現在的 Google,從 TensorFlow、Kubernetes、Beam 開始,在技術開放之初,發表論文之時,就順便開源一套軟件技術內核,並投入重金支持開源社區構建。對於 Google 而言,社區即標準、社區即流量、社區即商業,一切都可以導向未來的商業化變現,長線投資、長期發展;而對於開源社區,如此巨頭花重金支持生態發展,拍手稱讚何樂不為。各取所需各獲所利。


Google 雲的先發後至

前文已述 Google 在雲計算方面的創新與失誤,系列文章的下篇我們還會深入討論雲計算行業的林林總總。但此刻我們更多關注與盤點 Google 雲的失誤。Google 雲在筆者看來犯了數個錯誤,這些錯誤在聰明如 Google 看來一定早已知曉,但種種原因改變的進展遲緩,特別是相對於亞馬遜 /AWS 而言,更是顯得後知後覺:

Google 雲是服務 B 端市場的,但明顯 Google 雲似乎一直沒有意識到其主要客戶是 B 端企業。不得不承認,Google 公司圍繞消費者的 C 端產品固然強大,但 B 端產品思路以及市場策略實屬抽風。Google 一直在強調自己的雲標籤是“人工智能”,試圖通過拉入 AlphaGo 等重磅公關事件來提升用戶對於 Google 雲的認可度。AlphaGo 火了人工智能,也順便幫 Google 的 AI 能力大大 PR 了一把,但明顯這部分流量並未給 Google 雲帶來有效的轉化,倒是後邊大量雲計算廠商通過開源深度學習引擎再次“撿漏”。另外,試問人工智能能夠帶來多少計算資源消耗,人工智能又能夠提升多少雲計算客戶基數。很多情況下,在機器學習領域,一次數據 Training 足夠、使用開源軟件足夠,小公司暫時沒有能力也沒有數據進行 Training、大公司有數據但大都自行部署開源機器學習引擎自己構建機器學習平臺,何來大客戶、何來大營收?人工智能在當前整個雲計算生態以及大數據生態最多算個雲計算公司產品黏性,再不濟就只能是市場噱頭,叫好不叫座。 按照企業基因學說,天生缺 toB 基因的 Google,想在雲計算方面要靠全方位無死角地伺候 B 端客戶,試看 Google 天生自帶高貴基因,似乎難以鋪廣開來。

Google 雲計算是服務年薪百萬級的 Google 員工,而非行業普通開發者水平;服務的是數億用戶的業務規模,而非行業普通業務水平。早期大量 Google 雲產品均是服務內部的產品在雲上的“雲化版”,這類系統天生有個悖論,論穩定性、論成熟性、論領先性,這類系統絕對無出其右,但高射炮打蚊子,各位看官可要清楚 Google 雲平臺面對的企業內部員工可是年薪百萬級別起的軟件工程師,試問這類工程師其專業水平可是整個行業平均水平?Google 雲平臺服務的是 Google 內部業務技術開發水平,這些業務方動輒數億用戶、動輒 PB 數據、動輒數百人團隊,試問這類業務規模可是整個行業平均規模?Google 雲拿一個超越於當前年代的產品,試圖讓用戶搬雲遷站,其改造成本有多高? 其維護成本有多高?有多少用戶願意使用類似產品,或者接受如此改造?常言道,步子邁大了容易扯著 X,話糙理不糙。

尊重市場是任何一家商業化公司活下來的最高法則。但令人嘖嘖稱奇的是,諸如強大如 Google、聰明如 Google 仍然在不停犯類似錯誤。例如,不可能因為 Google 內部廣泛採用 BigTable 因此就要在雲上勸說用戶放棄使用 Mysql 轉而投入使用 BigTable。人人皆知從一個關係型數據庫遷移到 NoSQL 數據庫的改造難度,勢必極大增加用戶改造上雲成本。我們一定是要讓用戶遷雲過程中進行全面的代碼改造再行上雲,還是先將客戶收入囊中循循善誘、徐徐圖之。這個是技術導向和市場導向兩類不同思路,麻煩就在大量雲計算公司往往有技術導向的可能性以及傾向性。當前,整個雲計算市場在燒錢爭搶市場的階段,猶如當年快的與滴滴燒錢培養用戶打車習慣的階段,流量為王、用戶基數為王、最大規模佔據市場份額為王。任何成功商業模式均需建立在龐大的市場規模之上,無規模不商業,當用戶基數一到、資源消耗一到,後續任何的服務增值、利潤打造、雲市場買賣平臺構建均基於此可以做長線演化。但用戶基數是 0 到 1 的問題,此問題不解何來討論商業模式?

Google 雲在今年四月適才剛剛舉辦了 Google Cloud NEXT 2019,InfoQ 隨即給出了一個忍俊不禁的報道《谷歌 Cloud NEXT 重磅盤點:終於想起雲做的是 ToB 生意》,看得出來諸位 IT 同仁對於之前 Google 雲的評價。

大數據十年回顧(2):當代理論與Google雲

附錄:https://www.leiphone.com/news/201901/gLVJGxFuKtGfxwJ6.html

https://darkhouse.com.cn/blog/2


分享到:


相關文章: