沒有馬雲的第一次“光明頂”決戰

沒有馬雲的第一次“光明頂”決戰


1



馬雲愛金庸。

2018年10月金庸駕鶴西去後,他深情悼念:若無先生,不知是否會有阿里。

故而,阿里有濃濃的江湖氣。員工入職須取花名,就連會議室的名字也都是滿滿的武俠套路,其中就有一個“光明頂”。

這個會議室位於阿里西溪園區1號樓7樓,屋內有一塊碩大的屏幕,實時播報阿里各項核心數據,屬於絕密之地。

每逢雙11,“光明頂”就被徵用為臨時作戰中心。整個阿里大約11萬人,能有資格入內者不足200人。

2

2019年的雙11頗不尋常。

這是張勇接棒後的第一屆雙11。儘管他11年前“發明”了雙11這個神奇的物種,但今夕不同往日,阿里太矚目了,他已經完全站在了聚光燈下,舉手投足都會被無限放大。

如,11月4日,王興在飯否上發文,“你這一招已經用老了”,逍遙子聞言不禁一怔,十年了,第一次有人敢這麼說他的“不老長春功”。他忍不住仔細打量起這個骨骼清奇的黃姓少年。

明眼人一看就知道神馬意思。

逍遙子,自然指張勇,他在阿里花名正是“逍遙子”。

黃姓少年,顯然指黃崢。

因為阿里和美團的那點陳年往事(簡述即:阿里先是美團的恩客,曾如膠似漆。後來美團不想只交阿里,還想雙宿騰訊,阿里怒退,祭出口碑和餓了麼,樑子結下),王興就變成了祥林嫂,逮到機會就出來噁心阿里一把。

7個月前,王興在朋友圈寫道,接下來幾年淘寶、天貓主要對手是拼多多,若蔣凡能夠帶領淘寶打贏拼多多黃崢,則“無愧”成為阿里CEO接班人,如果他有興趣幹這活的話。

這幾句話蠻有心計。一方面,把蔣凡架在火上烤,大廠接班人話題向來敏感;另一方面,挑唆阿里與拼多多纏鬥,無暇顧及本地生活服務戰場。

吃瓜群眾看熱鬧不嫌事大 ,但肯定有一個人不高興。那就是京東少帥徐雷。王興明顯看不起人嘛 。

無論劇本將來怎麼寫。2019年雙11是中國電商領域三個80後的第一次正面鬥法。

蔣凡,阿里最年輕合夥人,淘寶總裁兼天貓總裁,首次接受雙11大考。

徐雷,京東的臺柱子,大強子折戟明尼蘇達後,他帶領京東商城艱難走出泥沼。

黃崢,3年就把拼多多折騰上市,但山寨不能繼續說服華爾街,現正從五環外往五環內廝殺。

誰都不容有失。

蔣凡最難,左舉天貓戰京東,右擎聚划算狙拼多多。

3

雙11。

無論你是投入,還是旁觀,抑或反感,它都已經成為一種社會現象——全球最多人數參與的消費主義狂歡。

《消費社會》的作者鮑德里亞 (Jean Baudrillard) 認為消費構成當下社會的內在邏輯,包括:商品消費面前人人平等;消費不僅僅體現在物質文化上,更體現在文化含義上,消費體現個人身份;消費的不是商品和服務的使用價值,而是它們的符號象徵意義。

按照文化研究觀點,消費主義被視為是一種獲得愉悅的活動形式。

在挖掘內需無比重要的當下,阿里已經把雙11之夜辦成了一場堪比春晚的盛會,群星璀璨。不出意料,今年雙11的成交額肯定再創記錄。

數百萬品牌參與,上下游則是牽動了千萬級企業。沒有任何一個商業行為會如此興師動眾。那這背後究竟靠什麼在支撐?

4

每年,為了應對“雙11”,阿里都會成立集團技術大促小分隊,由集團各個BU的上千名工程師組成,並且任命技術團部以及大隊長。

今年的團長是平疇,他才來阿里四個月,負責新零售技術事業群淘系技術部,他原來是愛奇藝CTO。

平疇在中國科技大學獲得計算機博士學位,先後供職於英特爾、谷歌,也許是因為競業限制條款,加盟阿里後,沒有協同阿里副總裁、大文娛事業群CTO兼優酷CEO南天。

有意思的是,南天之前是淘寶資深技術總監,2011年開始連續三年擔任天貓雙11技術負責人。

平疇下面有四個大隊長。

霜波,新零售技術事業群技術質量部負責人,連續四年擔任雙11技術大隊長,她是東南大學計算機研究生,專攻軟件測試,後又去美國的林肯大學讀博。2008年入職阿里,現在是阿里女工程師的旗幟。

道延,新零售技術事業群安全生產負責人。(抱歉,這人太低調了,資料不詳)

叔同,阿里云云原生應用平臺負責人,2010年加入淘寶網,9次參與雙11作戰,雙11穩定性負責人。

四虎,新零售技術事業群營銷平臺負責人。他高中時候買過一雙皮鞋,沒走到家就破了,痛恨假貨。後來在UT斯達康工作時,知道了淘寶,還能寫評價,覺得這才是未來,於是降薪加入阿里。

再往下,49個BU分別有隊長和副隊長。

架構宛如金字塔,團長及大隊長們一聲令下,任務層層分解,如臂使指。

5

2019年11月10日上午9時,阿里“技術天團”陸續進入“光明頂”,如臨大敵。

因為這是阿里核心系統全棧上雲後的第一次雙11。

說人話就是:阿里把所有核心業務全部搬到阿里雲上了。

馬雲曾說,到2036年,阿里要成為全球第五大經濟體。儘管還有17年,但現在阿里市值接近5000億美金,偌大的體量全部運行在公共雲上,商業史上還是頭一遭。

只能感嘆:張勇真是膽大,張建鋒真是對阿里雲迷之自信。

張建鋒,花名行癲,阿里CTO兼阿里雲總裁。2019年春節剛過,他召集各個條線的技術大佬們開會,提出:“從此刻開始,全集團不再購進一臺物理機,所有新增計算力全部上阿里雲”。

不接受反駁。

歷史如此相似。2010年,時任阿里CTO王堅宣佈:“從今年開始,淘寶不再採購小型機”。

同樣不接受反駁。就此拉開了阿里”去IOE“的大幕。

兩句話,兩代阿里雲的掌舵者完成了隔空技術大會師。

王堅現在是阿里技術委員會主席。據行業媒體報道,2019年中國工程院院士增選名單已經出爐,尚等最後公示,王堅名列其中。

作為人工智能領域和企業界入選者,他PK掉李彥宏、王海峰(百度CTO)、沈向洋(微軟全球執行副總裁)、楊強(微眾銀行首席人工智能官)等技術大牛,阿里雲“飛天”操作系統是加分項。

關於“飛天”的故事已經太多。

概而言之如下:

伴隨淘寶業務的飆升,對小型機(IBM)、數據庫(甲骨文)以及存儲設備(EMC)的採購需求也在飆升,按照這個速度計算,阿里會破產,因為採購費驚人。

小型機(IBM)、數據庫(甲骨文)以及存儲設備(EMC)合稱“IOE”,是此前IT業的標準架構。

王堅反其道而行之,帶領阿里工程師們“去IOE”,辦法就是研發“飛天”,把全球數百萬臺計算機連成一臺超級計算機,方便用戶隨時隨地調用算力。

阿里雲完全是從頭造輪子,走了許多彎路。王堅及其團隊在阿里內外屢遭嘲諷,磨難重重。2013年,阿里終於完成了“去IOE”。

“飛天”是中國唯一自主研發的計算引擎,是全球集群規模最大的計算平臺,最大可擴展至10萬臺計算集群。

但云計算的底層技術是“虛擬化”,有一個“原罪”,那就是,經過虛擬化技術提供的算力是“打折”的。

“必須想辦法把損耗降到0。”2016年雙11的覆盤大會上,張建鋒點了旭卿的將。

旭卿,阿里雲彈性計算技術負責人,他拉上阿里雲副總裁李津一起“腦暴”。

李津,2012年雙11一戰成名。那年雙11經歷過“黑色一小時”,“光明頂”裡某個人突然大喊自己下不了單,場面開始慌亂。技術團隊最擔心繫統出現正向雪崩,整個交易鏈條崩潰。最先反應過來的人是李津,在一片驚恐中他拍案而起,讓大家都別慌,交易和支付還在發生,任何人不許動。

作為“老司機”,這次李津又想出了一個軟硬結合的方案。

以往解決路線都是讓虛擬化軟件去遷就CPU,而阿里雲打算新造出一個帶有智能芯片的專用板卡負責虛擬化調度,把CPU解放出來。

2017年10月12日,杭州雲棲大會。阿里雲發佈神龍雲服務器,並且可以提供現貨。

神龍雲服務器,解決了虛擬化技術算力損耗的問題。

飛天+神龍,讓上雲沒有障礙。

6

阿里雲對外聲稱,中國有84%的企業有意願要上雲。

有意願不等於既成事實。信心比金子還寶貴。

怎麼才能增加中國企業的信心?

把阿里的核心繫統都搬上雲!在中國,還沒有一家企業的業務複雜度能超過阿里,如果阿里能安全平穩地在雲上跑起來,其它企業自然不在話下。

那怎麼才算證明阿里上雲成功?

通過雙11大考。

雲計算從誕生之初就被認為是新型的數字基礎設施,需要在任何情況下實現不間斷的穩定服務。雙11無疑就是最好的試驗場。

雙11的核心交易系統和導購鏈路極其複雜,涉及到上千個應用,尤其是雙11零點時刻,如果阿里全棧上雲後,能扛住洪峰一般湧來的流量,足以說明阿里雲沒毛病。

於是,全棧上雲,被定為阿里2019年的超級工程。

7

2019年1月29日,春節將近。

阿里西溪園區顯眼處的一塊LED屏上打出一行字:“阿里巴巴經濟體全站雲化第一站倒計時140天”。

衝鋒的號角吹響。

一張照片記錄下當時的情景,張建鋒和一眾高管站在前排,一面武俠風十足的軍令狀展開在他們面前。

破釜沉舟,方能全力一搏。2019年4月,阿里發佈了一條新的決定:集團上雲,全部採用神龍雲服務器架構。

“都在雲上了,ALL IN CLOUD了,你就沒有任何退路。”躍元說,他是今年雙11阿里雲技術隊長。

這個小夥子蠻有意思。還在讀大三時,就被大唐電信簽下,兩年後又被華為挖走。2014年,愛立信向他發出邀請,他卻架不住朋友勸說,進入阿里雲。

他形容雙11就像一個奧運會,自己則是場館建設的“包工頭”和活動期間的“技術總指揮”,“我們得把各種場館修建起來,能容納那麼多的人去看比賽,這個場館你還得負責維護,入口、門禁、設計、看臺的數量和承重,每一套設施都得建設和維護。”

阿里全面雲化的第一站是618大促。

“當時是完成50%上雲,我們準備了2分鐘逃逸的預案。”霜波說。

一切正常。

接下來是9.9划算節,阿里電商的核心業務100%實現雲化,結果風平浪靜。

8

但雙11的體量絕非618和99可比擬。

2019年10月上旬,霜波向張勇彙報雙11的籌備情況和技術方案。

“技術風險太大了。”張勇說,他提出了一個“瘋狂”的想法——製造技術故障,“突襲”工程師們,考驗他們的應急保障能力。

行動高度保密,知曉人數不超過15人。

第一次突襲發生在10月19日凌晨一點多。在峰值流量壓測的同時,阿里雲資深技術專家萬誼平帶著七八個工程師下手非常“狠”,除了掛掉讀寫的服務器之外,還同時讓張北數據中心的四個高效雲盤之一直接宕機。

參與雙11保障的上千名工程師全都矇在鼓裡,淘寶交易立即下跌了35%。突襲暴露出很多協同的問題

接下來又來了兩輪突襲。最後一次是11月2日凌晨1點50分,距離雙11僅10天,

“臥槽!”

100臺神龍服務器集體宕機了。

阿里雲資深技術專家楊航嚇傻了。作為神龍團隊的技術骨幹,他深知,如果阿里是一駕飛機,神龍服務器就好比引擎。神龍服務器宕機,就是全局性的毀滅。

按照既定預案開始排查,2分鐘後,他提到嗓子眼的心終於放了下去,“是系統誤報,神龍沒有問題!”

所有的捶打,都是為了等待那個不眠之夜。

9

“還有15分鐘!”

2019年11月10日23點45分,“光明頂”,霜波發出提醒,現場立刻安靜下來。

今年“技術天團”中新增了一張面孔。他就是賈揚清,在圈內人眼中,他是神一樣的人物。

他經常給美國同學講,在中國不需要帶現金和信用卡出門,一個手機就夠了。

美國同學就會問,手機沒有電了怎麼辦?

他說,有共享充電寶啊。

賈揚清說這個故事就是產業。他2009年出國,那時還沒有雙11,2019年回國,中國已經發生了翻天覆地變化。

這次雙11,他第一次下單搶購,也是第一次親身參與雙11的工作,他的團隊為雙11做了三件事:解決離線計算和在線計算的動態調配問題、流計算的問題,以及交互式查詢的問題。

最讓他興奮的是,雙11讓阿里擰成一股繩子,辦成了一個盛會。“雙11是產業的勝利,絕無僅有。“

大神興奮,那是因為頭一遭。

可對於“技術天團”的“老司機”們而言,心情則是完全不同。每年雙11前,他們都有紓解壓力的規定動作,最常見的兩種方式是拜佛和去西湖邊散步。

11月8日,霜波就帶領團隊去永福寺燒香。

11月10日上午10點,螞蟻金服的工程師們則是捧著關公像,一路走到“光明頂”。

窗外,園區燈火璀璨,媒體雲集,“定勝鼓”間隔響起。

屋內,鍵盤的敲擊聲如大珠小珠落玉盤。

霜波的視線一直沒離開數據大屏。

“目前,各項數據指標正常!”

“還有5分鐘”

“還有1分鐘”

她面色沉穩,語氣平緩。

10

零點一到,流量洪峰以肉眼可見的速度暴漲。

數億人同時點擊按鈕,移動設備信號光速飛向最近的信號基站。它們在居民樓旁邊,在山上,在道路旁,在荒野中,甚至在雪山之巔。之後一串經過解析後的指令到達阿里的某一臺神龍服務器上,它可能藏在千島湖的水底。再經過了幾千公里的傳輸後,最終到達了零下10度的阿里張北數據中心。

在數據中心,這些請求開始在此前設置好的庫存、會員、營銷、支付等應用間歷險。經過一系列解析運算後它們又從原路返回,最終回到了數億人的終端設備上。

一起超級事件就這樣在二進制世界發生了,在不到一秒內,交易鏈路在雲上發生了。它充滿了陷阱,卻又驚心動魄。

11



1分36秒,成交額100億!

2019年天貓雙11訂單創建峰值又創紀錄,達到54.4萬筆/秒,是2009年第一次雙11的1360倍。

“技術天團”沒有絲毫歡欣。“光明頂”內度秒如年。

13分鐘後,霜波通過連線,告知守候在“光明頂”外部同事,平穩度過峰值。

阿里對外宣佈,其核心繫統已100%跑在阿里雲公共雲上,“飛天”操作系統成功扛住全球最大規模的流量洪峰!

12

2684億!

當秒針抵達2019年11月11日24時,天貓雙11的成交額停格。

京東同步了11月1日至11日的總成價額——2044億。儘管拼多多沒有公佈銷售額, 不出意外,阿里又笑到了最後。

《倚天屠龍記》中,六大門派圍攻“光明頂”失敗,除了各自心懷鬼胎之外,張無忌的單挑能力是最大的勝負手。

而對阿里來說,阿里雲就是他們的張無忌。但張無忌的蓋世神功不是一日練就的。

2009年雙11,阿里技術團隊完全就是打醬油。四虎有慘痛記憶,有一天他接到老闆指示,光棍節要搞活動,值班。“那年我們啥都沒做,就坐在那看服務器。零點發現流量暴增,服務器一下就掛了。我們手忙腳亂地去重啟,系統恢復後,發現店鋪和商品圖片又出不來了。”

到2010年,張勇才開始對技術團隊有了深刻印象,不是技術有多成功,而是無奈。這樁秘聞他曾在內部講話中分享:

當時技術Leader振飛給我報了兩個備用方案,他說,逍遙子,實在沒有辦法,選一個:開天窗,還是變黑白。

我的想法很樸素。開天窗,一看就知道出大問題,不能買了。變黑白,還好,那時候還沒有手機淘寶,大家都是PC端,PC端看黑白,我覺得還能接受。

我最後拍板,實在不行,就變黑白,真是這麼過來的。

真是這麼過來的!

全文完,謝謝


分享到:


相關文章: