09.29 十年前只有馬雲堅定雲計算,十年後阿里雲召喚神龍

在我國雲南東巴聖地玉水寨,有一處神泉。傳說這神泉的泉眼處,是玉龍神出沒的地方。

每年玉龍神都要出來巡視麗江壩子,但見那神龍戲水而出、帶風而下,輕盈靈動間把水翻折成三疊。水流的嘩嘩聲跟神泉的安寧、祥和相映成趣,玉水寨美景“神龍三疊水”的美名便得乎於此。

十年前只有馬雲堅定雲計算,十年後阿里雲召喚神龍

麗江名勝“神龍三疊水”

傳說總是美麗而虛幻,但是我們今天要說的“神龍三疊(迭)”,則是真真切切發生著的科技創新故事。

一、神龍3·獻禮阿里雲10年

從2009年到2019年,阿里雲(也即“阿里雲智能”)十歲了。

回首當年IT領袖峰會,BAT掌門人分別就“雲計算”發表觀點。在“舊瓶新酒論”和“為時過早論”面前,只有“不懂技術”的馬雲堅定要做雲計算。

十年前只有馬雲堅定雲計算,十年後阿里雲召喚神龍

10年前,只有馬雲對雲計算充滿信心

2009年9月,阿里雲正式成立。

事實證明,搶跑了兩年的阿里雲真正掌握了先機,此後的阿里雲在中國雲計算市場一騎絕塵,絲毫不亞於亞馬遜AWS 在海外的風頭。

阿里巴巴這個世界最大的數字經濟體,從來不會躺在功勞簿上睡大覺或是沾沾自喜。儘管雲計算越來越成為一門以規模取勝的生意,但阿里雲並沒有停下尋找新的(除規模外)核心競爭力的腳步。

苦心人,天不負。

2017年10月,阿里雲“神龍架構”橫空出世。

代表雲數據中心虛擬化技術變革、致力於以軟硬協同設計提升虛擬化效率的“X-Dragon”,與被稱為“裸金屬虛擬化的先行者”的第一代神龍服務器,雙劍合璧,踏歌而來。

十年前只有馬雲堅定雲計算,十年後阿里雲召喚神龍

2017年10月,神龍架構亮相

此後的2018、2019年,神龍架構一年一個臺階,第二代、第三代神龍服務器接踵而至。

在今年的阿里雲棲大會上,阿里雲智能基礎產品事業部總經理蔣江偉(小邪)透露,神龍架構已大規模應用於淘寶、天貓、菜鳥等業務;未來,阿里雲遍佈全球的百萬服務器將全面升級至第三代神龍架構。

神龍,真有這麼神?

二、神龍架構·緣起

如果將“2006年亞馬遜推出EC2和S3(以租賃計算力來為企業運行業務應用)”視為雲計算商業化的起點的話,2015年前後,雲計算市場已經網羅了大部分的互聯網企業。

這些“雲原生企業”,對雲這一彈性計算服務用得非常好,雲計算也能很好地滿足這些企業的需求。

其實自雲計算商用以來,在IaaS(基礎設施即服務)層面,雲計算的底層技術並沒有根本性的變化:大規模標準化的X86服務器+(可以將這些資源池化並提供虛擬機服務的)Hypervisor系統軟件。

Hypervisor系統通過管理標準X86計算機集群,為用戶提供虛擬機服務;用戶因此得到彈性的計算資源,也不需運維複雜的底層硬件,可以專注於業務創新。

然而,小邪、阿里雲彈性計算技術負責人張獻濤(旭卿)他們逐漸發現了一個問題——

那些非雲原生企業,他們的軟件棧構建在傳統的物理機上,在上雲的過程中,很多不願意做架構改造或者無從改起。這樣一來,就導致超過一半(50%~60%)的用戶只能“部分上雲”,甚至百分之七八十的業務仍然在線下。

針對這個痛點,阿里雲的技術專家們開始思考:如何打造一款既能夠接入雲基礎設施,又能夠提供類似物理機服務的計算產品?

“這就是我們當時做神龍的初衷。”小邪告訴《本來科技》。

其他雲廠商也有所行動,但他們當時提供的是一種如今可稱作“託管雲”的服務——將傳統的物理機買回來放到雲數據中心,提供用戶“租賃服務”。

十年前只有馬雲堅定雲計算,十年後阿里雲召喚神龍

小邪覺得:託管雲生意做不長

小邪覺得這種模式行不通。

“它沒辦法持續:一千臺服務器還能吃得消,一萬臺、三萬五萬臺的時候呢?”

機器自己買,硬盤壞了算自己的、數據丟了用戶找你算賬,這麼做雲服務,早晚被拖垮。小邪說,國內一家這麼做的雲計算廠商,已經瀕臨崩潰了。

客戶真正想要什麼?

“要的是物理機的資源,彈性的服務。其實就是‘定製化的物理機’——既能夠享受物理機的性能,又能發揮雲計算的優勢。”

旭卿說,這在那時,是個“太過理想化的東西”。

三、虛擬化·“黑洞”

“阿里的工程師有個特點:遇到問題就興奮。”旭卿告訴《本來科技》,當時想到要實現這個理想化的產品時,阿里雲技術團隊也是“抓瞎”:沒有產品可以模仿,沒有現成的芯片、板卡等硬件可以支撐。

但這確是一個從需求出發驅動的技術實現。

大型業務上雲,容器化是最熱門的,它也代表著趨勢,因為它解決了運維的標準問題。但是,跑容器性能最好的是物理機(裸機服務器)。一旦上雲,容器本身也要一次虛擬化,加上上雲的虛擬化,就是兩層虛擬化,虛擬化本身就有性能佔用,虛擬化的嵌套,更是不可避免地帶來新的性能損耗。

“技術人員都是有潔癖的。”小邪說:“這種性能的消耗會讓他們不爽。”

這個性能消耗其實是可以量化的。“差不多10%。”小邪說。

10%的消耗意味著什麼?意味著如果有1億的預算,什麼都沒幹,1千萬就沒了。

另外,在同一物理機上的虛擬機之間,也會存在資源搶佔的情況,這樣一來,虛擬機的性能就會產生波動,影響計算的穩定性。

用戶會說:“既然如此,我為什麼不用物理服務器?”

虛擬化,從來就是雲計算的基礎。數十年前誕生的虛擬化技術,通過軟件定義的方式來管理數據中心的計算資源,讓雲計算廠商可以根據企業需求輸出計算能力,收放自如。

然而,雲計算的彈性能力是以犧牲性能損耗的形式來換取的。

總結來說,資源損耗來自於虛擬化自身的性能開銷、虛擬機之間資源搶佔造成的性能波動、虛擬化嵌套造成的效率下降等等。

因此,虛擬化就像黑洞一樣,吸走了機器的部分性能。

十年前只有馬雲堅定雲計算,十年後阿里雲召喚神龍

虛擬化像黑洞一樣吸走性能

舉例來說,在一臺96核的服務器上運行雲服務系統,可能需要佔用8核32GB內存來提供虛擬化的開銷,用戶得到的只有88核和剩餘內存。

四、阿里雲·“造龍術”

面對虛擬化這些從孃胎裡帶出來的缺陷,在2016年“雙十一”覆盤會上,阿里巴巴集團CTO兼阿里雲智能總裁張建鋒(行癲)專門就此討論過。

他提出:業務應用上雲之後虛擬化相關的性能開銷,能不能解決掉?

旭卿回顧那段歷史時說:最初研發神龍架構的目的,就是為了應對虛擬化帶來的資源損耗。

“從那開始,我們就嘗試著從服務器架構優化的角度,把容器遷移上雲後的開銷抵消掉。”小邪說。

從架構優化出發,可不是誰都能幹的出來的事兒。

但阿里雲可以。

還記得阿里雲那時的核心競爭力嗎?規模。作為雲計算市場的頭部,阿里雲服務器部署的規模是百萬級別的。這個級別,允許阿里雲的技術專家們用全新的軟硬件技術,變革服務器架構,改善現有云計算的性價比。

旭卿介紹說,在2016到2017年的一年多的時間裡,阿里雲做了架構的研發和產品的研發,並在2017年正式推出了X-Dragon Hypervisor。

“它和一般的虛擬化技術不太一樣,它做的是裸金屬的虛擬化,要做的是性能超越物理機的虛擬機。”旭卿介紹,為了實現這個目標,阿里雲研發了神龍系統。

從神龍X-Dragon架構來看,阿里雲研發了專用的芯片、定製的專用主板,開發了專用的MOC卡,甚至開發了整套配套的軟件——從BIOS到應用層支撐軟件,再到整體調度軟件等一整套複雜的系統。

十年前只有馬雲堅定雲計算,十年後阿里雲召喚神龍

神龍自研硬件體系

這是非常巨大的投入,目前世界範圍內有能力開發這樣系統並投入使用的企業,只有兩家。(點擊鏈接發現另外一家)

五、三年·三代“神龍”

“加了X-Dragon Hypervisor之後,它可以把物理機變得像虛擬機一樣靈活。”旭卿說,它可以使用彈性計算的OpenAPI直接去購買,直接去釋放,而它的性能,比如性能關聯的存儲、網絡,數據面全部進行加速,得到更高的性能、更低的資源利用率。

這就是阿里雲神龍一代的“裸金屬服務器”。

在X-Dragon Hypervisor的調度下,裸金屬服務器就像漫威英雄“綠巨人”一樣,兼具物理博士班納的高智商和浩克的超強戰鬥力。

神龍一代經發布後,在2018年初就實現了全面的商業化。旭卿介紹說,神龍架構滿足了企業無顧慮大規模上雲的需求,“以前上不了雲的用戶都能上了”。

在實際應用中,他們又發現了另一個問題:

“在雲數據中心,傳統的虛擬化產生虛擬機,因為與神龍服務器不同的計算架構,會形成兩個資源池,這導致成本大幅度上升。”

可不可以讓一套架構既支持裸金屬服務器,又支持傳統的虛擬機?

這很快成為阿里雲技術團隊升級神龍架構的目標。

阿里雲技術專家是想讓虛擬機在神龍架構下,也能“飛起來”。

大規模部署的實踐顯示,第二代神龍做到了“一套軟硬件,三種服務(裸金屬服務器+虛擬機服務+容器)”,實現了“虛擬機性能接近裸金屬”。

並且,在這一代神龍架構上,阿里雲實現了神龍架構的全組件“熱升級”(FPGA毫秒級熱升,業務零感知)——此中意義更大,可大大加速神龍的迭代蛻變。

“第二代神龍是阿里雲融合虛擬化的重要實踐。”旭卿說。

第三代神龍對各項性能指標和參數進行了更極致的升級。小邪在雲棲大會上發佈第三代神龍架構時,介紹了它的威力:

  • 通過硬件加速虛擬化,神龍Hypervisor性能進一步提升,損耗接近零;
  • 神龍芯片IO加速,雲盤讀寫速度達到100萬IOPS,網絡收發包能力達到2500萬PPS,相較第一代神龍提升5倍;
  • 統一的彈性計算平臺架構全面支持ECS虛擬機、裸金屬、雲原生容器;
  • 成為容器最佳載體,計算性能零損耗,計算成本下降50%;
  • 軟硬一體化的安全,端到端的安全防護。
十年前只有馬雲堅定雲計算,十年後阿里雲召喚神龍

第三代神龍架構

可以說,在歷經軟件虛擬化、通用硬件虛擬化、專用硬件芯片虛擬化三個階段後,第三代神龍架構實現了裸金屬服務器、ECS虛擬機等計算平臺的架構統一,用戶將得到更高性能、更穩定、更便宜的高質量彈性計算資源。

需求遷移,技術驅動。從第一代神龍到第三代,阿里雲面向用戶上雲痛點,逐步幫助用戶:全面上雲、上高性能雲,兼容上雲、上可靠雲,加速上雲、上低成本雲、上安全雲。

“集齊7大上雲痛點,召喚神龍。”

十年前只有馬雲堅定雲計算,十年後阿里雲召喚神龍

集齊7大上雲痛點,召喚神龍

​六、重新定義·雲

馬雲接班人、逍遙子張勇說: “阿里巴巴的雲,是我們重新定義的雲。”

從兩層虛擬化做成“0層虛擬化”,從虛擬化搶佔資源到把所有調度offload到一張MOC卡上,神龍架構的優勢不僅是解決虛擬化開銷“黑洞”。

十年前只有馬雲堅定雲計算,十年後阿里雲召喚神龍

神龍架構MOC卡

小邪告訴《本來科技》,它還通過“硬件隔離”讓業務之間不再爭搶資源,通過讓用戶“無感”的熱遷移讓整體計算服務穩如磐石,真正做到了讓計算像電一樣成為基礎設施。

  • 2016年雙十一期間,淘寶曾一度不能下單,這源於不同系統業務“打架”爭搶資源。在阿里雲上,“爭搶資源”可能永遠不會再有了。
  • “12306”每逢佳節倍“死機”,這源於大規模併發需求給服務器造成的壓力使CPU負荷激增,計算機群性能損耗過半,無法正常發揮計算性能。在阿里雲上,“CPU過載”也不會再有了。

如果用一句話總結神龍架構的創新,那就是:神龍架構實現了軟硬件的深度結合,通過專用芯片來抵消虛擬化技術帶來的性能損耗問題,完全發揮處理器和內存等計算資源的性能。

在這個過程中,阿里的技術團隊自研了X-Dragon虛擬化芯片、X-Dragon Hypervisor系統軟件、X-Dragon服務器硬件架構等等。

這是一個系統的、顛覆式的創新。部署神龍架構的雲計算,不再是過去相互獨立的“標準硬件+分佈式系統軟件”,而是轉變成為一個軟硬件融合的系統架構。

七、神龍·未來10年

三代神龍架構,生動詮釋了阿里巴巴“需求遷移,技術驅動”的可持續發展理念。

圖靈獎得主、加州伯克利大學計算機科學教授David Patterson曾表示:“隨著摩爾定律的終結,為了獲得更高性能的計算機,唯一方法就是改進計算機的設計或‘架構’。”

阿里雲在雲計算上實現了。

在此次雲棲大會上,行癲在其演講中總結數字經濟的四大技術要素時,第一個點出阿里雲:

“我們十年堅持下來做雲計算,使得現在IT設施雲化。原來都是單個服務器,我們叫做信息化、自動化,到今天我們第一次進入雲的時代。”

“雲第一次把整個IT設施從端到端的部件,變成歸集在雲端的基礎設施,這和當年工廠自己發電變成提供完整的電網變革是一樣的。”行癲說,雲就是打基礎,就是建設高樓大廈要打的地基,“必須精確規劃”。

可以說,這是神龍架構帶給阿里雲的自信,神龍架構不僅正在幫助阿里雲做到了“用一朵雲,實現萬種數智場景”,還在為雲計算謀劃未來十年。

作為計算機史上發展的一大步,雲計算發展至今並非終點,雲的未來依舊擁有極大的想象空間,新一輪創新已經開始。

畢竟,接下來阿里雲遍佈全球的百萬服務器就將全面升級至第三代神龍架構,最好的迭代,就蘊藏在規模最大的部署之中。

彩蛋時間!!

阿里雲操作系統叫“飛天”,存儲系統叫“盤古”,網絡管理叫“洛神”,資源管理叫“伏羲”,飄在天上的這群阿里工程師,大概跟天庭打交道比較多,不約而同地想到,要讓龍族的人來做“維穩部隊”。

喏~神龍系統,穩穩地鎮壓著水面下的千年妖獸。

十年前只有馬雲堅定雲計算,十年後阿里雲召喚神龍

就像神龍陣一樣,神龍架構也穩穩地“鎮壓”著雲計算平穩運行背後的“么蛾子”。

聽說《大聖歸來2》將創新演繹“大鬧天宮”,大聖將會抽走龍王盤踞著的那根“定海神針”。難以想象,沒有了神龍架構的雲計算將會面臨什麼?


分享到:


相關文章: