7 月 28 日,由阿里巴巴集團發起,阿里巴巴 AIS 舉辦的 Alibaba Infra. Day 2018 (阿里巴巴 Infrastructure 技術開放日)在美國山景城計算機歷史博物館順利舉行。
已保存
圖片來自:http://www.computerhistory.org
活動吸引到了來自 Google、Facebook、Twitter 等互聯網公司超過 500 位工程師參與分享和討論。阿里巴巴十幾年來在集群管理、Linux 內核、數據庫、數據倉庫、存儲、異構計算等多個基礎設施領域的實戰經驗和最新產品細節,現分享如下。
Alibaba Infra. Day 2018 的主題是 the Golden Era,為大家揭示互聯網基礎設施領域發展正式進入淘金時代。隨著全球互聯網用戶數量激增,數據成為現代社會愈發寶貴的資產,巨大的數據將在未來產生不可估量的價值。基礎設施是互聯網發展的基石,歷次關鍵節點都伴隨著基礎設施的升級,從硬件到軟件。
Alibaba Infra. Day 2018 是 Alibaba Infra. Group 在硅谷的第二屆技術開放日活動,邀請了來自阿里巴巴 AIS 團隊的 11 位技術大拿參與。Alibaba Infrastructure (AIS)負責阿里巴巴經濟體軟硬件基礎設施,團隊覆蓋數據中心、網絡、服務器、運維中心、內核、容器、JVM、調度、數據庫、存儲、中間件等多個領域,在美國桑尼維爾、西雅圖、聖馬特奧、中國杭州、北京、上海等多個國家和地區設有團隊。
阿里巴巴基礎設施事業群副總裁周明在大會上分享了阿里巴巴的商業生態大圖,為更好地理解基礎設施技術所支持的業務範圍做了鋪墊。
1999 年成立的阿里巴巴集團在全球超過 150 個國家和地區有超過 57000 名阿里同學,以“讓天下沒有難做的生意”為核心建立了多緯度的電子商務線上交易平臺,業務包括 B2B 貿易、網上零售、購物搜索引擎、第三方支付、物流服務和雲計算服務。
周明講到:“阿里巴巴經濟體中豐富的場景為技術同學們如何做好業務快速發展和落地帶來挑戰,業務產生的海量數據進一步激發了底層基礎設施發展的需求。同時為了促進全球技術合作,引領創新科技的發展,阿里巴巴集團成立了達摩院,我們對技術的重視程度已經從把握現在望向了未來。”
阿里巴巴高級研究員李飛飛(花名飛刀)在主會場發表了主題演講,為大家分享了阿里巴巴技術架構全景。
李飛飛說道:“2017 年的雙十一,當天錄得創紀錄的交易峰值:每秒 32.5 萬次,同時創下新的支付紀錄:雙 11 開場僅 5 分鐘 22 秒,支付寶達到每秒 25.6 萬筆的支付峰值,為去年的 2.1 倍;數據庫處理峰值達到創紀錄的每秒 437 萬次。這些數據的背後,是整個阿里巴巴技術同學們的努力,而一個清晰的技術架構為龐大經濟體的運營提供了更穩定的支撐,是基石。"
阿里巴巴技術中臺技術架構事業群提供了從網絡到 IDC 到異構硬件到系統軟件和中間件再到數據庫系統的一整套技術解決方案,實現了在阿里巴巴複雜商業應用場景下面對大數據、高併發提供高效、安全、可靠、低成本的基礎設施。基礎機構事業群堅持自主可控的發展目標, 大規模應用和研發新技術,推動系統基礎軟硬件設施從研發到部署到管理的整個流程的信息化、自動化、和智能化。
以下是 Alibaba Infra. Day 2018 的分享簡介。
Large-scale Cluster Management
為了給數以億計用戶快速、穩定的服務,阿里巴巴在全球建立了數個大規模數據中心。這些數據中心為內部、外部提供著巨大的計算資源。阿里巴巴的集群管理器自動化這些資源的分配,並且推動了諸如彈性擴容、自動化運維、資源規劃等技術的發展。這個系統使得開發者能夠快捷、穩定地獲取計算資源,並且充分保證分配的資源被有效利用。儘管我們已經做到了提高開發效率和降低成本,但是仍舊有很多開放性的問題需要去探索。
這個話題將會介紹阿里巴巴集群管理系統的概況,以及這幾年所解決的有挑戰性問題。這些挑戰包括業務混合部署、高峰流量處理等。我們會解釋這些技術的背後驅動:阿里巴巴獨特的商業和技術需求。最後,我們會探討由諸如Serverless、人工智能、IoT 等阿里巴巴的飛速發展的計算領域帶來的更多難題。雖然還不知道對這些問題的最好解法,但是我們在一如既往地努力解決問題。
Linux Kernel Development
現如今 Linux 已經統治了服務器領域,Alibaba 所有的服務都建立在 Linux 之上。Linux kernel 作為 Linux 生態中最重要的一環,需要被管理起來從而為 Alibaba 基礎架構提供具有 RAS 的操作系統。本次分享介紹了 Alibaba kernel team 如何在 Alibaba 生態中融入 Linux kernel,和如何在 kernel 的前瞻領域中持續創新來降低成本。
Running the Gamut: Challenges from Alibaba's Ecosystem for Database Systems
數據庫事業部承載著阿里巴巴生態系統所有的在線數據處理分析以及數據庫服務,是業務蓬勃發展的技術基石,為淘寶、天貓、飛豬、聚划算、新零售、1688、B2B、AE、淘寶海外、阿里雲等業務群提供穩定、高效、安全、低成本的數據庫產品和服務。
這裡有世界一流的數據庫應用場景,直面天貓雙十一洪峰流量。這裡有數據庫領域最前沿的技術和探索,例如異地多活、強一致分佈式數據庫、新硬件、自治數據庫、結構化與非結構化數據融合處理。這裡有一流的數據庫團隊,集合了一批優秀的數據庫內核開發和數據庫管理人才。這裡有一流的產品,為開源社區提供了大量的貢獻,推動開源數據庫的普及。同時,以阿里場景為依託,我們為阿里雲客戶提供豐富的數據庫產品和服務,全面覆蓋電商、物流、安防、交通、健康、出行、氣象等廣大行業並提供核心服務。我們在數據庫事務處理引擎、在線分析引擎、分佈式數據庫、FPGA/GPU 硬件加速、智能數據庫、多模多態數據庫、數據庫安全、大規模數據處理與分析方向均處於業界領先位置。
X-DB:the Next Generation Globally-Distributed Database System
X-DB 是支持阿里巴巴業務的事務數據庫,擁有十萬+實例,涵蓋淘寶、天貓、AliExpress 等核心業務,以及最新融入的 Lazada,高德、餓了麼、優酷/土豆網等互聯網+業務。作為世界體量最大的 OLTP 系統之一,X-DB 通過分層存儲提供高吞吐量,計算和存儲分離賦予高彈性能力,並且通過 Paxos Protocol 保證高可用,以及基於盤古文件系統的數據高可靠。同時,X-DB 利用最新的硬件技術(如 NVM, SSD, FPGA)達到高效儲存和計算穩定。初期 X-DB 在阿里巴巴業務的驅動下和挑戰中完成多項關鍵技術:水平擴展,跨物理域高可用,百倍的彈性;現在 X-DB 的技術革新在為阿里巴巴創造新業務。X-DB 基於人工智能的技術和全球部署能力,即為阿里基礎設施服務,也將在雲上為萬億用戶服務。X-DB runs everywhere all the time!
李瑞萍,阿里巴巴數據庫事業部資深技術專家
AnalyticDB: Challenges and Opportunities of Real-Time Data Warehousing
AnalyticDB 是阿里雲上的 PB 級實時數據倉庫,支撐著阿里集團內的電商、廣告、螞蟻、菜鳥、文娛等眾多在線數據分析業務,以及傳統的大中型企業,政府機構,眾多的互聯網創新公司的核心分析能力。AnalyticDB 採用分層 (接入層,計算層,存儲層 ... ) 解耦架構,支持各層獨立擴展,將分析計算、數據寫入、索引構建等分離為不同節點。各種類型節點採用多活運行模式,在整體架構上實現了彈性擴展和高可用。AnalyticDB 引進了智能 SQL 優化器,MPP+DAG 的融合分析引擎,支持行列混合存儲,智能構建多維度索引以及 GPU 硬件加速等技術,同時融入了文本、圖片、人臉等非結構化數據分析支持,大幅擴展技術邊界和業務邊界。AnalyticDB 能夠支持 1000 以上的計算節點, 10PB 以上的數據, 毫秒級響應,100K QPS、每秒千萬級記錄寫入。
伴隨著這些年在線分析業務的發展,AnalyticDB 在時效性、在線化、複雜度、可用性和成本上不斷創新發展,做了大量的難點突破和技術創新。通過將數據分析在線化、實時化,幫助用戶在經營分析、運營優化,城市大腦等場景中充分發揮數據價值,AnalyticDB 已經成長為極具行業競爭力的產品。
Intelligent Infrastructure Operation
阿里巴巴的基礎設施正在經歷著翻天覆地的大規模化的快速變革。我們的目標是在這樣大規模化的發展中通過自動化、數字化和智能化的技術始終保持基礎設施運維的高效、穩定和低成本。在這次的活動中,我們分享了三個主要的自動化運維平臺,第一個是運營支撐與決策平臺,致力於打造從需求到供應鏈再到安裝交付的整條自動化鏈路;第二個是數據中心運維平臺,緊密結合資產、器件、儀器等多項實時監控,數據中心現場安防和作業流程自動化;第三個是天基系統,保證了近百萬臺服務器的基礎軟件,固件快速安全自動大規模部署和升級。
在每一個平臺系統中,我們都加入了智能運維的功能。例如,根據產品特性,週期和歷史數據等信息,採用數據挖掘、機器學習、統計分析、數學模型等多種方法,阿里雲計算產品對於基礎設施的需求預測準確率可達80%以上。再例如,通過神經網絡和優化模型,我們的自建數據中心的能耗效率提高了 20% 以上。我們期待能夠在不久的將來,通過技術創造高效,智能的無人值守數據中心。
自動駕駛網絡
阿里巴巴擁有著包括電商、雲計算、互聯網金融等一系列高速發展,且內容極其豐富的互聯網業務。為了向全球的幾十億用戶提供優質、可靠的服務,阿里在世界各地建造數據中心和 PoP 點,並通過遍佈全球的網絡將用戶和這些數據中心連接起來。在這次活動中,我們分享瞭如何通過構建自動駕駛網絡來保障阿里網絡在高速發展下的穩定性。與傳統的網絡運維方式所不同,自動駕駛網絡具備靈敏的感知能力,高度的自動化能力,以及全局的優化決策能力。不僅如此,自動駕駛網絡還具備精準的預測能力和強大的學習能力。在過去幾年中,我們從無到有的打造了阿里的自動駕駛網絡,實現了從人工運維到智能化運維的跨越。
阿里巴巴存儲基礎設施的軟硬件一體化設計
服務器存儲團隊全力打造軟硬件一體的阿里巴巴底層統一存儲平臺以向上支撐盤古分佈式文件系統和集團業務。在過去3 - 4年的不斷努力中,已實現硬件白盒化,並建立全球領先的 Alibaba Open Channel SSD 系統,發佈了Alibaba Open Channel 標準,併成功吸納 Intel、三星、美光、紫光、海力士、西數、寶存、CnexLab、東芝等國際廠商加入Alibaba Open Channel 聯合研發、驗證、產品化,現已實現在阿里巴巴基礎設施的部署。本地存儲引擎 FusionEngine 向上支撐盤古分佈式系統,向下銜接Alibaba Open Channel SSD,實現了從存儲介質顆粒到上層業務應用的全棧白盒化與一體優化迭代,打造了高性能、高穩定、低成本的阿里巴巴底層統一存儲平臺,以之全力支撐阿里業務,並與各業務一起開拓新商業,以全棧優化的深入技術能力,創新並迭代具有國際競爭力和影響力的業務產品。
Heterogeneous Computing: Unified Data Analytics
隨著數據分析特別是 ML 智能分析越來越龐雜,目前零散分離的工具鏈如 SciPy stack 早已無法滿足數據科學家或領域專家在容量、場景多樣性和效率持續增長的要求。分析平臺需要能夠統一分析異構數據深入挖掘關聯數據價值,並充分發揮各種異構硬件(如 GPU/FPGA/ASIC/Optane/RDMA)的計算和傳輸效能。本次分享介紹了阿里巴巴 PB 級高併發實時數據分析平臺 ADS 及其技術規劃,目標是利用多種新硬件加速多模態數據統一分析(包括 OLAP、統計和機器學習)和大規模數據呈現(Backend Rendering)。
Advance Heterogeneous Computing for Performant AI Applications
隨著摩爾定律的枯竭,傳統單一的計算機結構已經不能滿足人工智能/機器學習應用所需求的強大計算力。相比之下,異構計算架構針對機器學習應用的各種各樣特性能夠充分發揮不同架構的計算力,因而成為挖掘未來計算潛力的關鍵技術。在這次分享中,我們介紹了計算架構發展趨勢和機會,並探討如何促進 FPGA,ASIC(如人工智能芯片)和非馮諾伊曼架構的發展和演進,從而實現人工智能/機器學習應用的最大性能。
最後為大家介紹大會中出席分享的各位 Tech Leader。
基礎設施建設的未來是什麼樣的,期待與你一起去定義。
歡迎關注 Alibaba Infra. Group 獲取我們的更多信息
Facebook: Alibaba Infra. Group
歡迎通過郵件聯繫我們:[email protected]
關注阿里系統軟件微信公眾號,輸入關鍵字“infra”加入 Alibaba Infra. Group 微信群
閱讀更多 阿里技術 的文章