阿里云这10年:一帮人拿青春实现一个“飞天”梦

2019年,阿里云成立十周年。

从最早被业务“逼”着开展这项业务,到如今成长为全球前三,中国第一的云厂商,这10年它跌跌撞撞,经历了无数困难。

在电影《当幸福来敲门》里,威尔史密斯说过这样一句话”你有一个梦想,你需要去保护它“。

回顾过去10年的发展历程,阿里云的这帮人就是用青春和行动保护了一个梦想,并且成功实现了这个梦想。

(1)王坚加盟

这个梦想是从一个人的加盟开始的。

2008年9月,王坚博士加入阿里巴巴。

马云把他从微软亚洲研究院常务副院长的位置挖来,是因为阿里巴巴面临一个紧急的问题——公司 “计算力”不够用了。

当年用户激增,数据越来越多,每天早上八点到九点半之间,服务器的处理器使用率都会飙升到 98%,距离系统崩溃就差两个百分点。

阿里巴巴就像赛道上的跑车:速度飞快,但引擎已经发红,再踩几脚油估计就要冒烟,后果不堪设想。

怎么办?最简单的办法是,花钱继续买服务器和软件,但是有两个问题:一个是太贵,另一个问题是不好用。

2008 年中旬,马云召开内部会议,决定要研发一套新的技术架构来换掉阿里巴巴的旧引擎。

于是,找来了王坚博士,而他的使命就是从零开始建立这个云计算系统。

阿里云这10年:一帮人拿青春实现一个“飞天”梦

王坚

王坚是个理想主义者,他希望新架构的每一行代码都要自己来写,并把这个想象中属于中国的云计算系统定名为“飞天”。

由于在自主研发飞天的同时,业务也不能停。因此,阿里巴巴需要同时做两件事:一边研发“飞天”系统,一边用开源软件支撑淘宝网的业务。

这就是集团的 “云梯计划”。

“云梯计划”做了两手准备:用一些已有的开源软件为基础,研发一个数据计算系统,这是“云梯1”计划;而以“飞天”为基础,纯自研一套数据计算系统,被定为“云梯2”计划。

阿里云这10年:一帮人拿青春实现一个“飞天”梦

2009年阿里云成立

(2)招兵买马

阿里云正式成立还是一年之后的事情。当时,所有的人都是在一个叫做“阿里研发院”的部门里工作。

要做“飞天”,第一步就是要找人。

满弓是阿里云的第六位工程师。入职合同当天下午,就被“附赠”了一张火车票——去天津帮助招聘。

满弓这样回忆十年前的那个下午:

“阿里研发院” 2008年10月才成立,已经错过了招聘季的黄金时期。但是我们又确实太需要人才了,于是刻不容缓,要再扫荡一下那些大学,把“漏网之鱼”打捞回来

阿里云这10年:一帮人拿青春实现一个“飞天”梦

2009年阿里云的招聘海报

跟着阿里云的招聘队伍,满弓跑遍了全国主要的几大城市十几个学校。每到一个学校,只呆三天。

第一天做宣讲,然后马上笔试;第二天统一面试;第三天发 Offer。

阿里云这10年:一帮人拿青春实现一个“飞天”梦

当时判卷的场景

经过这样“连滚带爬”的招聘,到了2008年年底,阿里云凑够了了三十位工程师。

阿里云这10年:一帮人拿青春实现一个“飞天”梦

马云、王坚和工程师们的合影

一群来自五湖四海的飞天工程师们,斗志昂扬,像打了鸡血一样,开始了研发“飞天”系统的征程。

但外边的人,则一直用怀疑的眼光看着他们。

(3)飞天起步

飞天的第一行代码,是在北京写出来的。

2009年春节上班第一天,在北京上地的汇众大厦203这间连暖气都没有的办公室里,一帮工程师一边口呼白气,一边敲出了“飞天”的第一行代码。

阿里云这10年:一帮人拿青春实现一个“飞天”梦

飞天的第一行代码

天气冷难熬,天热同样难熬。

北京的夏天,骄阳似火。当时测试系统的服务器就架在办公室里,这就是个巨大的火炉。

大厦的空调不行,还没到七月份,程序员就热得撑不住了。为了降温,每天上午他们都叫冰场送两大块冰来。

有一次周六,马云来北京,专门到阿里云的办公室去看看。阿里云第一任技术总监林晨曦赶紧想打开电脑给马老师展示一下自己团队的成果。结果按了半天开关,机器都没反应。

原因是大厦停电。

马云就这样坐在办公室等了半个小时,直到物业恢复供电才一睹阿里云飞天系统最初的芳容。

阿里云这10年:一帮人拿青春实现一个“飞天”梦

同事们往办公室里运冰

(4)“牧羊犬”陪练

在阿里云创业的同一时刻,另外一个新的业务也在酝酿之中。

这个新项目叫做“牧羊犬”——阿里金融最早的一个业务雏形。负责这个新业务的人叫胡晓明,他在2005 年加入阿里,是金融行业的大咖。

2009年6月,马云找到胡晓明,准备交给他一个大任:内部创业,做阿里金融的总裁。但是条件是:业务必须第一天就跑在阿里云上。

阿里云这帮看上去疯疯癫癫的人,他们技术到底靠不靠谱,胡晓明心里并没有底。

胡晓明心里不情愿,但马老师肯定有马老师的道理,最后他还是答应了。

不过,胡晓明担心的事情,还是发生了,而且还是频繁发生。

“飞天”系统,由于不成熟,数据传输问题、计算稳定性问题、处理速度问题一样都不少,各种 Bug 形式翻新,永不重复。

阿里金融的工程师也被害惨了,必须24小时盯着系统,才能防止系统运行出现差错。

作为合作伙伴,领导研发团队的林晨曦每天的表情都有点儿尴尬,出则满脸堆笑地帮阿里金融排除 Bug,入则愁容满面地和同事们一起修改代码。

眼看就要过春节了,两个项目都快撑不住了。

被“猪队友”坑得够呛的胡晓明一气之下带着核心骨干跑到阿里云办公室门口“讨说法”。

无奈之下,阿里云的技术工程师到阿里金融的办公室加班开发,只为了“让兄弟团队能过个好年”。

好不容易捱过了 2009 年,春节过后,阿里云发布了一次大版本升级。这次之后,系统非常稳定,研发团队一时都感觉没有事儿做了。

阿里金融,成为了后来的网商银行,就这样无意间成为了中国第一个上云的银行。

而这一段经历,也让胡晓明跟阿里云结了“缘分”。

阿里云这10年:一帮人拿青春实现一个“飞天”梦

胡晓明负责的牧羊犬项目成为第一家上云的银行

(5)5K决战

解决了稳定性,阿里云就像抓住了一颗救命稻草,总算可以暂时喘口气了。

但还有一个更大的难题,等待解决。那就是“云梯计划”需要有个抉择——两座云梯只能保留一个。

取舍的规则很明确:

要想成功肩负起阿里巴巴的底层计算系统,就必须有能力独自调度 5000 台服务器。谁先实现这个目标就“赢者通吃”,继承家业,成为全集团的业务系统。

而调度5000台服务器这个目标,就是5K决战。

王坚是一个性情温和的人,平常都是笑容满面。但是那段时间,他几乎天天跟团队拍桌子,希望尽早拿下5K之战。

2012年底,以开源软件为基础的“云梯1”计划实现了4000台集群调度,而阿里云团队更看好的纯自研 “云梯2”还在1500台集群的数量徘徊。

这是阿里云最困难的时刻,“飞天”进展很慢,根本看不到赢下5K决战的希望。

很多人失去了信心先后离开了,部门的绩效在集团也连续几年垫底。而内部公开质疑阿里云的声音也冒了出来。

流言传到马云耳朵里。“我每年给阿里云投 10 个亿,投个十年,做不出来再说。”他对着阿里巴巴集团所有人,斩钉截铁地说。

关闭的流言没了,但5K的困难还没有解决。

当时,5K之战的局面变得有些尴尬:云梯1和云梯2都没能实现5K的目标,但是这个时候,必须做出选择,因为业务能够给的期限非常短了。

2013年3月28日,一封来自集团技术保障部架构师云铮的邮件直达高层:

按照数据增量与未来业务增长的情况,云梯1和云梯2两套系统的存储和计算能力将在今年6月21日到达瓶颈。到那时,数据业务将会停滞,很多业务都会受到影响;阿里金融的贷款业务将因为无法进行信用数据运算而中止。

距离Deadline只有三个月。

这个时候,必须选择一个。此时做出任何抉择,都会彻底改变阿里巴巴的历史。

经过充分的讨论之后,集团决定押注“飞天!”

最终,那些曾经看好或者不看好“飞天”的技术大牛加入到“飞天”的开发计划中来。

2013年6月底,阿里云的团队们,最终实现了平稳调度5000台服务器的目标,成为全球第一家拥有这样能力的云计算公司。

这意味着,“飞天”成功了。

阿里云这10年:一帮人拿青春实现一个“飞天”梦

飞天5K

(6)阿里云起飞

历经5年,阿里巴巴在超高速行驶中,没有踩一脚刹车,成功更换了发动机。

但是作为阿里云的第一任技术总监,林晨曦并没有看到5K决战的胜利。他在2012年秋天,离职创业。

2014年秋天,胡晓明来了,成为阿里云总裁。

他曾受够了阿里云的初创期的折磨。但是也正是因为这个磨合的过程,让他看到云计算的未来。

5K之后,阿里云势如破竹,随后城市大脑、神龙云服务器、POLARDB等自主研发的云计算产品和解决方案不断涌现。

与此同时,阿里云的商业化也进入快车道,营收连续十多个季度实现100%以上的增长,成为中国第一的云计算厂商,还成功走向了海外市场,跻身全球前三,跟亚马逊、微软等老牌科技企业展开全球竞技。

2018年4月,飞天云计算操作系统获得了一个特别的奖项——中国电子学会15年以来的第一个特等奖。这可以说是“飞天”系统具有重大意义的又一个注解。

2018年11月底,阿里云事业群升级为阿里云智能事业群,阿里巴巴集团首席技术官张建锋(花名:行癫)兼任阿里云智能事业群总裁,目标是构建数字经济时代面向全社会基于云计算的智能化技术基础设施。

可以说,面向未来10年,阿里云又到了再出发的时刻。

人的一生有多少个十年,阿里云的一帮工程师前赴后继,用十年时间撰写了一个有关“飞天”和云计算的精彩故事。这个故事值得那些参与其中的人,一辈子来铭记和回味,因为这是梦想成真的故事。

面对波澜壮阔的云计算浪潮,阿里云新的10年又开始启程了。


分享到:


相關文章: