超算云还是云超算?不再傻傻分不清

云超算还是超算云?这是个问题。

一如当年的“互联网+”还是“+互联网”,直到现在还是让人纠缠不清。不过相对于互联网一开始就普及化的应用来说,超算从曾经面向专业科研领域的应用到如今与大众化的AI搭界,也不过就是几年的时间。因此,回答这个问题,还是要从超算的发展讲起。

超算与高性能计算的前世今生

超算,你可以理解为超级计算或者超级计算机。但是除了指代“机器”的本体之外,我们在谈到这个词的时候更多代表的是另外一个意思——高性能计算,英文称之为High Performance Computing,换言之也可以用四个字来表达——国之重器。

超算云还是云超算?不再傻傻分不清

一直以来,高性能计算就像航天、能源等行业一样,一直代表着国家科技综合实力及IT发展的顶尖水平。但遗憾的是,高性能计算行业过去长期被美国、欧洲、日本等发达国家所把持,直到近些年,中国才成为了世界“超算俱乐部”中又一名新玩家。

有人跟我说,高性能计算是一项古老的学科,我表示赞同。回溯它的历史,这一名词最早在1929年《纽约世界报》关于“IBM为哥伦比亚大学建造大型报表机(tabulator)的报道”中首次出现。

超算云还是云超算?不再傻傻分不清

而当时光进入到20世纪60年代之后,这个领域出现了除IBM之外的众多玩家,其中一家名为CDC (Control Data Corporation)公司不仅为整个行业贡献出了非常优秀的产品CDC 6600(如上图),更多则是培养出了一名伟大的人物Seymour Cray。

超算云还是云超算?不再傻傻分不清

是的,SeymourCray就是日后大名鼎鼎的Cray公司创始人。凭借着在CDC工作多年、并且参与设计当时最快的计算机等经验,Seymour Cray在离开后创立了自己的公司──Cray Research,也开创了超级计算机的一代枭雄。

1985年6月,Cray公司正式宣布了CRAY-2超级计算机,成为当时峰值最高的超级计算机。随后,虽然经历了破产、被收购等一系列变故,但直至今日,Cray依然是超级计算机领域的巨头之一。在今年6月公布的最新一期世界超算TOP500榜单排行中,前10名的机器有4台都出自于Cray之手。

提到TOP500榜单,许多人都会想到中国的位置。但其实就整个历史发展来说,绝大多数时候这个榜单还是被美国、欧洲乃至于日本所占领,中国成为榜单的新贵还真就是最近10年的事情。这一切,都要从天河系列说起。

按说,中国进入榜单的时间并不晚,2002年中国联想的“深腾1800”就以每秒1.046万亿次浮点运算的实测性能排在第43位。随后包括联想、曙光在内的许多单位都在为冲击榜单而努力,直到2009年,中国研发的首台百万亿次超级计算机天河一号在当年11月的TOP500榜单中排名5位,这在当年是中国超算的最佳纪录。

超算云还是云超算?不再傻傻分不清

可惜的是,这个纪录转眼就被打破了。到了第二年,升级之后的天河一号A系统成为了2011年11月TOP500榜单的冠军,这也是中国人第一次获得了TOP500的冠军,这时候已经用到了来自于NVIDIA的GPU加速器。

从此一发而不可收。虽然期间先后有来自日本的K超算和美国的泰坦轮换成为世界第一名,但是自2013年天河二号成为世界第一开始到后来的神威太湖之光,连续5年间持续称霸超算第一的宝座,直到今年6月来自美国的Summit才再次夺回霸主地位。

在外人看来,中国超算的确已经非常了不起,在这么多荣誉的背后,必然是中国超算的新崛起,也成为了继美国之后的超算大国。但是在众多业内人看来,目前超算取得的成就的确值得肯定,但是我们在成为“超算大国”之后,更应该成为“超算强国”,这不仅仅需要在硬件基础平台上有着一流的设备,更需要在上层的算法和顶层应用上寻求新的突破,而就后两点来说,中国还有很长的路要走。

凡有井水处,皆在谈智能

倒退到四年前,2014年的NVIDIA GTC大会上,NVIDIA CEO黄仁勋先生第一次演示了Machine Learning机器学习的应用——在众多图片中智能选择用户需要的图片。不过在当年的GTC大会上,面向自动驾驶的Tegra解决方案、全新发布的Pascal架构,甚至于之后几年才能大放异彩的NVLink技术等等,都比机器学习更能够吸引大众的目光。机器学习是什么鬼?在当年的大多数人看来,它仅仅是一个小插曲而已。

超算云还是云超算?不再傻傻分不清

没人能想到,短短几年之后,机器学习就能够成为整个IT行业都在热捧的对象。从这个角度来说,恰恰是GPU的出现推动了机器学习以及其背后人工智能的发展。正如GPU当年推动超级计算机从CPU迈向异构时代一样,是一项划时代的变革。

伴随着GPU时代的来临,机器学习也不再仅仅需要借助于CPU才能够计算。相反,GPU天生适合对于图片、视频等非结构化的信息识别,这无疑也为GPU赋予了除游戏之外更能够打动各阶层消费者的源动力。

于是乎,AI时代就这么没有一点防备的到来了。许多人说,这是AI的第三次兴起,但是在我看来这更多是传统高性能计算的普及化与应用的大众化。在此之前,高性能计算只是科研院所和部分高精尖领域的“阳春白雪”,但是如今从大企业到小公司,哪怕只是一个智能手环、一个家庭音箱,都被赋予了AI的概念。这不能不说是计算的成功,也是高性能计算的“黄金时代”。

超算云还是云超算?不再傻傻分不清

但是这种普及一方面在推动高性能计算发展的同时,另一方面也暴露出了高性能计算行业长久以来存在的问题——私有化与集中化。所谓私有化,就是每家研究机构都需要单独购买高性能计算设备,这些设备少则几十台上百台服务器,多则是大规模的计算机群;另一方面,正因为这些设备的存在(虽然还是不能满足需求),单位机构必须为之配备相应的场地、人员和经费等等,这些“大而全”或者“小而全”的存在,的确不符合当下的互联网发展路径。

自然也有人看到了其中的问题,于是在很早之前,也有机构开放了自己的平台面向社会或者说面向商业化使用。记得好多年前,我就参加过某家科研机构与某品牌的联合发布会,其内容就是鼓励个人或者企业,用网络传输的方式(当时还不叫做云),将自己需要的计算在机构的平台上完成。

超算云还是云超算?不再傻傻分不清

这或许就是“超算云”的雏形。随着应用的发展,许多科研机构包括各大超算中心,都有了类似的解决方案。对于多年来苦于计算却又找不到合适平台的各大院校科研工作者来说,这无疑是一件利好;而对于超算中心机构来说,如何商业化也是它们多年来苦苦探寻的出路,将高效的机时资源交给最需要的科研用户,这显然是一件双赢的事情。

当然任何事情都不会一帆风顺,这其中最大的问题,就在于虽然超算中心为用户提供了优秀的平台,但是能否利用好它们,就看用户自身的造化了。我之前曾经采访过许多行业专家,大家一致认为,在高性能计算这个领域,复合型人才的培养是一个大难题。

超算云还是云超算?不再傻傻分不清

比如,一名著名的生物学教授可能在行业有着深厚的造诣和独特的见解,但是如何将科研问题转化为计算机能够听懂的语言,进而再通过计算机系统进行计算,这其中就存在应用的鸿沟,显然生物学教授不可能也很难投入大量的时间去学习计算机专业知识;相反,计算机教授可能精通各种语言,但是对于生物学的内容可能一窍不通。这其中就需要一个既了解生物又懂计算机的人,这个人就叫做复合型人才。

说到这里,你就知道这事情有多难了。生物、物理、化学、数学、天文、海洋……等等专业都需要复合型人才,而且每个专业又有详细的分支,想要找到这么多的专业人才,谈何容易。

所以更多的时候,我看到的是本科专业的计算机人才,在硕士或者博士阶段转向了生物、物理、化学等领域,并且迅速在这些领域崭露头角,成为了学科带头人。在当下的时代,科研与计算机可谓是紧密的结合在了一起,许多应用都可以用计算机进行模拟,比如流体动力学著名的风洞试验。

超算云还是云超算?不再傻傻分不清

在刚刚结束的杭州栖大会上,阿里云技术研发总经理蒋江伟在主题演讲中提到了阿里云E-HPC,并将其成为之为“每一个企业都用得起的数值风洞”。他同时表示,过去汽车的风洞测试大多需要庞大的机器才能完成,今天基于阿里云的风洞仿真能力,汽车企业能够以更低成本、更高效率完成风洞实验,整体效率提升了25%。

云超算,我们不一样不一样

提起阿里云的名字,大家肯定不陌生,但是提到阿里的“云超算”,可能大家就有点疑惑了——云超算和刚才你提到的超算云是不是一回事儿?别说,还真不是。

刚才我们介绍了,许多超算中心或者说研究机构愿意将自己的超算平台开放出来,用户可以通过网络的方式连接进来,按照计时使用进行付费,这种服务我们叫做“超算云”。但是在阿里云看来,这种服务依然存在问题,阿里云更希望从深层次来解决,因此才有了我们看到的——云超算。

超算云还是云超算?不再傻傻分不清

相对于超算云来说,云超算不仅仅是在文字顺序上进行了变化,更多的还是在底层结构上的改变。我们来看看之前存在的问题有哪些——

1、传统的超算云,是建立在超算中心等大型机构的物理设备上的,而且许多时候,用户在使用这些资源的时候需要排队。

2、因为是物理设备,所以在弹性扩展层面比较难,具体说来就是不可随意增减。

3、正如我们提到的,用户需要自行对上传算例进行编程和调优,对于非计算机专业用户难度大。

4、超算平台上的专业应用软件较少,硬件水平也取决于超算建设时间。

……

这些问题在阿里云E-HPC上都能够得到很好的解决。首先我们都知道,得益于底层的云架构,阿里云平台本质就是弹性扩展的,包括神龙弹性裸金属服务器在内最大的特点就是可以实现客户需求的按需分配,无论是多一些计算还是少一些节点,用户都可以动态调整,随时满足需求。

超算云还是云超算?不再傻傻分不清

其次,在软件和应用层面,阿里云不仅仅在平台上提供了丰富的软件,还与国内外许多机构合作,一改之前购买License才能应用的情况,实现了线上随需购买的新模式,大大降低了采购成本,提升了计算效率。

除此之外,阿里云还有众多行业顶尖的工程师,针对用户最棘手的应用与管理问题开发出了一款名为“集谛”的平台,用户可以通过集谛完成监控集群性能指标、查看集群性能历史记录、分析进程级的性能热点等操作,进一步优化应用效率。

最新一代的硬件平台、最大范围的商业应用软件集成、最先进的自动化管理与运维软件,最便捷弹性的扩展方式,这些内容整合在一起,就构成了阿里云E-HPC,也是阿里云所倡导的“云超算”概念之所在。

说到这里,你还觉得“云超算”与“超算云”是同一个东西吗?

后记:本文是“云超算”系列文章的第一篇,旨在介绍云超算与超算云的差异化所在。在后续的文章中,我们还将介绍文中提到的“集谛”平台,讲述它是如何帮助用户实现自动化的管理与控制。对于中小企业或者个人用户来说,超算系统已经不再需要购买,在阿里云SCC超算集群上,你就能享受到最新、最好的应用体验。

更多内容,欢迎大家从持续关注。


分享到:


相關文章: