在南大超算中心,有这样一位顶尖“军师”

《三国演义》中记载,刘备马跳檀溪,夜宿水镜山庄,得水镜先生指点,伏龙、凤雏,两得其一,可安天下。随后,徐庶走马荐诸葛,水镜先生再荐卧龙,刘备三顾茅庐,终请得诸葛孔明出山。后面的故事更加脍炙人口,诸葛亮草船借箭、巧借东风,借赤壁一战奠定三分天下。

从刘备的发家史不难看出,一位顶尖的“军师”对于战场决胜、治国安邦有着扭转乾坤的作用,没有诸葛妙计,蜀汉恐怕难以频频以少胜多、以弱胜强,将战争资源发挥出最大效力。

——借古谈今,在古战场,若有一位高明的军师对武将、军队、粮草等战争资源进行合理的调度,也就有了更大的胜算。而今,在被誉为计算机界“皇冠上明珠”的超算系统中,也需要有一位“军师”对任务作业进行优化调度,从而达到更高的作业效率,这位“军师”就是集群工作负载管理软件。

在南京大学超算中心,就有着这样一位顶尖的“军师”——IBM Spectrum LSF。

南大的超算“情缘”

南京大学坐落于钟灵毓秀、虎踞龙蟠的金陵古都,是一所历史悠久、声誉卓著的百年名校。南大的基础学科享誉中国,两弹一星功勋中的任新民、黄纬禄、钱骥、朱光亚、程开甲、赵九章,国家最高科技奖得主中闵恩泽、吴良镛、刘东生、张存浩等著名科学家都是南大校友。

大气科学、化学化工、地质科学等基础学科需要海量的数据处理和大规模计算。正因如此,南大从很早以前就开始采用高性能计算来支撑科研项目,是中国高校应用HPC的先行者之一。早在1980年,南大天文系就建设了第一套超算系统,在2001年和2007年南大又先后对超算系统进行了扩建。

2009年,南大超算中心新建了机房,并开始建设新的超算集群。当时超算中心选择了IBM的一站式解决方案,包括机房的设计施工以及超算集群的建设等。计算节点采用IBM HS22刀片系统,集群管理软件采用IBM Spectrum LSF。超算集群共3200核,计算能力理论上高达34万亿次,实际计算能力32万亿次,当时在高校HPC中排名第一、全国排名第七,这让南大成为当时中国高校超算领域的“明星”。

如今,南大已经具备数学、物理、天文、计算机、化学、地质、生物、气象等多个国家重点建设学科,其中绝大多数学科需要大量的计算力来支撑。随着科研项目越来越多,范围越来越广,数据量越来越庞大,南大超算中心2009年建设的超算系统已经难以支撑诸多科研项目的需求。

南京大学超算中心的一位负责人曾经表示,由于计算能力不足,旧的超算系统到最后经常任务排的满满的,有时候一排一两个星期,很多学生做毕业论文都来不及,只好去校外租赁计算资源。

于是,2015年,南京大学超算中心投入5000多万元,开始着手建造一套更为庞大的校级超算系统。这套新的超算系统具有910个计算节点,全部节点采用双路英特尔至强E5-2680 v3处理器,其中896个节点配置128GB DDR4内存、10个节点配置256GB DDR4内存,4个机架式GPU节点,每节点配置2块 Nvidia Tesla K40 GPU卡。集群采用了一套全闪存的并行存储以及一套IBM ESS高端存储系统,总裸容量合计超过3PB,集群管理软件仍旧采用IBM Spectrum LSF。

南大这套新的校级超算系统Linpack峰值达到了每秒873.6万亿次,是旧超算系统的近25倍;同时这也是一套非常高效的超算系统,运算效率超过76% (理论最高值为81%),南大超算中心也因此再次成为国内最大的高校超算中心。

新的超算系统已于2016年底正式投入使用,如今已经有一百多个用户账户,为大气科学学院、物理学院、地球科学与工程学院、化学化工学院等十余个学院提供服务;同时超算中心也提供对外服务,不少在旧集群做计算的老用户都已经将任务放到了新集群上来。

超算中心有位顶尖“军师”

正因为超算系统要同时支撑成百上千个任务作业,故而任务调度就显得尤为重要。如行军打仗,需要海陆空等各个兵种的高效配合,否则有再强大的军队和武器装备也可能打败仗;而超算系统也是如此,节点计算能力再强,如果没有合理的资源和任务调度,也无从发挥计算基础架构的能力,导致计算效率低下。

同时,高校往往没有大型的运维团队,如南大超算中心负责运维的团队只有5个人,所以希望超算系统管理能够简便、自动容错,同时希望以简便的方式看到系统运行状况、报表等;此外,超算系统用户有着很多分析和管理需要,如了解任务作业运行慢、排队、效率低下的原因,为管理和决策做支持。

——这就需要超算系统具有一个聪明的“大脑”来指挥调度,或者说需要一位经验老道的“军师”来“行军布阵”、“运筹帷幄”和“战场分析”。在南大超算中心,这位“军师”就是IBM Spectrum LSF工作负载管理平台。

IBM Spectrum LSF是一个强大的工作负载管理平台,用于要求苛刻的分布式 HPC 环境,可提供由策略驱动的全面的智能调度功能集,支持所有计算基础架构资源并确保最优的应用程序性能。

具体来说,IBM Spectrum LSF能够为超算集群提供计算资源的统一管理、统一的WEB访问、软件许可证自动排队和管理、资源运行情况和使用报表和工作流自动化工具,实现了软硬件资源共享调度,将所有软硬件资源有机地组合在一起,根据事先定义的调度策略,统一管理,提高软硬件资源的利用率。

在南大超算中心,有这样一位顶尖“军师”

在超算集群中,IBM Spectrum LSF这位“军师”擅于调度各种不同“兵种”。它支持异构环境,如小型机、x86服务器、胖节点、图形工作站、GPU和Xeon Phi技术,以及AIX、Linux、Windows、Mac OS、Cray XT、ARM等操作系统,还可以调度KVM,Citrix或Vmware虚拟机,对各种不同异构资源的调度游刃有余。

如韩信点兵,IBM Spectrum LSF能够掌控大规模的集群系统。支持单集群内5000节点、100,000内核扩展、50,000同时等待在线作业。支持多个LSF集群的扩展和共享模式,从而使得系统扩展无瓶颈上限。LSF作业调度系统具有大规模机群商业系统高可靠运营的成功案例,集群系统的平均无故障时间达99.95%,支持多集群间水平扩展,百万内核调度。

这位“军师”也深谙用兵之道,提供了丰富实用的调度策略。不仅提供抢占式调度、公平调度、循环式调度、先进先出、独占式调度、用户分组调度等通用的基础调度策略,还提供了许可证挤出排队调度、用户自定义调度器、基于网络拓扑的智能调度、基于用户服务协议的调度等功能,同时提供了CPU自动休眠低能耗技术,以更低的能耗将集群发挥出更高的性能和效率。

IBM Spectrum LSF还擅于做“战场分析”,它提供了详细的报表来展示集群资源运行情况和使用情况,展现整个系统软、硬件的使用效率、是如何被使用的,以及每个用户或项目对资源的使用情况,这些对用户来说都是非常重要的数据。利用这些数据,用户既能对任务作业的工作效率作出评估,又能找出资源的瓶颈,为任务优化提供依据。

据IBM项目负责人介绍,未来IBM还会为Spectrum LSF引入“认知”能力,使之分析能力更加智能自动化。“LSF可以通过经过一段时间的作业运行,可以把这些作业的实际特点以及资源的使用需求自动智能的得到很多分析的结果。然后根据结果自动调整策略的设定,而不是完全通过人。真正将超算系统变成一套具有自主智能系统。”

南大超算中心从2009年建设的超算系统开始就一直使用IBM Spectrum LSF,对其调度、计费、报表等功能赞誉有加,南大如今校级超算系统以及部分院级集群均使用IBM Spectrum LSF进行管理。

值得一提的是,南大超算中心所采用的是最新的IBM Spectrum LSF 10版本,其调度性能、吞吐率、软件功能等方面相对上一版本均有了大幅提升。“LSF 10相比上一个版本性能提升了5倍多,换句话说,同样一套系统、在同样的时间里LSF 10能够多调度5倍的任务;而相对一些开源的集群调度软件,LSF 10性能要高出150倍。”

在IBM项目负责人看来,IBM Spectrum LSF相比开源集群调度软件性能大幅领先,让集群能发挥更高的效率,实际更能帮助用户节省成本;此外,从开放性上来看,LSF提供了开放的接口,支持各种异构资源,是通过开放性来实现像开源那样的开放可控能力。而相对开源产品,LSF是一个成熟的商业软件,有着大量成功实施案例,久经验证,且具有更加长远的产品路线图和更加专业完善的服务,这是众多超算用户选择LSF的原因。

如今,不仅是南京大学超算中心,清华大学生命科学学院、上海交大等院校也采用了IBM Spectrum LSF工作负载管理平台;此外LSF在制造、航空、电子设计和制造等多个行业都有了大规模应用,有不少是超过万颗GPU的用户。

为高校HPC应用再树“标杆”

HPC是计算机界“皇冠上的明珠”,也被誉为“国之重器”。如今,随着各行各业计算需求的不断攀升,HPC早已走出实验室,进入更加广泛的应用领域。在2016年中国超算TOP100榜单中,有超过半数的HPC所从事的都是互联网应用。

高校是HPC的传统领域,随着科研、教学项目的深度和广度不断提升,近年来高校越来越重视HPC的建设、应用和人才培养。高校HPC应用已经不仅限于传统的大气、地球科学、物理、化学、天文、环境科学、生命科学、工业设计等科研及工程项目,亦已拓展到图像处理、动漫设计等新兴领域,或者用于校园云的建设,高校HPC应用可谓是遍地开花。

南京大学是典型的例子。一直以来,这所研究型高校都是HPC应用的先行者和“标杆”,其HPC应用规模和广度接连在中国高校保持领先,在过去六年中,南京大学超算中心完成作业数超过50万,用户计算总机时超过1.2亿, 为南大基础科学的研究和教育工作贡献巨大;而HPC助推科研和教学的显著成果也让南大对HPC建设及应用更为重视,形成良性循环,为HPC在高校的普及应用带来了很好的示范作用。

除了服务于南大各个院系,南大超算中心的这套新的超算系统如今亦已对外开放,希望为更多的学校、企业用户共享超算资源,进一步推广HPC普及应用,共同提升HPC应用水平。


分享到:


相關文章: