“中国天眼”FAST的观测数据该如何处理?

没问题46938

国家重大科技基础设施 500米口径球面射电望远镜(FAST),位于贵州省黔南布依族自治州州平塘县克度镇金科村的“大窝凼”洼地

中国科学院国家天文台研究员、信息与计算中心主任崔辰州博导向我们介绍了在天文观测中遇到的数据挑战:

被誉为“中国天眼”的FAST是世界最大单口径、最灵敏的射电望远镜。理论上说,FAST能接收到137亿光年以外的电磁信号,这个距离接近于宇宙的边缘。FAST这将是一个100亿光年的数字宇宙。

在FAST早期科技的时候,将会采用漂移扫描的观测模式,这种观测模式会采用19波束的接收机,它的带宽是400兆赫兹,通过1G的频率进行采料,原始数据的产生率是38个GB每秒,压缩后会小大概是原来的1/5到1/6,也就是6GB每秒。进入正式科学观测后,每天将产生50TB(1TB=1000GB)的数据。这样计算下来,每年会有数百PB(1PB=1000TB)的数据资料产生。国内除了FAST,我们还有像郭守敬望远镜、悟空天眼卫星,以及在南极的天文台等等很多的项目。这些国内外的项目,其实带给我们的就是大数据。这些数据是天文学家做科学研究、探索宇宙奥秘的精神食粮。

现在一块3.5英寸的存储硬盘容量在8-12TB之间,以10TB来计算,数百PB的数据量,就至少需要数万块硬盘来进行支持。可以说,“天文数字”一词直观体现了天文学面临的首要挑战:海量数据存储和超大规模计算。根据预测,到2025年,天文观测相关的数据采集量将达到每年250亿TB。在一般的数据中心中,即便是将这些数据存储下来,可能都是一件无能为力的事情。更何况还需要对这些海量的天文数据进行分析处理,从中挖掘出对我们有用的天文信息。

用云存储 天文数据

云计算可以通过统一计算的方式提供出强大分析计算能力,还可以利用分布式存储提供海量数据的存储。这些天文数字的天文数据,是不是也可以通过云存储技术来进行存储呢?可是在国内又哪家云计算厂商可以提供如此巨大规模的云计算系统呢?

阿里云直面了这个挑战。阿里云自主研发的飞天超大规模通用计算操作系统,能够将百万级的服务器连成一台超级计算机,提供强大的计算能力。2016年10月云栖大会·杭州峰会上,中科院国家天文台与阿里云宣布结为战略合作伙伴,双方将共同开展跨领域的前沿科学研究和应用合作。成立“国家天文台-阿里云天文大数据联合研究中心”;共同完成中国虚拟天文台上云项目,打造全生命周期的天文大数据管理与开放共享平台;开发云上天文应用软件与服务;推进数据驱动的天文科普教育,通过互联网与大众共享数字宇宙;针对光学天文、射电天文、数值模拟和数据挖掘等领域的大数据技术与应用开展深度合作等。双方将以中国虚拟天文台为抓手,逐步实现国家天文台科技资源“上云”。

阿里云总裁胡晓明表示:“中国射电望远镜的能力,加上中国的计算能力,将通过互联网分享给全世界的天文科研工作者及爱好者。这正是我们所追求的普惠科技和无法计算的价值。

在阿里云国家天文台的合作中,中国天文台主节点已成功上云,涉及10亿个天体的数据通过云端的虚拟天文台向全球开放,包括LAMOST郭守敬望远镜。未来“中国天眼”FAST数据也将传输到阿里云上。上云后,虚拟天文台生成数据产品的周期将由原来的180天缩短到20天;数据的处理效率提升了20多倍(由一周缩减为8小时)。

天池助力 探索宇宙

天文数据不只需要在云上进行存储,同时还需要对这些数据进行分析,从而获得对宇宙的新发现。这就需要借助非常精准的大数据分析算法来对这些海量的天文数据进行深度的挖掘。然而对天文数据的分析,无论在中国还是在全球,都可以算得上是一个创举,也都是处于摸索之中。如何为天文数据找到理想的数据分析算法,也是一个全新的天文科学探索课题。

天池大数据竞赛是阿里云为深度挖掘大数据分析潜力而推出的一项竞赛活动,让参赛选手用算法解决社会或业务问题。在2018年1月19日,在国家天文台-阿里云天文大数据联合研究中心共同宣布启动“天文数据挖掘”天池大赛,面向公众开放天文科学探索课题,为选手提供云计算、人工智能技术,分析望远镜收集的真实天文数据,大赛吸引了近千人报名。

我们在这里也希望,通过这项赛事,可以为宇宙的探索寻找到适用的算法,让“手可摘星辰”的梦想可以早日实现。

来自科技行者团队 老董