超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线

超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线

本文转自科研圈

超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线
超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线

插画:EMILY WAITE

撰文 莎拉·斯科尔斯(SARAH SCOLES)

翻译 张铭函

审校 阿金

二十世纪七十年代,当时世界上最快的超级计算机克雷一号(Cray-1)看起来并不像台超级计算机,倒像游乐场里把人转得晕头转向的大轮盘(The Round Up)的缩小版。它的周围包着一圈内藏电源的填充板,就跟甜甜圈一样,仿佛透过中间的洞我们就能看到核武器的终极秘密。

超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线

游乐场里的大轮盘(The Round Up)

在西摩·克雷(Seymour Cray)首次建造完这台计算机后,他给了洛斯阿拉莫斯国家实验室(Los Alamos National Laboratory)六个月的免费试用期。但在那半年间,“有趣的”事情发生了:这台计算机经历了 152 次找不出原因的内存错误。随后,研究者们认识到,宇宙射线中的中子会撞击处理器,摧毁数据。你所处的海拔位置越高,你的计算机越大,这个问题就越严重。洛斯阿拉莫斯凭着两千多米的海拔,以及它所拥有的众多世界上最豪华的处理器,毫无疑问地成为了宇宙射线的头号目标。

超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线

克雷一号

在那之后世界发生了巨大的改变,计算机也一样,但太空可没变。所以洛斯阿拉莫斯国家实验室不得不对此作出调整,他们让工程师在设计硬件和软件的时候,把太空粒子的影响考虑进去。“这并不算什么真正的大问题,”高性能计算机设计组的内森·迪巴德本(Nathan DeBardeleben)解释道,“这个情况已经被我们控制住了。”

捣乱的中子

对于现代超级计算机来说,从一台名为 Q 的计算机开始,这开始成为一个很严重的问题。Q 在 2003 年被组装好,运行速度比克雷一号快得多,它为美国做核武器的储备管理。但是,它崩溃的次数远超人们的预期——它第一次宕机的时候就让洛斯阿拉莫斯的科学家们开始真正担心起来自外太空、由带电粒子组成的宇宙射线。宇宙射线和大气中的化学成分碰撞,会散落成更小的粒子。“它们就好像阵雨一样,洋洋洒洒落在我们身上。” 高性能计算机设计组的肖恩·布兰查德(Sean Blanchard)说道。糟糕的是,其中的一些“雨滴”是中子

迪巴德本说:“中子能够反转计算机内存的二进制单位,把 0 变成 1,1 变成 0。”这对家用计算机来讲没什么。但洛斯阿拉莫斯拥有巨大的数字处理器。比如说早期的 Q,会让人想起杂货店内的货架通道。而现在,这个机构拥有的计算机能占满整个足球场,并且这些计算机能够共同解决同一个问题。很明显,足球场肯定会比后院淋到更多的雨,因此超级计算机受到宇宙射线中中子的影响也就比你手中的苹果电脑大得多

超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线

在洛斯阿拉莫斯,中子检测器遍布超级计算中心。(拍摄于洛斯阿拉莫斯国家实验室)

继 Q 之后,实验室工程师才真正了解到中子并不是什么中性粒子,所以他们正尝试在这个问题上先发制人。在安装新设备——比如三一超级计算机(Trinity machine)——之前,工程师们先进行了一次宇宙射线压力测试。他们把电子器件放在中子束流中,让比太空射线多得多的中子冲击这些电子器件,然后观察它们的状况。“我们故意这么做,想看看多强的中子束流能让这些构成超级计算机的器件崩溃。”布兰查德解释道。他们还会

把中子检测器放到超级计算机中心,去测量宇宙风暴的强度。“如果你知道会受到多少中子的撞击,并且知道它们如何影响计算机,你就能预测你的电子设备的使用寿命了。”太空科学与应用组的物理学家苏珊娜·诺威基(Suzanne Nowicki)说道。

超级计算机非常聪明,它们非常清楚知道哪里出了错。感受到某个被反转的比特,就像你会感到某个人在扯你的某根头发丝一样。而当这样的事情发生的时候,系统往往会简单地报告错误,并自行纠正过来,布兰查德解释道。但有些时候,计算机会更消极一些。他模仿道:“我发生错误了,反转的比特太多了,我修不过来了,但我希望你知道发生了什么事。”

当这样的事情发生在实验室的时候,工程师们就故意把电脑弄坏。就像是滑雪的时候故意摔倒,因为这能在发生其他更严重的事情前减少伤害。但是你也不需要走回山顶,再重来一遍:工程师们在寻求问题解决方法的过程中创造出了“检验点”。这就像电子游戏里的“存档”一样:如果你死了,不用从头来过。你只需要从上一个存档点开始就可以了。超级计算机也可以做同样的保存工作。

无法察觉的错误

但真正的问题是“无记载数据损坏”(silent data corruption),就是没有人注意到的二进制比特反转。你认为正确的答案实际上可能是中子诱导的一场梦。所以先发制人的工作才如此重要:他们时刻留意着会发生的问题和发生频率。同时,掌握了这个知识,工程师团队希望把无记载错误变成可报告错误。但如果确实有什么悄悄溜走了,那还有人类工程师能够及时抓住它。通常来讲,洛斯阿拉莫斯实验室不会轻易给出肯定的答案,除非人员的实际测试给出了合理的结果。

人工干预的部分原因在于洛斯阿拉莫斯实验室的研究确实与人们息息相关。“实验室的能源部门需要研究气候变化、新药研发、流行病学、疾病传播、野火建模、疾病建模、材料科学、新金属强度测定等等。”布兰查德解释道。并且他还补充到,洛斯阿拉莫斯之所以存在,就是为了核武器的制造。“我们是一个核武器实验室,”布兰查德说,“我们的工作是核武器的储备管理,保证管理工作安全、正常地运行,不出现意外。”

由于核试验禁令,唯一的合法管理核弹储备并消除大众疑虑的方式就是用超级计算机模拟其内部运行。所以这个地方必须将自身与地球辐射、太空辐射隔离开来。因为无论未来超级计算机会做什么工作,有一件事是确定的,布兰查德这样告诉我们:“每年,它们都是宇宙射线的攻击目标,而且会变得越来越‘显眼’”。

原文链接:

https://www.wired.com/story/cosmic-ray-showers-crash-supercomputers-heres-what-to-do-about-it/

-END-


分享到:


相關文章: