超級計算機半年報錯152次,竟是因為“默默無聞”的宇宙射線

超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线

本文轉自科研圈

超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线
超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线

插畫:EMILY WAITE

撰文 莎拉·斯科爾斯(SARAH SCOLES)

翻譯 張銘函

審校 阿金

二十世紀七十年代,當時世界上最快的超級計算機克雷一號(Cray-1)看起來並不像臺超級計算機,倒像遊樂場裡把人轉得暈頭轉向的大輪盤(The Round Up)的縮小版。它的周圍包著一圈內藏電源的填充板,就跟甜甜圈一樣,彷彿透過中間的洞我們就能看到核武器的終極秘密。

超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线

遊樂場裡的大輪盤(The Round Up)

在西摩·克雷(Seymour Cray)首次建造完這臺計算機後,他給了洛斯阿拉莫斯國家實驗室(Los Alamos National Laboratory)六個月的免費試用期。但在那半年間,“有趣的”事情發生了:這臺計算機經歷了 152 次找不出原因的內存錯誤。隨後,研究者們認識到,宇宙射線中的中子會撞擊處理器,摧毀數據。你所處的海拔位置越高,你的計算機越大,這個問題就越嚴重。洛斯阿拉莫斯憑著兩千多米的海拔,以及它所擁有的眾多世界上最豪華的處理器,毫無疑問地成為了宇宙射線的頭號目標。

超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线

克雷一號

在那之後世界發生了巨大的改變,計算機也一樣,但太空可沒變。所以洛斯阿拉莫斯國家實驗室不得不對此作出調整,他們讓工程師在設計硬件和軟件的時候,把太空粒子的影響考慮進去。“這並不算什麼真正的大問題,”高性能計算機設計組的內森·迪巴德本(Nathan DeBardeleben)解釋道,“這個情況已經被我們控制住了。”

搗亂的中子

對於現代超級計算機來說,從一臺名為 Q 的計算機開始,這開始成為一個很嚴重的問題。Q 在 2003 年被組裝好,運行速度比克雷一號快得多,它為美國做核武器的儲備管理。但是,它崩潰的次數遠超人們的預期——它第一次宕機的時候就讓洛斯阿拉莫斯的科學家們開始真正擔心起來自外太空、由帶電粒子組成的宇宙射線。宇宙射線和大氣中的化學成分碰撞,會散落成更小的粒子。“它們就好像陣雨一樣,洋洋灑灑落在我們身上。” 高性能計算機設計組的肖恩·布蘭查德(Sean Blanchard)說道。糟糕的是,其中的一些“雨滴”是中子

迪巴德本說:“中子能夠反轉計算機內存的二進制單位,把 0 變成 1,1 變成 0。”這對家用計算機來講沒什麼。但洛斯阿拉莫斯擁有巨大的數字處理器。比如說早期的 Q,會讓人想起雜貨店內的貨架通道。而現在,這個機構擁有的計算機能佔滿整個足球場,並且這些計算機能夠共同解決同一個問題。很明顯,足球場肯定會比後院淋到更多的雨,因此超級計算機受到宇宙射線中中子的影響也就比你手中的蘋果電腦大得多

超级计算机半年报错152次,竟是因为“默默无闻”的宇宙射线

在洛斯阿拉莫斯,中子檢測器遍佈超級計算中心。(拍攝於洛斯阿拉莫斯國家實驗室)

繼 Q 之後,實驗室工程師才真正瞭解到中子並不是什麼中性粒子,所以他們正嘗試在這個問題上先發制人。在安裝新設備——比如三一超級計算機(Trinity machine)——之前,工程師們先進行了一次宇宙射線壓力測試。他們把電子器件放在中子束流中,讓比太空射線多得多的中子衝擊這些電子器件,然後觀察它們的狀況。“我們故意這麼做,想看看多強的中子束流能讓這些構成超級計算機的器件崩潰。”布蘭查德解釋道。他們還會

把中子檢測器放到超級計算機中心,去測量宇宙風暴的強度。“如果你知道會受到多少中子的撞擊,並且知道它們如何影響計算機,你就能預測你的電子設備的使用壽命了。”太空科學與應用組的物理學家蘇珊娜·諾威基(Suzanne Nowicki)說道。

超級計算機非常聰明,它們非常清楚知道哪裡出了錯。感受到某個被反轉的比特,就像你會感到某個人在扯你的某根頭髮絲一樣。而當這樣的事情發生的時候,系統往往會簡單地報告錯誤,並自行糾正過來,布蘭查德解釋道。但有些時候,計算機會更消極一些。他模仿道:“我發生錯誤了,反轉的比特太多了,我修不過來了,但我希望你知道發生了什麼事。”

當這樣的事情發生在實驗室的時候,工程師們就故意把電腦弄壞。就像是滑雪的時候故意摔倒,因為這能在發生其他更嚴重的事情前減少傷害。但是你也不需要走回山頂,再重來一遍:工程師們在尋求問題解決方法的過程中創造出了“檢驗點”。這就像電子遊戲裡的“存檔”一樣:如果你死了,不用從頭來過。你只需要從上一個存檔點開始就可以了。超級計算機也可以做同樣的保存工作。

無法察覺的錯誤

但真正的問題是“無記載數據損壞”(silent data corruption),就是沒有人注意到的二進制比特反轉。你認為正確的答案實際上可能是中子誘導的一場夢。所以先發制人的工作才如此重要:他們時刻留意著會發生的問題和發生頻率。同時,掌握了這個知識,工程師團隊希望把無記載錯誤變成可報告錯誤。但如果確實有什麼悄悄溜走了,那還有人類工程師能夠及時抓住它。通常來講,洛斯阿拉莫斯實驗室不會輕易給出肯定的答案,除非人員的實際測試給出了合理的結果。

人工干預的部分原因在於洛斯阿拉莫斯實驗室的研究確實與人們息息相關。“實驗室的能源部門需要研究氣候變化、新藥研發、流行病學、疾病傳播、野火建模、疾病建模、材料科學、新金屬強度測定等等。”布蘭查德解釋道。並且他還補充到,洛斯阿拉莫斯之所以存在,就是為了核武器的製造。“我們是一個核武器實驗室,”布蘭查德說,“我們的工作是核武器的儲備管理,保證管理工作安全、正常地運行,不出現意外。”

由於核試驗禁令,唯一的合法管理核彈儲備並消除大眾疑慮的方式就是用超級計算機模擬其內部運行。所以這個地方必須將自身與地球輻射、太空輻射隔離開來。因為無論未來超級計算機會做什麼工作,有一件事是確定的,布蘭查德這樣告訴我們:“每年,它們都是宇宙射線的攻擊目標,而且會變得越來越‘顯眼’”。

原文鏈接:

https://www.wired.com/story/cosmic-ray-showers-crash-supercomputers-heres-what-to-do-about-it/

-END-


分享到:


相關文章: