日本軟銀的重大通信事故分析報告終於出爐

2018年12月6日,對於日本運營商軟銀,簡直是噩夢般的一天。

下午13點39分,軟銀東日本和西日本兩大中心機房的18臺4G核心網網元突發故障,造成全網大量用戶無法正常通信。

軟銀被這突如其來的大故障驚呆了,從CTO到工程師,上上下下忙成一團,整整花了近兩個小時才定位出故障原因,直到下午18點04分才恢復故障。

本次故障歷時4小時25分,共計造成約3060萬軟銀用戶無法正常通信,是日本通信史上一次罕見的重大通信事故。

事故發生後,軟銀高層向用戶公開道歉,並承諾以後將加強設備備份管理,嚴防事故再次發生。

日本軟銀的重大通信事故分析報告終於出爐

由於故障發生在白天,影響範圍廣,對軟銀造成了極大的負面影響,股票大跌,5天內超過1萬戶用戶解約。

估計連日本總務省也驚呆了,直到20天后,也就是今天,才官方公佈確認“收到軟銀提交的嚴重事故報告”。

以下內容來自軟銀的故障報告…

概要

日本軟銀的重大通信事故分析報告終於出爐

發生時間:

2018年12月6日 13:39至18:04(4小時25分鐘)

影響內容:

4G LTE移動電話無法進行語音通話和數據通信。

部分LTE 固話和家庭Wi-Fi無法正常使用

由於4G網絡故障,導致3G網絡擁塞

影響範圍:

全國(約3060萬線用戶)

故障原因:

4G核心網設備(MME)軟件缺陷導致。

故障原因分析

故障具體原因為核心網網元MME(移動管理實體),即4G分組交換設備的數字證書(TSL證書)過期導致。

TLS(Transport Layer Security,傳輸層安全)是為網絡通信提供安全及數據完整性的一種安全協議。

軟銀解釋到,他們在東日本和西日本兩大中心機房合計部署了18臺分組交換設備,這些設備都是按照遠期需求配置,有足夠的負荷冗餘量,目前僅使用了30%-40%的負荷。

日本軟銀的重大通信事故分析報告終於出爐

同時,18臺設備相互備份,且均為池化部署,這意味著即使任何一臺甚至多臺設備發生故障都不會影響服務正常提供。

但是,數字證書過期這種事就不一樣了。

TSL數字證書過期,意味著系統無法識別那些連接分組交換設備的其他設備是否合法,此時,系統檢測到異常,根據軟銀現網設置,會採用重啟的方式來試圖恢復。

不過,數字證書過期這種事,即使重啟N次,也是無法恢復的,因此,就發生了不斷重啟的死循環,從而導致了這次重大故障。

日本軟銀的重大通信事故分析報告終於出爐

此外,由於4G網絡服務中斷,導致大量用戶轉移到3G網絡,這也造成3G網絡嚴重擁塞。

日本軟銀的重大通信事故分析報告終於出爐

數字證書過期了

為什麼沒有及早發現?

軟銀解釋到,該分組交換設備的數字證書不同於其他網絡設備。

日本軟銀的重大通信事故分析報告終於出爐

通常,對於其他網絡設備,我們在購買設備後,是可以自行確認數字證書到期時間的。

但分組交換設備的數字證書是通過嵌入式軟件固化在相應硬件裡的,作為運營商,我們無法確認到期時間。

日本軟銀的重大通信事故分析報告終於出爐

解決措施

臨時解決措施

本次故障是由2018年4月升級的Ver.1.14版本引起,而之前的Ver.1.08版本沒有問題,因此,臨時解決措施是從Ver.1.14版本回滾到Ver.1.08版本,但這會導致一些4G物聯網功能無法使用。

日本軟銀的重大通信事故分析報告終於出爐

中期解決措施

1)全網普查所有設備的相關證書是否到期,包括全網基站設備。

2)制定更加嚴格的新設備和新軟件版本入網測試規範。

3)要求在設備升級後一年內,保留舊版本軟件,以在新版軟件出現類似問題後,快速回滾到舊版本。

日本軟銀的重大通信事故分析報告終於出爐

永久性措施

1)要求以後所有購買的網絡設備和軟件,運營商均可自行檢查數字證書是否到期。

日本軟銀的重大通信事故分析報告終於出爐

2)更改系統異常檢測和應急機制,當系統檢測到網絡異常時,不再只是重啟恢復,而是設置異常告警級別,根據門限判定是重啟還是繼續運行。

日本軟銀的重大通信事故分析報告終於出爐

3)由於引起本次重大事故的原因之一是由於所有設備都來自同一家供應商,因此,要求在2019年6月30日之前引入多家設備供應商,以分散風險。

日本軟銀的重大通信事故分析報告終於出爐

看完軟銀的故障報告,感覺是字裡行間透露出一萬個“萬萬沒想到”,儘管各種備份容災都做到位了,但意外還是發生了。真是網絡安全無小事,運維責任重如山,令人警醒。

特別說明:本文來源於C114論壇咖啡不放糖網友文章,如侵權請聯繫我刪除文章!


分享到:


相關文章: