06.29 阿里雲“炸了”,又是運維的鍋?

昨天,技術圈又出一次重大技術故障。這一故障,直接導致了國內半個互聯網癱瘓。

阿里雲“炸了”,又是運維的鍋?

6 月 27 日,據網友反映,阿里雲官網出現大規模訪問異常,圖片服務等產品無法正常使用,官網賬號也無法登陸。

阿里雲“炸了”,又是運維的鍋?

這次故障於北京時間 2018 年 6 月 27 日,16:21 左右開始,16:50 分開始陸續恢復。官方給出的故障時間大概持續 30 分鐘,陸續恢復時間有一個小時多。

阿里雲“炸了”,又是運維的鍋?

阿里雲掛了,技術圈沸騰了,以下是各路網友的吐槽:

阿里雲“炸了”,又是運維的鍋?

阿里雲“炸了”,又是運維的鍋?

阿里雲“炸了”,又是運維的鍋?

阿里雲“炸了”,又是運維的鍋?

最怕就是在上線交差的時候出現了 Bug。

阿里雲“炸了”,又是運維的鍋?

隨後,阿里雲正式發佈通告稱,於北京時間 2018 年 6 月 27 日 16:21 分左右,阿里雲官網的部分管控功能,及 NAS、OSS 等產品的部分功能出現訪問異常。阿里工程師正在緊急處理中。

阿里雲“炸了”,又是運維的鍋?

在 6 月 27 日凌晨時分,阿里雲給了官方說明,故障起因是上線一個自動化運維新功能時,執行了一項變更驗證操作,觸發了一個未知代碼 Bug,錯誤代碼禁用了部分內部 IP,導致部分產品訪問鏈路不通。

阿里雲“炸了”,又是運維的鍋?

阿里雲稱,“對於這次故障,沒有藉口,我們不能也不該出現這樣的失誤!我們將認真覆盤改進自動化運維技術和發佈驗證流程,敬畏每一行代碼,敬畏每一份託付。 ”

阿里雲近年故障歷史:

  • 雲盾升級觸及 Bug 造成服務器大量文件被誤隔離。正是因為這一低級錯誤,影響了大範圍的用戶,造成了用 top 進程、top 命令、apt-get 相繼被滅。
  • 阿里雲北京機房內網故障引發大面積服務異常。
  • 阿里雲香港服務癱瘓 12 小時主要是因為機房建設方和運營商電力故障,阿里雲直到電力故障發生近 12 個小時後才得以進入機房搶修。

昨日美國媒體報道,據美國市場研究機構 Synergy Research Group 的數據,今年第一季度,阿里巴巴超越 IBM 成為全球第四大雲基礎設施及相關服務的提供商,落後於亞馬遜、微軟和谷歌。

阿里雲故障,僅是運維操作失誤?

對於昨日阿里雲出現大範圍故障,今天凌晨,阿里雲官方微博公佈了故障的原因,直接原因是由於"運維操作失誤",改進措施是"覆盤改進自動化運維技術和發佈驗證流程"。

能坦誠的公佈問題,而不是用系統抖動或者光纖挖斷之類的詞來敷衍大家,這一點值得肯定。

除了公告提到的增強發佈流程驗證之外,重新審視系統整體的隔離保護體系我覺得也值得一做。故障的時間偏長,暴露了對突發問題處理手段及預案的匱乏。

一個不斷演進的系統,出現問題不可避免,反覆的強調或者追求不出問題未必是最佳的方向,讓團隊具備快速解決問題的能力通常來說更加可行。

出了問題後,只要有相應的手段來隔斷問題的範圍(類似大樓裡面的防火門),減少對非故障模塊的干擾,通常不會對用戶整體造成干擾。

從昨天的情況來看,要麼就沒有防火門的設計,要麼系統有類似的機制,但是處理人員不能熟練地啟用。

如果是前者,則需要重新審視整體架構,如果是後者,那就是團隊內部需要反思的問題。

寫在最後

每一次的故障確實不應該發生,但有時又難以避免。對此,不少網友表示,理解身為同行的程序員們,解決問題比解決人更重要。

阿里雲“炸了”,又是運維的鍋?

但是也有不少人認為:

  • 出了故障可以原諒,那客戶的損失該如何算?
  • 如果是沒按規範操作導致的事故肯定是要處罰的,否則這次事故的覆盤就是無價的經驗啊。
  • 技術人員肯定得背故障啊,但是這事應該要升級,不是說一個技術人或者開除就算了的。


分享到:


相關文章: