阿里雲出現大規模宕機,原因系 IO HANG,或將做出賠償

阿里雲出現大規模宕機,原因系 IO HANG,或將做出賠償

事件回溯

據網友爆料,3 月 2 日 23:55 分左右,阿里雲疑似出現大規模故障情況,華北相當多互聯網公司都炸了,一眾 APP 和網站陷入癱瘓,一大波程序員、運營和運維人員都趕去公司加班。晚些時候,阿里雲對此作出回應稱:華北 2 地域可用區 C 部分 ECS 實例狀態異常,導致該區域眾多網站和 APP 都無法正常使用,不少公司就此事在微博刊登出回應公告:

阿里雲出現大規模宕機,原因系 IO HANG,或將做出賠償


阿里雲方面暫無確切故障原因並尚未給出具體受影響範圍,其工程師正在進行緊急排查處理,並表示如果有進展會及時向用戶同步:

阿里雲出現大規模宕機,原因系 IO HANG,或將做出賠償


對此,不少程序員在微博吐槽,一時之間該話題之下哀鴻遍野。有網友懷疑是部分磁盤出現問題,凡是讀寫故障盤的系統軟件或服務程序均會受到影響。

對於此事,某公司市場總監在微博表示,一直以為阿里雲是公有云穩定的代名詞,但出現這種事件讓沒有配套私服的中小公司措手不及,如果有完善的備用方案,不至於出現大規模宕機。

阿里雲出現大規模宕機,原因系 IO HANG,或將做出賠償


截止發稿時,阿里雲方面回應稱:服務器等出現 IO HANG,正在處理並將對受影響的客戶進行賠償。

雲服務 99.99% 的安全性是否靠譜?

據瞭解,這不是阿里雲第一次出現宕機事故。

2018 年 6 月 27 日 16:21 左右,阿里雲也曾出現重大技術故障,16:50 分開始陸續恢復,官方給出的故障時間為 30 分鐘左右,恢復時間大概花費一小時。經過技術覆盤,阿里給出的故障原因為工程師團隊上線自動化運維新功能時,執行了一項變更驗證操作,該操作在測試環境中未發生問題,上線後觸發未知 bug。

本次事故被定義為 S1 級別,即核心業務重要功能不可用,影響部分用戶,造成一定損失。阿里雲發佈官方聲明,表示“對於這次故障,沒有藉口,我們不能也不該出現這樣的失誤!我們將認真覆盤改進自動化運維技術和發佈驗證流程,敬畏每一行代碼,敬畏每一份託付。”

根據筆者統計,僅去年一年,全球主流雲計算廠商就曾發生數十起宕機事故,原因更是五花八門,谷歌雲曾因自動化失效導致宕機、AWS 曾因數據中心出現硬件問題導致宕機、微軟 Azure

愛爾蘭數據中心曾因高溫和打雷陷入宕機、騰訊雲因運營和硬盤故障陷入宕機…

眾多安全事故頻發,雲廠商承諾的 99.99% 的安全可靠性是如何定義的?

不久前,筆者曾就雲服務的可靠性一事詢問阿里雲相關技術專家的看法,他表示,雲計算廠商得出 99.99% 可靠性這一數字是經過驗證的,通過客戶部署反饋,確實故障率在 0.01% 以下。並且,一旦出現故障,雲廠商也都有非常完善的容災方案,目前主流雲廠商已經在提供一定程度上的異構災備能力,比如,阿里雲的 3AZ 容災方案,同城一定距離的地方,用戶可以自己搭建跨 DC 方案,技術上能夠滿足異構容災需求。如果客戶追求極致容災能力,有可能建設混合雲或者採購多家雲廠商,架構會帶來很大成本壓力,但這種選擇應該比較少,就好比對安全可靠性要求極高的金融數據庫領域,也很少有客戶同時選擇兩種數據庫方案。

隨著雲計算使用量的持續增長,很多企業紛紛開始選擇放棄一些控制權,以降低成本。從業界來看,美國大多數互聯網企業已經放棄自建數據中心而大規模應用雲技術,例如 NetFlix 大規模應用谷歌雲服務,專注於專有云和 IaaS 的 Cloudera 和 Hortonworks 合併過冬。

單一雲平臺被企業大規模應用同時,這也意味著一旦出現問題,給企業帶來的損失和影響是巨大的,多雲再次成為重要討論話題。

多雲架構或許才是未來主流

根據 Gartner 調查,2018 年全球公有云市場整體增長為 21.4%,以亞馬遜 AWS、微軟 Azure 和阿里云為首的全球雲計算“3A”陣營佔據超七成市場份額。根據 IDC 數據,在中國市場上,阿里雲市場份額相當於第 2 到 9 名的總和。在全球市場,阿里雲已超過 Google 和 IBM 的雲業務。

據統計,目前 40% 的中國 500 強企業、近一半中國上市公司、80% 中國科技類公司在使用阿里雲,其數據中心也在全球範圍內增長。可見,國內企業對阿里雲的依賴程度有多高,這也讓單一雲平臺的綁定問題受到用戶關注。

中國平安運維部負責人曾在接受採訪時表示,很多大企業如今都會分散選擇雲服務商。一般情況下,小型企業受限於資金或人員等因素,可能會將所有服務放在同一雲計算平臺,但大多數中型企業還是傾向於選擇多個廠商。

負責運營的微軟Windows Azure與 Office 365 公有云服務成功在華落地的中國電信中立的第三方互聯網基礎設施服務商世紀互聯藍雲首席執行官柯文達曾在近期的採訪中表示,真正的企業級市場中,用戶一定是希望多雲,這其中就涉及跨雲管理的問題。當企業跨多雲運營時,每個地方所需要留的 buffer 就越多,浪費就越多。現在,跨雲管理其實是一個熱門話題,尤其是中大型企業,當應用分散在很多地方時,控管平臺可以很好得提高資源利用率和成本效益。

根據阿里雲方面的描述,未來的雲計算服務將越來越趨向於標準化,企業可以輕鬆得在不同平臺之間進行數據或者應用遷移,多雲管理的門檻將被大大降低。

隨著國內雲計算領域的逐漸成熟,多雲或許會是未來主要的發展趨勢,這一點從國外目前的雲計算發展變化中便可窺得一二。根據分析公司 Kentik 發佈的一份雲相關調查報告,目前企業更傾向於同時部署兩大雲服務,也就是多雲配對,多雲正在快速發展,可能會逐漸超過混合雲部署。國外,目前最常見的雲組合是 AWS 和 Azure,但也有客戶選擇 Google Cloud Platform。根據 Kentik 的調查,97%的受訪者表示所在公司使用 AWS,35%的受訪者表示也在積極使用 Azure,24% 的受訪者同時使用 AWS 和 Google Cloud Platform。


分享到:


相關文章: