阿里雲大規模故障,宕機損失如何避免

阿里雲大規模故障,宕機損失如何避免


阿里雲又宕機了。

約在3月2日23時55分左右,沒有任何徵兆,阿里雲出現大規模宕機故障,位於華北地區的多家互聯網公司遭受到了故障波及,多個APP和網站開始陷入卡頓並且賬戶登錄異常,這場事故持續了三個小時左右。

3月3日凌晨,阿里雲官方回應稱“華北2地域可用區C部分ECS服務器(雲服務器)等實例出現IO HANG(IO不響應),經緊急排查處理後逐步恢復。目前我們已經全面排查其它地域及可用區,未發現此類情況。”

根據阿里雲描述,其在中國公共雲市場佔有率超過2至5名的總和,目前中國有40%的網站都在阿里雲上運營。再加上宕機事件發生在了處於曝光率高峰的週末,經過各大平臺的瘋狂傳播,導致這次事故備受關注。據專業人士分析,此次事故所在的華北2地域是阿里雲最早開通服務的華北地域之一,而ECS服務器又是阿里雲最為核心的IaaS(基礎設施即服務)之一,影響程度相對來說是比較大的。

此外,阿里雲還表示,針對此次故障,他們將根據SLA協議儘快賠償。但是到目前為止,阿里雲並未公開具體的賠償細節。據阿里以往的經驗,賠償很有可能按照故障時間的100倍進行,而具體賠償方案則要根據不同的付費模式來,總金額不會超過支付單臺雲服務器費用的額度。

這已經不是阿里雲第一次宕機故障了,從2012年開始,阿里雲幾乎每年都會發生一次故障。

2012年

10月30日,阿里雲部分服務器有30多分鐘的時間無法正常訪問,起因是電力故障。

2013年

1月18日,阿里雲機房發生臨時故障,部分用戶服務器無法訪問,20分鐘修復;

1月23日,阿里雲發生網絡系統故障,OSS服務無法正常進行,故障持續長達6小時。

2014年

11月14日,由於市政施工導致運營商光纖受損,阿里雲杭州可用區D網絡故障,受此事件影響,當天不少P2P平臺網站無法打開。

2015年

6月21日,一些使用阿里雲香港數據中心的用戶發現服務出了問題,服務中止12小時。此後,阿里雲公告稱由於運營商電力問題造成香港機房故障。

2015年

9月1日,有多位用戶在微博爆出運行在阿里雲上的系統命令及可執行文件被刪除,嚴重影響線上服務及運維。9月3日,阿里云云盾負責人吳翰清撰文闡述事件真相“工程師粗心大意寫錯一行代碼”。

2016年

7月6日,阿里雲北京機房內網發生故障,導致大量互聯網公司業務受到影響。阿里雲工作人員表示,10點20分北京區開始出現故障, 11點20分恢復正常。

2018 年

6 月27 日,阿里雲出現大規模訪問異常,圖片服務等產品無法正常使用,官網賬號也無法登陸。次日凌晨發佈官方說明,表示故障起因是上線一個新功能時,觸發了一個Bug,導致部分產品訪問鏈路不通。受影響範圍包括阿里雲官網控制檯,以及面MQ,NAS,OSS等產品功能。此次故障定位在在S1級別,整個阿里集團的核心業務,以及依託阿里雲的公司,很多都受了影響。

除2017年,阿里雲每年都會出現故障,有時甚至非常嚴重,這令企業用戶不得不擔心。事實上,宕機事件頻繁發生。僅2018年一年,全球主流雲計算廠商曾發生不下十起宕機事故:騰訊雲因硬盤故障,谷歌雲自動化機制失效,微軟Azure被高溫和累積影響, AWS北弗吉尼亞地區數據中心出現硬件故障。

如何避免宕機事故造成重大損失?從業務安全性,穩定性的角度講,企業在設計服務架構的時候,儘量要做到這幾點: 數據一定要備份、服務與數據分開、多平臺提供服務。


分享到:


相關文章: