Azure日前出現大規模宕機,原因系人為配置 DNS 失誤

今日上午,針對北京時間5月3日微軟的Azure在全球範圍內出現了大面積宕機的情況,微軟官方發佈聲明,表示本次出現全球性宕機問題是由於“名稱服務器授權”問題所導致的。微軟解釋道:“工程師確認是由於影響DNS解析的名稱服務器授權調整影響底層root,並影響下游對計算,存儲,應用服務,AAD和SQL數據庫服務。在將舊DNS系統遷移到Azure DNS期間,Microsoft服務的某些域未正確更新。在此事件期間,沒有客戶DNS記錄受到影響,並且整個事件期間Azure DNS的可用性保持在100%。該問題僅影響Microsoft服務的記錄。

根據公司的聲明,儘管工程師在幾個小時內確定並解決了該問題,但是一些訪問具有錯誤配置的域的系統存儲了該信息,從而導致更長的恢復時間,直到錯誤的緩存過期。也就是說,微軟仍在調查這個問題,並承諾將在72小時內發佈詳細的根本原因分析(RCA)。

事情發生在北京時間5月3日凌晨3點43分開始,由於DNS配置失誤,微軟Azure雲在全球範圍內處於不穩定的狀態。

這次影響整個平臺的故障破壞了全球各地由微軟託管的各種系統:從Azure SQL數據庫和App Services,到多因子身份驗證、Microsoft 365、Teams、Dynamics、SharePoint Online和OneDrive,不一而足。

整個過程持續了將近2個小時,直到5點30分才完全恢復。受Azure宕機影響,包括Microsoft 365,Dynamics和DevOps在內的微軟主要服務均出現使用問題。

在Microsoft 365狀態頁面上,微軟的技術人員聲稱內部DNS配置錯誤導致了這次宕機:

用戶可能無法訪問Microsoft 365服務或功能。

更多信息:受影響的服務包括SharePoint Online、OneDrive for Business、Microsoft Teams、Stream、Power BI、Planner、Forms、PowerApps、Dynamics 365、Intune和Office Licensing。

“我們已找到並糾正了阻止用戶訪問Microsoft 365服務和功能的DNS配置問題。我們觀察到成功的連接數量增加,我們的遙測數據表明所有服務正在恢復。我們繼續密切關注環境,以驗證服務已恢復。”

其實這不是Azure第一次受到全球中斷的打擊; 2016年,全球DNS中斷影響了許多基於Azure的服務,包括SQL數據庫,應用服務/ Web應用,API管理,服務總線,HDInsight,媒體服務和Visual Studio團隊服務。今年早些時候,由於類似的中斷,許多Office 365用戶無法訪問其郵箱。


分享到:


相關文章: