復盤「前沿數控」數據丟失全程,騰訊云:我們不甩鍋

近日,受"前沿數控"數據丟失事件影響,騰訊雲一度成為雲計算領域"關注的焦點"。

在經過2天的發酵之後,8月7日晚,騰訊雲終於再次發佈聲明,並覆盤了"前沿數控"數據丟失的全過程。

此前,騰訊雲表示,因受所在物理硬盤固件版本Bug導致的靜默錯誤(寫入數據和讀取出來的不一致)影響,文件系統元數據損壞。

本次的覆盤,騰訊雲強調了事故的原因,聲明顯示:該故障緣起於因磁盤靜默錯誤導致的單副本數據錯誤,再加上數據遷移過程中的兩次不規範的操作,導致雲盤的三副本安全機制失效,並最終導致客戶數據完整性受損。

覆盤“前沿數控”數據丟失全程,騰訊雲:我們不甩鍋

從騰訊雲發佈的覆盤內容可見,出現事故的主要原因是磁盤靜默錯誤。而此前眾多人關注的"三副本存儲"問題,騰訊雲在福盤中也給出了答案。

首先,正常數據搬遷流程默認開啟數據校驗,開啟之後可以有效發現並規避源端數據異常,保障搬遷數據正確性,但是運維人員為了加速完成搬遷任務,違規關閉了數據校驗;

其次,正常數據搬遷完成之後,源倉庫數據應保留24小時,用於搬遷異常情況下的數據恢復,但是運維人員為了儘快降低倉庫使用率,違規對源倉庫進行了數據回收。

總的來說,數據完全丟失,因遷移過程沒有開啟數據校驗,導致數據出錯;搬遷完成之後,沒有保留原數據,導致不能恢復。

除了覆盤了"數據丟失"的全程,騰訊雲還針對數據安全性的問題,發佈了相應的改進措施。

覆盤“前沿數控”數據丟失全程,騰訊雲:我們不甩鍋

根據騰訊雲發佈的內容顯示,未來騰訊雲存儲,涉及數據安全的流程自動化閉環,進一步提升我們常規運維自動化和流程化,降低人工干預。同時,此前"數據丟失"事件人工干預的校驗數據功能,未來將不允許被關閉。

另外,騰訊雲還將優化巡檢機制,通過優先巡檢主副本數據塊、跳過近期用戶訪問過的正確數據塊等方法,加速發現該類錯誤,進行數據修復。

最後,騰訊雲還強調:"未來,本著對客戶數據最大的敬畏,騰訊雲將繼續探索更科學的機制,避免類似事件再次發生。"

至此,前沿數控數據丟失事故的全程已經全部明晰。

拋開數據丟失的問題,從這件事情整個處理的過程,不難看出騰訊雲作為國內雲計算大廠的態度。從及時發現問題,到超出行業37倍的賠償方案,再到最後聲明,騰訊雲沒有"甩鍋",盡顯了其作為大廠的風範。

目前,雙方究竟如何解決問題還沒有具體的方案,不過相信騰訊雲應該能給出讓所有人滿意的答案。


分享到:


相關文章: