02.25 微盟公司重大故障,一天損失百萬,又是運維的鍋?

昨天上午,微盟公司發佈公告稱,其業務數據遭到人為破壞,經查證系微盟研發中心運維部核心運維人員造成的惡意破壞,目前生產環境和數據修復正在有序進行。


聽到這消息後做運維的都驚呆了。小夥伴們都在討論這事,據說損失要好幾百萬。

微盟公司重大故障,一天損失百萬,又是運維的鍋?

微盟公司重大故障,一天損失百萬,又是運維的鍋?

微盟公司重大故障,一天損失百萬,又是運維的鍋?

微盟公司重大故障,一天損失百萬,又是運維的鍋?

微盟公司重大故障,一天損失百萬,又是運維的鍋?

事件回溯

2 月 25 日一早,微盟集團發佈公告稱,SAAS 業務數據遭到一名員工“人為破壞”,已向上海警方報案,該員工已被刑事拘留。

微盟在公告中稱,2 月 23 日 19:00 ,微盟公司收到系統監控報警,隨後微盟公司立即召集相關技術人員進行排查,並與騰訊雲技術團隊一起研究制定修復方案。

經微盟公司技術調查後,確認線上生產環境業務和數據遭到集團研發中心運維部一位核心運維員工人為破壞,公司已於 2020 年 2 月 24 日向中國上海市寶山區公安局(“寶山區公安局”)報案,目前該員工已經被寶山區公安局進行刑事拘留,據微盟集團所知,該員工是因個人精神和生活原因做出了上述不當行為。

微盟公司重大故障,一天損失百萬,又是運維的鍋?

處理結果

根據公告,截止到 2 月 25 日 7 點,微盟的生產環境和數據修復都在有序的進行,預計 2 月 25 日晚上 24 點前生產環境將全部修復完成,微盟所有新用戶將可恢復服務,老用戶由於數據修復時間問題,微盟將提供臨時過渡方案,預計老用戶數據修復將可在 2 月 28 日晚上 24 點前完成。


如何合理防範此類事件?

看到網上有人說是被降薪,有人說是在家憋壞了,有人說生活壓力太大,對於這種人為因素造成的影響,企業如果提前做好風險預案,可以將損失降到最低。

在技術層面,有幾個建議:

1、完善數據備份恢復體系,核心數據庫不僅要做本地備份還要做異地的備份,異地備份可以放到雲存儲或者專門的備份服務器上,如果用到mysql,那麼binlog日誌也要備份,並做好基於 binlog 的閃回技術的演練。

2、如果用了雲數據庫一定要開啟自動備份和跨地域備份,發生故障或者被刪庫,最快的時間根據時間點恢復備份。

3、生產環境業務保存好文檔和自動部署的腳本,部署應用做好回滾的功能,當發生故障時可以快速回滾,或者環境沒了,可以快速部署新環境。

4、如果用雲服務器,可以將核心的管理機和核心的集群做好快照備份,這樣出問題可以最快時間用快照恢復集群。

5、在發佈流程方面,線上發佈做好審核發佈,業務負責人審核通過後才能正常發佈。

6、做好權限管理,危險操作雙因子驗證,例如刪除數據庫,自動化工具刪除線上服務器文件時候,業務負責人或者部門負責人需要短信郵件驗證。

7、推動K8S新型技術的升級應用,容器化發佈部署,應用出現故障快速利用鏡像回滾,K8s環境出現故障,快速搭建環境,並利用線上業務鏡像快速上線應用,這次微盟的故障,提供新用戶服務訪問就需要將近48小時,可能就是業務多,環境複雜,部署不夠自動化。

8、不斷學習新技術,當故障發生才能快速恢復,快來了解一下馬哥新課程裡面的雲技術、K8s、Ceph、Prometheus技術。


分享到:


相關文章: