02.27 微盟刪庫事件的深度覆盤報告

【百萬研報庫 微信隨心查】研報機器人:DISPLORE_DG

引言

人有“三不朽”:立德、立功、 立言。人無德不立,德才兼備,方堪大任,致良知。

本次故障及事件簡要回顧

  • 2020年2月23日,18:56分,微盟研發中心運維部核心運維人員通過VPN登入服務器,並對線上生產環境進行了惡意破壞;
  • 2月23日 19 時,微盟內部系統監控報警,出現大面積服務集群無法響應;
  • 2月25日7 時,生產環境和數據部分恢復,預計25日晚24點完成生產環境修復,新用戶恢復業務。老用戶預計到2月28日晚上才能恢復。
  • 微盟事後對惡意破壞生產環境的嫌疑人進行追蹤分析,成功定位到嫌疑人登錄賬號及IP地址,並於24日向寶山公安局報案。目前犯罪嫌疑人已被寶山區公安局刑事拘留,承認了犯罪事實。

事件影響

首先最直接的是經濟上慘痛損失。本次事件對微盟自身及行業都有較大影響。據相關統計,截至2020年2月25日10點整,微盟集團報5.620港元,跌幅5.23%。2月24日至2月25日10點整,微盟集團市值約蒸發12.53億港元,同時帶給微盟客戶的損失不可估量。

對於微盟的老用戶,將面臨超過5天的系統故障。對疫情期間本來正在經受門店歇業重創的商家來說,則是雙重致命打擊,真可謂屋漏又逢連陰雨。

其次,更深層次的是微盟的社會公信力受到較大影響。此事件是典型的運維安全側事件倒灌公司經營危機,此事件或將極大影響微盟的社會形象和商業生態。難免會讓公眾質疑其管理、服務和技術。

再者,此次事件對IT圈,對運維同行,對遠程辦公等等,都將是一次深深的警示教育,讓人深思,深刻警醒,也因此對運維發展,IT與企業業務關係都將產生深遠影響。

網友說法

就在前天晚上的晚餐時間,微盟出了一件大事,一個心情劇烈波動的運維同學刪除了數據庫,譁然一片,幸運的是,在微盟和騰訊雲的努力下,相關的數據都在有條不紊的恢復當中。

回溯這兩年的刪庫事件,可以說層出不窮,有誤刪的,有介質損壞的,有人為的,單從這件事來說,非常嚴重,始作俑者被拘留,企業受到很大的損失。所以怎麼吸取教訓,怎麼避免,下面通過網友對微盟事件的一言一語,面面俱到,管中窺豹,可見一斑,以部分預見事件全貌。

高手總在網友間,他們懂禮儀,知法律,通技術,會管理,下面就來看看各位網友怎麼評議微盟事件:

微盟刪庫事件的深度覆盤報告

微盟刪庫事件的深度覆盤報告

微盟刪庫事件的深度覆盤報告

微盟刪庫事件的深度覆盤報告

大咖觀點一:需要什麼樣的權限來約束運維?

很多人糾結於當今遠程辦公場景下的VPN的權限,此權限不是彼權限,今天我們談的是有關危險行為限制方面的權限,而不是運維職位所需要的履職權限。

其實人的行為比預想中的更加危險,尤其對於要害職位更甚,而這個危險一般來自於

  1. 不知道這個行為有多麼危險;
  2. 會故意的執行這個明明知道非常危險的一個行為,所以對於權限的控制首先要從對危險行為限制開始。

一直以來,筆者始終覺得在生產線環境下通過命令的方式是一種非常不好的習慣,在領導前面炫技的除外。

在我看來,一個公司的運維的技術能力強弱、安全管控體系是否完善完全可以通過運維人員的具體操作和權限控制來看出一二,完全人肉的敲命令顯得運維能力和安全管控體系越弱,自動化平臺化進行運維能力的輸出,則運維能力和安全管控體系越強。

  1. rm、mv、alias等危險命令應受到嚴格的制約;應使用盡量細化的權限認證;禁止直接使用 root 用戶,這些耳熟能詳的其實都是運維的門規,在日常運維中屬於必備的 checklist。可事實真的如此嗎?如何通過這些有效的手段來限制這些危險的行為?
  2. 一個良好的運維輸出能力應該是這樣的,人管代碼,代碼管機器,而不是人管機器。大家可能還記得 DevOps 的宗旨,提高組織級的效率和質量,放在這裡,何嘗不是一種很好的解決辦法,危險的行為通過機器來執行。從信息審計的角度來看,每一次的現網環境的改動,也是一點變更,也是一次環境的發佈,你可以追蹤,可以回溯,可以記錄,可以審計。
  3. 我們又回到阿西莫夫.機器人三定律,定律三:除非違背第一及第二定律,機器人必須保護自己。當一些危險的行為發生時,作為系統的使用者和管理者理應進行防範,除了checklist以外,還有更好的方式嗎?那就是分而治之,操作人發起操作請求,審核人審核操作請求,機器來執行請求。
  4. 過於放大權限的控制,其實也是不對的,這屬於一種開倒車,並不是所有的動作都是具備危險行為的動作。因為故障和災難不同,除了人為的,老天有時候也會跟你作對,介質損壞,設備故障,病毒感染都會讓你的權限管控失去作用,該發生的故障都會不請自來,你的checklist、運維流程和權限系統將會毫無作用,所以需要什麼樣的權限來約束運維,又不會增加太多的人力物力財力,無非三點。(一)框定極具危險行為的動作;(二)平臺化自動化的運維方式;(三)線上複核的流程。

大咖觀點二:備份該怎麼做?

對於觀點一中提到的,當你的checklist和權限控制都無法hold住的時候,你需要的是一個具備實操的備份和恢復的手段。

通常來說,在沒有熱備份的情況下執行危險操作,不亞於開著200邁的跑車不繫安全帶,活著是你幸運。而在此次事故中,我們發現恢復時間是最亮的電,不亞於順豐刪庫事件中的恢復時間,十分的漫長。

經過仔細分析,除了始作俑者同時刪除了主備兩套庫,只保留了冷備份,這也是不幸中的萬幸,備份大家都有,那備份到底行不行?

  1. 備份時間的問題,全量和增量時間會影響你備份數據的數據失真,打個比方,你備份數據恢復到現網環境,在這時間段內,你對數據有一些增刪改,那麼你備份的數據就存在失真,所以你需要熱備份,且還需要備份所有DDL和DML語句的記錄。
  2. 恢復的驗證,很多公司執行備份策略數年中,從沒進行過恢復測試,其實真正有重大故障或災難來臨時,你會發現,各種問題讓你恢復失敗,比如介質問題、數據問題,還有操作問題。

反思和總結

工程師的職業道德

首先運維以這種形象走向社會的前臺中央,為同行所不齒,常言道,出來混是要還的!正如一位行業前輩專家所言:刪數據是犯法的行為,踐踏了技術人員的底線,應該嚴懲!

在談工程師道德操守前,理一下道德、制度、法律的關係,準確說靠道德和職業素養約束自身,靠制度規避風險,靠法律懲罰違規。其實所有風險完全靠技術來解決,成本將會非常的高昂,只有通過制度、技術,企業文化,價值觀各個方面來預防和警戒。

對於管理者來說,要使員工有所成就,意味著要把人看成是一種有著特殊的生理與心理特點、能力、缺陷以及擁有不同行為模式的有機樣本,還意味著要把人力資源看成是活生生的人而不是物。

對於工程師來說,需要的不僅僅的操守,更需要的是對法律和職業的敬畏之心,人生在世,要對自己負責,對家人負責,對社會負責。

雲廠商的選擇

雲計算引爆了互聯網的發展,越來越多的企業選擇了上雲,同樣可以預見,雲計算的明天就像今天的電力一樣,完全成為了信息經濟社會的基礎資源。

因此,雲廠商的選擇格外重要。對於微盟來說,事故發生後,騰訊雲技術團隊就第一時間與微盟對齊,研究制定修復方案,協助微盟將損失降到最低。

刪庫事件是不幸的,但選擇騰訊雲又是幸運的,不難想象,如果沒有騰訊雲的協助,後果可以想象。

法律法規普及

根據《最高人民法院、最高人民檢察院關於辦理危害計算機信息系統安全刑事案件應用法律若干問題的解釋》第四條:

破壞計算機信息系統功能、數據或者應用程序,具有下列情形之一的,應當認定為刑法第二百八十六條第一款和第二款規定的“後果嚴重”:

(一)造成十臺以上計算機信息系統的主要軟件或者硬件不能正常運行的;
(二)對二十臺以上計算機信息系統中存儲、處理或者傳輸的數據進行刪除、修改、增加操作的;


(三)違法所得五千元以上或者造成經濟損失一萬元以上的;
(四)造成為一百臺以上計算機信息系統提供域名解析、身份認證、計費等基礎服務或者為一萬以上用戶提供服務的計算機信息系統不能正常運行累計一小時以上的;
(五)造成其他嚴重後果的。

實施前款規定行為,具有下列情形之一的,應當認定為破壞計算機信息系統“後果特別嚴重”:

(一)數量或者數額達到前款第(一)項至第(三)項規定標準五倍以上的;
(二)造成為五百臺以上計算機信息系統提供域名解析、身份認證、計費等基礎服務或者為五萬以上用戶提供服務的計算機信息系統不能正常運行累計一小時以上的;
(三)破壞國家機關或者金融、電信、交通、教育、醫療、能源等領域提供公共服務的計算機信息系統的功能、數據或者應用程序,致使生產、生活受到嚴重影響或者造成惡劣社會影響的;
(四)造成其他特別嚴重後果的。

根據《中華人民共和國網絡安全法》第二十一條:國家實行網絡安全等級保護制度。網絡運營者應當按照網絡安全等級保護制度的要求,履行下列安全保護義務,保障網絡免受干擾、破壞或者未經授權的訪問,防止網絡數據洩露或者被竊取、篡改:

(一)制定內部安全管理制度和操作規程,確定網絡安全負責人,落實網絡安全保護責任;(二)採取防範計算機病毒和網絡攻擊、網絡侵入等危害網絡安全行為的技術措施;(三)採取監測、記錄網絡運行狀態、網絡安全事件的技術措施,並按照規定留存相關的網絡日誌不少於六個月;(四)採取數據分類、重要數據備份和加密等措施;(五)法律、行政法規規定的其他義務。

安全意識

安全意識培訓不能少,安全不僅僅是安全技術的責任,更是企業中每一個人的責任,按照網絡安全法,誰運營誰負責,因此企業法人更需要義無反顧的承擔運營安全第一人的角色。

安全運維是一個立體工程,全員工程,儘可能降低每個環節的風險,才能降低整體的風險面!單一防禦面一失萬無,沒有100%的安全,但安全意識是萬無一失的核心基因。

文化底蘊思考

中國文化,源遠流長,講究仁義,立德為先。以德立本,無本不立。本立而道生,道生則萬達,正如古訓:人有“三不朽”,立德、立功、 立言。

孔子所謂的仁,其實就是佛家講的大徹大悟、明心見性後的境界,一旦大徹大悟後,就會明白這個世界根本無我無他,萬物本是一體的,整個世界,整個宇宙都是我們自己。

王陽明曾說過,“無善無噁心之體,有善有惡意之動,知善知惡是良知,為善去惡是格物。”

結語

古人說:“大學之道,在明明德,在親民,在止於至善。”核心價值觀,其實就是一種德,既是個人的德,也是一種大德,就是國家的德、社會的德。國無德不興,人無德不立。

服人者,以德服為上、以才服為中、以力服為下。作為有技術特色職業運維同行,希望大家共勉,唯有德才兼備,方堪國家大任,致大道良知。

附:前些年那次著名的刪庫事件:

1:Gitlab 刪庫引發的思考:你也陷入到“人肉運維”的怪圈中了?

2:Gitlab從刪庫到恢復:丟失6小時生產數據,操作員應該被開除?

關於此次事件,您有些什麼話不吐不快的?敬請文末留言。


分享到:


相關文章: