02.28 微盟“刪庫”引發的災備思考

最近幾年,由於技術人員故意或者有意造成的事故不計其數。2018年3月,Stack Overflow 發佈了他們的開發者調查報告,並首次提出了有關道德的問題。對於“開發人員是否有義務考慮代碼的道德影響”這個問題,有近 80%的人回答“是”。不過,只有20%的人認為他們最終在為不道德的代碼負責,40%的人會在被要求的情況下寫不道德的代碼,只有50%的人表示在發現不道德的代碼時會舉報。


突起風波


2月23日晚間,有著“新經濟SaaS第一股”之稱的微盟出現了系統故障,大面積服務集群無法響應,生產環境和數據遭到嚴重破壞,商戶的微信小程序崩潰,損失慘重。


微盟是微信第三方服務提供商,於2019年1月15日在香港主板上市。3月24日晚間,微盟集團公佈上市後首份業績報告,2018年營收8.65億元,較2017年同期增長62%,經調整淨利潤達5083.8萬元,同比增長355.3%。經調整盈利7300萬元,同比增長213.1%。受時間影響資本市場自然反應最為迅速,事件發生後,微盟市值曾蒸發約12億港元。


2019年4月,騰訊通過其子公司THL H Limited購入微盟集團9682萬股已發行普通股。加上此前騰訊已對微盟集團持有5867萬股,騰訊目前共計持有微盟集團1.55億股,持股比例7.73%,躍升為微盟集團第二大股東。


微盟“刪庫”引發的災備思考


25日早間,微盟集團向港交所發佈公告稱,2020年2月23日19:00左右收到系統監控警報SaaS業務服務出現故障,經調查,24日確定為集團研發中心運維部一位核心運維員工人為破壞,該員工已經被寶山區公安局進行刑事拘留。


微盟表示,2月25日晚上24:00前微盟對SaaS業務生產環境將修復完成,新用戶將可繼續使用公司的SaaS業務。老用戶的數據修復預計將在2月28日晚上24:00前完成。這也意味著老用戶的系統修復時間將長達五日。這個時間在眾人的眼裡似乎特別漫長。這也意味著老用戶的系統修復時間將長達五日。這個時間在眾人的眼裡似乎特別漫長。


這次的“刪庫”事件給很多公司帶來了很大的損失,超過300萬商家受到了“刪庫”事件的波及,而且還要面臨很多客戶的質疑、鉅額的賠償、競爭對手的調整,還會流失很多客戶,甚至許多客戶已經開始和其他的平臺進行合作,此次事件將給微盟將來的發展造成巨大的阻礙。


美國德克薩斯州大學的較早的一次調查顯示:“只有6%的公司可以在數據丟失後生存下來、43%的公司會徹底關門、51%的公司會在兩年之內消失。”


另一份針對這一課題的研究報告也顯示:在災難之後,如果無法在14天內恢復信息作業,有75%的公司業務會完全停頓,20%的企業在兩年之內被迫宣告破產。美國明尼蘇達大學的研究也表明,在遭遇災難的同時又沒有災難恢復計劃的企業中,將有超過60%在兩到三年後退出市場。


而隨著企業對數據處理依賴程度的遞增,該比例還有逐漸上升的趨勢。IDC在全球範圍內,針對多個行業的中小型企業(員工數小於1000名)的調研顯示,近80%的公司預計每小時的停機成本至少在2萬美元以上,而超過20%的企業估算其每小時的停機成本至少為10萬美元。


公告中對事情的原委進行了闡述,從一定程度打消的部分人的顧慮,但在現在的非常時期,對微盟和商家的損失卻是實實在在,“一時沒法統計”。


對此,英方軟件(英方雲)銷售總監張彬用“折射微盟災備機制不健全”來總結,另外,他還提到“很多企業因為各種原因,災備建設時,往往顧此失彼。”


雲災備趨勢不會變


微盟“刪庫”事件在業界引發了對雲災備的討論和質疑,眾說紛紜。


“微盟‘刪庫’事件不會影響不會改變雲災備的趨勢”英方軟件(英方雲) CEO 胡軍擎說:“英方軟件近十年來,旨在賦能企業改變傳統的數據及業務保護方式,在災備、大數據管理、文件共享和雲服務等領域為客戶提供高效、便捷、富有競爭力的產品及諮詢服務,以開放的姿態,與生態夥伴通力合作,為用戶的數字化轉型之路保駕護航。”


災備屬於數據處理與存儲行業的子行業,災備行業從是否通過雲計算方式實現可將其分為傳統災備及雲災備,隨著時代數據化、信息化進程的加速,中國企業用戶的巨大需求增量意味著未來幾年將是傳統災備及雲災備市場容量大爆發的時代。


微盟“刪庫”引發的災備思考


災備行業是近年來伴隨著網絡、數字化和虛擬化等信息技術的興起而快速發展的高科技朝陽行業。該行業主要通過向企業用戶或個人用戶提供容災的產品、解決方案及服務,從而滿足用戶在保護和管理數據等方面的需求,實現數據的安全存儲、高可用和業務連續性等目標。


在數據備份方面,63%的受訪者表示基於雲來實現,44%提到了災備。有預測顯示,目前全球數據量以每兩年翻一番的速度增長,到2020年全世界需要管理的數據將達到35ZB(1ZB約為1000億TB)。


雲計算、大數據等新技術和應用為該領域提供了新的發展機遇,雲計算的核心思想是將大量資源統一管理和調度,向用戶提供按需服務。基於雲計算技術,災難恢復系統成本更低,恢復速度也更快。


雲計算作為一種按使用量付費的模式,可以提供可用的、便捷的、按需的網絡訪問,進入可配置的計算資源共享池(資源包括網絡,服務器,存儲,應用軟件,服務),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務供應商進行很少的交互。胡軍擎說:“雲計算的使用,可以大幅度減少用戶的IT資源與人力成本的投入,同時獲得更加彈性和強大的計算能力,對快速拓展業務非常便捷。”


胡軍擎說:“大數據就是生產力,數據作為生產資料已經逐漸成為全行業的共識,這必然導致災備需求的持續快速增長,使得災備行業成為信息產業中最具有持續成長性的領域之一。

根據賽迪市場調查顯示,2005年中國災備市場規模只有三十幾億人民幣,2007年,中國災備市場規模已經達到73億。根據IBM的調研,到2020年,全世界產生的數據量將是目前的44倍。中國已經從中央層面重視起數據安全,全國各地智慧城市的發展將為創新創業企業提供巨大的商機。


簡而言之,雲災備服務獨有的高性能、高可靠性、高擴展性、易維護性、責任風險低以及高性價比的服務特色,為企業和政府數據信息系統“保駕護航。”


災備智能成為化下一個熱點


雖然企業的工作負載變得越來越多,如文檔處理、文件分享、郵件、數據庫、操作系統、CRM、ERP等等,但各類負載正在向雲環境的適應性卻在增強,並形成數據中心的工作負載發展的明顯趨勢。為此,備份及恢復服務供應商對雲環境的親和性、對於雲環境的適應能力以及在滿足數據中心工作的可擴展性等方面都成為未來該領域的競爭熱點。


實現整個IT系統數據安全、業務連續性的智能化管理。災備智能化將更加滿足雲計算、大數據時代下數據在不同物理機、虛擬機、中間件、數據庫、雲平臺、不同混合環境下對數據自由流動、保護、分享的實際需求。


微盟“刪庫”引發的災備思考


胡軍擎說“英方雲災備智能化是一個涵蓋智能動態帶寬調節、智能彈性計算、智能切換監測等在內的統一災備系統,它基於英方等災備企業提供的智能災備管理平臺”。


1) 災備帶寬智能化

在智能災備的管理下,用戶可以根據需要自動調節帶寬的多少,比如全備份時需要100兆,非全備份時需要2兆。目前英方聯合華為和運營商的CloudOperaIES方案,已經實現落地應用。


2) 災備

在雲災備的環境下,生產端往往承擔較大負荷,比如服務器承載的各種應用,但是在災備端是沒有什麼負荷的,只是接受數據,只有當主機發生故障時,備端才需要進行切換接管,備端對CPU的佔用資源很少。對於用戶而言,智能化災備可以快速對CPU的數據進行增減,以匹配生產端的業務應用。


3)業務切換的智能化

災備不僅是數據的複製,還有業務的連續性,這涉及到業務的高可用切換。智能災備可以監測到業務的停止需不需要切換,讓切換更加智能,並且在災備演練和客戶真實發生故障時,都能夠達到秒級高可用切換,幫助用戶實現RPO與RTO接近理想值。


胡軍擎認為:“災備智能化的目的是為了幫助從業者能夠更加便捷、安全、高效地使用災備產品,無論何種方式的智能化,用戶對安全可靠又好用的產品永遠不會拒之門外,這是值得所有第三方災備供應商借鑑的模式。”


“技防+防人”隊伍建設正在加快


沒有什麼架構、系統、安全體系是完美的,哪怕你的系統可靠性達到了99.99%,也不意味著一定不會出錯。“不夠完美,還可以再好一點”這句話,永遠值得回味。


災備屬於小概率事件,但是潛在的威脅一旦發生,用戶所遭受的損失是驚人的。

近年來,隨著各個行業的業務信息化的快速發展,我們發現作為企業IT部門團隊越來越多。目前,金融、證券等有明確監管需求的行業一般會有專門的部門負責災備的規劃建設,其他行業的企業IT部門雖然沒有專門負責災備的組織,但也會有個別IT人員兼職災備規格建設的工作。


與此同時,對相關災備人員的資格認證也越來越多,DRI每年都在中國舉行CBCP的認證工作,培養一大批BCM領域的專業人才。


微盟“刪庫”引發的災備思考


未雨綢繆,有備無患是災備服務商給用戶保護數據安全與業務連續的方案。


眾所周知,導致數據丟失及業務故障的主要因素:


第一、難以控制的天災(火山爆發、地震、海嘯、戰爭等)


第二、無法預料的“人禍”(黑客攻擊、誤操作等)


第三、信息系統本身的脆弱性(BUG、漏洞等)


從近幾年的實際案例中,我們不難發現,雖然造成數據丟失的原因很多,但最大的因素依然是人為的誤操作及惡意刪除而導致的,這一比例大約佔75%。


業內分析人士指出,從微盟的公告看,故障的發現到生產環境的修復大概需要用53小時,用戶數據的修復大概需要5天。


反映出微盟在三個方面的重要短板:


首先是員工對《國家網絡安全法》等相關法律法規的認識不足,IT部門對《信息安全技術網絡安全等級保護基本要求》2.0的重視程度嚴重不足。


其次,公司對數據審計嚴重缺失。


最後,在運維和實操中對災備和災備演練嚴重不到位。


在《計算機信息系統安全等級保護數據庫管理技術要求》、《企業內部控制規範》中明確提出了對工作人員行職責分離,系統設置了權限角色分離,充分發揮數據審計的安全作用。微盟在公告中表示,員工通過VPN登入內網跳板機進行破壞,顯然對他的數據庫危險操作並未進行相關審計並得到有效攔截。


近幾年,由於技術人員故意或者有意造成的事故不計其數。2018年3月,Stack Overflow 發佈了他們的開發者調查報告,並首次提出了有關道德的問題。對於“開發人員是否有義務考慮代碼的道德影響”這個問題,有近80%的人回答“是”。不過,只有20%的人認為他們最終在為不道德的代碼負責,40%的人會在被要求的情況下寫不道德的代碼,只有50%的人表示在發現不道德的代碼時會舉報。


“雲計算內部的安全機制相當重要。”胡軍擎說:“作為一家長期專注於容災及業務高可用領域的高新科技企業,時刻關注著災備領域國內外的最新動態,並在長期的災備建設實踐中總結了很多寶貴的實戰經驗。”


因此,企業不僅需要從硬件的災備體系上防微杜漸,更需要從人員思想和習慣上培養災備意識,做好相應的管理權限分級等工作,逐步完善企業災備人才隊伍和機制體系的建設。


演練在災備系統變得日益重要


2017年6月1日,《中華人民共和國網絡安全法》正式實施。該法從保障網絡產品和服務安全,保障網絡運行安全,保障網絡數據安全,保障網絡信息安全等方面進行了具體的制度設計。該法第二十一條、三十四條明確規定關鍵信息基礎設施的運營者應當履行對重要系統和數據庫進行容災備份的保護義務,並在其他條文中規定了相應的處罰細則。


災備供應商不僅需要提供完善的災備演練系統,還需要保證災備演練系統的正常可用。對於已經進行災備建設的企業,需要充分了解業務系統更新、調整後,原有的災難恢復預案是否仍然有效;災備系統是否已經有效更新;


真正發生災難需要啟用災備系統時,災備系統的切換時間是否可以滿足業務的恢復要求;系統切換流程、步驟是否有遺漏和錯誤;如何在不影響業務的情況下完成系統回切,並保證系統和數據的完整性等等一系列問題;災備演練對於檢驗災難恢復預案的適用性、有效性,提升災備系統的實際恢復能

災備演練是基於不同災備類別中某一特定的場景而進行的,災難場景不同、災備技術複雜度不同,演練的技術過程與週期也不盡相同。具體的演練包括:系統更新、調整,原有的災難恢復預案是否仍然有效;災備系統是否需要進行有效的更新;系統切換流程、步驟是否有遺漏和錯誤;災備系統的切換時間是否可以滿足業務的恢復需要等等。


微盟“刪庫”引發的災備思考


常見的三種災備演練方式包括:

種災備演練方式包括:


1、 桌面演練

桌面演練也叫“沙盤推演”,是最基礎的災備演練方式。通過對初始災難恢復預案的一個理論驗證,進而測試急響應預案和災難恢復體系的完整性和有效性,使相關人員瞭解應急響應及業務恢復流程,全面驗證技術及業務管理指揮、流程操作、協調配合等方面的綜合能力。


2、 模擬演練

模擬演練以桌面演練結果為基礎,由IT部門與相關業務部門參加模擬演練,採用模擬數據和模擬業務系統運行演練。模擬演練的過程高度接近真實災難發生時的處理過程,通過演練可以

預案的可行性以及增加參演人員對災難處理過程的感知度與配合的默契度。模擬演練是一種對現有生產環境沒有影響的演練方式,由於需要虛擬出較為真實的使用場景,因此在技術上的要求較高。


3.實戰演練

實戰演練需要災備中心真正接替生產運行一段時間,是在具體設定的災難場景下,將業務切換到災備中心及業務恢復環境,並在完成數據、應用及業務恢復後由災備系統提供對內對外的業務服務,原來的生產環境可以


作為災備演練的最高的階段,實戰演練的場景最為真實,更易於發現潛在問題並進一步完善災備系統,但隨之而來的就是演練成本的提高。因此,在實戰演練中,也會存在很多挑戰,這時,關鍵是使其理解並支持演練能夠週期性地進行,同時發現問題及時改進才是成功的演練(無論是否用到真實環境),應避免流於形式的表演論是否用到真實環境),應避免流於形式的表演。


驗證已建成災備系統的可用性、有效性,通過演練結果來修正、補充、完善災備恢復預案併為災備系統的升級建設提供理論依據及數據指標,從而使企業在災備建設中有據可依,保證建成的災備系統能充分實現建設的目的、達到建設的目標。這就是災備演練的意義所在,並敢於考驗演練中團隊的決策與指揮能力。


未雨綢繆 有備無患 讓世界早有準備!



分享到:


相關文章: