阿里巴巴GOC技術實踐經驗獨家曝光

在過去半年中,作為新零售的典型代表——盒馬鮮生飛速發展,比如:

2017年9月,盒馬鮮生五城十店同開,“盒區房”成為新零售行業新名詞;

2017年10月,盒馬鮮生上線SOS服務,實現30分鐘內必達;

2017年11月,盒馬鮮生推出“日日鮮”,蔬菜、肉類、牛奶等不隔夜;

2017年12月,盒馬鮮生首家便利店F2正式開業;

2018年1月,盒馬鮮生推出多品類7×24小時配送服務。

新零售的高效穩定運行有什麼秘訣嗎?

+

阿里巴巴GOC技術實踐經驗獨家曝光

為保證盒馬鮮生業務的穩定性,阿里巴巴GOC(Global Operations Center,阿里全球運行指揮中心)憑藉豐富的運維保障經驗,結合其業務的實際情況,在一個月內通過“運行無間”協助業務團隊完成多項穩定性任務的優化升級,保障盒馬鮮生半年內20多家門店在業務快速發展的同時,其業務系統始終穩定運行。

基於此,GOC新零售運維保障樹立了新的標杆。

如何做新零售的運維保障?目前階段,就是全生命週期新零售場景故障的管控,形成體系閉環,實現快速解決、持續改進,並支撐產品的有效落地。大致可以分為以下三個層面:

第一,線下門店故障的快速感知與恢復。新零售的線下門店強調用戶體驗,GOC通過業務監控、一鍵反饋、應急響應、快速恢復等方式迅速消除故障對於業務的影響,持續保障優質的可續服務體驗。

第二,智能硬件故障的高效有序處理及覆盤。新零售的智能硬件追求創新,GOC保障智能硬件在新業務場景下快速迭代創新的同時,杜絕故障重複發生。

第三,供應鏈故障的有效防範,即通過穩定性數據分析、倉儲配送鏈路穩定性建設,提前預判倉儲配送負荷高點,防止所有能預防的故障。

具體來說,按照阿里的運維保障域體系,可以分為以下七個部分:

1.故障防範

2.故障感知

3.應急響應

4.快速恢復

5.原因定位

6.故障覆盤

7.演練驗收

下面,將詳細介紹這七部分內容,具體來看如何保障新零售業務的安全穩定運行。

第一,故障防範。

在新零售故障防範階段,GOC重點關注三方面問題:一是數據運營,二是平臺管控,三是日常演練。

首先,看看新零售的穩定性數據運營。穩定性數據主要是圍繞業務連續性,一般來說,包含故障情況、處理時長、監控佔比、改進落地等維度,然後分析實際數據,出具規範的穩定性分析報告。但具體到新零售業務時,區域門店、智能硬件、採配物流等功能的流暢體驗變得尤為重要,因此我們也加大了對其穩定性情況地分析,比如統計故障具體影響多少門店;門店營業期間的故障耗時及佔比;故障中多少比例是門店投訴上來的,還是由監控先發現的。

其次,新零售平臺的管控。核心產品是ChangeFree,它是阿里巴巴基於數據運營實現變更管控的平臺。當新零售業務的故障剛出現時,線下用戶剛剛有感知,通過快速回滾就可以進行故障恢復。

這中間有兩個關鍵點:一是,看變更能否發到線上,期間會有一系列的管控,可以通過嚴格的變更紅線來衡量線上變更;二是,看變更到線上後是否符合預期,這是非常關鍵的。符合預期不是說是否符合變更人的預期,而是指它是否符合不影響線上業務的預期。這是客戶最在意的,也是GOC最關注的。比如阿里巴巴中臺的某技術團隊做了一個非核心的邊緣變更,但這個變更通過幾層鏈路的傳導,可能會傳到新零售交易的核心鏈路,那麼整個線下交易就會被阻塞。在出現這種情況時,如果沒有一個好的平臺作為支撐,用戶很難找到引發這個故障的具體變更。而GOC通過大量的實際案例,以及算法,可以輕鬆解決這類問題。

最後,日常演練很重要,要把它當作日常的事情來做。特別是對於新零售業務來說,日常演練必不可少。

第二,故障感知。

對於故障感知,GOC有三點心得。

首先是新零售業務監控。業務監控是監控的一種,它與故障等級定義相關聯,在保障新零售業務的穩定運行方面特別有用。例如,故障等級定義為當新零售交易量下跌超過5%達到重大業務故障級別,那麼一旦發生新零售業務某處量值異常下跌10%,全鏈路上某些系統穩定性偏低的團隊就會比較緊張,怕是自己的原因導致的,會採取措施儘快響應並恢復,否則時間久了,就會發酵成更大的問題。現在,大家都已認同業務監控的重要性,通過大家公認的業務監控,很多很複雜的故障,也能有效集中力量去快速恢復。

其次是全維度監控,即從各個維度,包括在IDC、網絡、應用、系統和業務等層面進行監控。業務層面還可以再細分,不是所有的接口都是很“致命”的接口,有些接口的重要性會降級。比如,“雙十一”時,會把購物車中是否已收貨的狀態接口降級,用戶暫時不可見,但是不會影響下單和支付。

最後是智能監控,其核心是為了解決報警不準的問題。一般來說,新零售業務剛開始的時候,業務量不太大,但很關鍵,會出現經常抖動的情況。GOC主要通過智能監控來解決頻繁報警的問題,即通過算法計算預測業務的基本趨勢形成一條業務基線,與業務實際值進行比較,報警可以只設一個相對於預測基線的水位有沒有下跌即可,不僅方便,而且準確。

第三,應急響應。

在新零售運維保障上,GOC做了非常多具有挑戰性的事情,比如7×24小時應急。新零售業務通常不會7×24小時營業,但是在非營業期間,往往會有更多的生產環境變更、演練等操作,7×24小時應急可以更好地保障新零售的業務連續性。

現在,GOC已經在美國的硅谷,以及北京和杭州實現7×24小時應急響應。未來,GOC希望在中東或者歐洲也能擁有一支具有快速響應能力的團隊,真正實現日出而作、日落而息的7×24小時應急服務。

第四,快速恢復。

對於新零售業務來說,快速恢復是最重要的事情。不管是故障感知,還是應急響應,其最終目標都是要快速恢復。往往快速恢復還有一個誤區:不是故障恢復了,業務就自然恢復了,有時故障可以先不恢復,而業務先恢復了。

這其中有一個關鍵點,就是隔離,隔離後就可以讓用戶不受影響。因此GOC推出了“一鍵恢復”,非常方便,在很多場景下,應急響應同學輕鬆一鍵,便能快速恢復故障。

第五,故障定位。

故障定位包含初因定位和根因定位。這是一對矛盾。

初因定位對於我們來講,最淺層的故障原因就兩種可能:要麼是容量不夠,要麼就是有變更。這裡的變更是指非常廣義的變更。阿里巴巴對於變更的定義是集團通行的,即生產環境中的一切操作都屬於變更,比如從跳板機登錄生產機的操作也屬於變更。

GOC對於變更的定義十分嚴格,很多開發人員並不理解。曾經發生過這樣的案例:較早前出現過一次影響面較大的複雜故障,詳查原因,原來是有人在線上改了一臺機器JVM的參數,產生了連鎖反應,影響到上下游很多應用。因此,在實際工作中要“敬畏”生產環境,嚴格把控。

第六,故障覆盤。

故障覆盤有兩個方面:總結沉澱和措施改進。ITIL中也有故障覆盤,就是把導致這個故障的前因後果按照時間序列列出來,並且列出所有故障改進的Action。

GOC會關注故障改進的及時完成率,而不是看完成率。為一個故障推出改進措施時,這個改進措施會影響故障的再次發生,如果及時將故障消除,那麼這個故障再發生的概率就會降低很多。如果不能及時消除故障,那麼第二天該故障很有可能再次發生。這個風險必須及時消除。新零售業務的很多團隊,在每次故障之後能夠及時核對和檢查改進措施是否已完成,及時發現線上的風險,並將其消滅。

第七,演練驗收。

演練驗收有一個悖論,每次運營人員問開發人員,優化措施是否完備,得到的答覆都是沒問題,但故障仍舊再次發生。而開發人員對此的解釋是,這是意外情況。

解決這一問題,應該通過演練進行驗收,跟進具體改進措施的結果是不是達到了預期。相比於淘寶、天貓,阿里巴巴的新零售業務雖然開展不久,但演練已經做了很多次。

演練驗收的一個核心點是,要具備隔離環境的能力,以及完善的演練機制,切實將線上的Action儘快落地到演練中,變成日常性的工作,只有反覆演練,才能在故障發生時做到心裡有底。通過演練系統,可以很快地落地,並且形成閉環,這對新零售業務團隊是非常寶貴的經驗。

通過運行無間最佳實踐落地的新零售運維保障方案可參考下圖所示。

阿里巴巴GOC技術實踐經驗獨家曝光

新零售的運維保障還在路上

+

從電子商務起家的阿里巴巴深知業務穩定運行的重要性。

新零售業務在發展的過程中,往往面臨問題渠道多,恢復速度慢,系統鏈路長,大量新型智能硬件廣泛使用的挑戰。但是GOC確實是一支善於打勝仗的隊伍,藉助運行無間最佳實踐,僅用一個月時間,就將新零售的代表盒馬鮮生的業務穩定性水平提升到阿里巴巴集團的平均水平,並且經受住了“9·28”“雙11”“雙12”等重大活動的考驗。

GOC在阿里巴巴有超過10年的運維保障經驗,曾協助阿里經濟體的各個業務,如B2B、淘寶、支付寶、天貓、手淘、阿里雲、釘釘、高德、優酷、盒馬鮮生等實現快速增長。GOC一直專注於運維保障領域,積累了數萬起故障管理經驗,以及超過百萬的工單管理經驗,在開發行業運維保障解決方案方面處於業內領先地位。

從底層的產品支撐,包括故障管理平臺、應急響應平臺、變更管理平臺、容災演練平臺、運行分析平臺,到涵蓋問題收口、監控發現、核心鏈路梳理、硬件業務監控、工單管理、快速定位、一鍵恢復等眾多功能在內的運行無間解決方案,GOC靠著對穩定性問題的深刻洞察,以及技術創新和解決實際問題的能力,使業務在基於實體門店和智能化物流、精準化運營的新零售道路上走得更加快速、穩健。

探索新零售運維保障解決方案的最佳實踐,GOC仍在路上。


分享到:


相關文章: