深度剖析淘寶內測故障:為什麼p1故障?為什麼3.25?


深度剖析淘寶內測故障:為什麼p1故障?為什麼3.25?

Photo by Wicliff Thadeu on Unsplash

01

3月25日註定不平凡,在阿里的新財年前,手淘APP爆出驚人的bug。用戶打開手淘時,提示彈窗:您使用的程序是內測版本,將於當地時間2020-03-28到期,到期後將無法使用。


深度剖析淘寶內測故障:為什麼p1故障?為什麼3.25?

此事,迅速在朋友圈傳播,眾說風雲。網友毒唐推斷該事故為s1級別,有員工被打3.25報復性的可能。在微博上,淘寶內測版本話題在8個小時有8097w的閱讀,傳播範圍非常廣。

深度剖析淘寶內測故障:為什麼p1故障?為什麼3.25?

與該日期相對應的是阿里的績效體系。3.25代表最低績效,拿到3.25,相當於宣佈自己近一年的付出都將付諸東流,不會拿到任何收益,包括獎金,股票或晉升資格。

後續淘寶回應稱,已經和技術GG溝通彈窗事宜,目前已經修復bug,更新最新版即可。網友毒唐的猜測純屬謠言。

深度剖析淘寶內測故障:為什麼p1故障?為什麼3.25?

這個事件,是開發GG上傳安裝包時出現了bug,該彈窗僅ios9.5.7版本才會出現,其他版本並不會復現彈窗。所以,很多網友並沒有看到彈窗,影響範圍相對可控。

毒老溼的淘寶也是9.5.7,內測提示彈窗會被其他消息彈窗頂掉,然後消失不見。在App Store查詢了手淘APP的更新記錄,發現該版本是在一週前更新,但卻在3.25日彈出,是否是人為故意就不得而知了,但至少是有人操作“失誤”導致了bug的出現。


深度剖析淘寶內測故障:為什麼p1故障?為什麼3.25?

截止到發文時間,毒老溼仍未收到最新更新提示,9.5.15版本為10小時前的版本,目的並不是修復bug,而是為了直播節。可能是推送的時間問題,很多同學已收到更新的彈窗提示,強制更新。


深度剖析淘寶內測故障:為什麼p1故障?為什麼3.25?

雖體驗很差,但卻不失為一種辦法。一般情況下,手淘不會強制用戶進行更新,因為可能會造成大量輿情,這是無法接受的,也會被定故障。


02

根據阿里巴巴2020年財報顯示,截止到2019.12.31,移動月活躍達8.24億,年活躍的消費者(一年內有過確認訂單的用戶)達7.11億,表現出極強的潛力。

深度剖析淘寶內測故障:為什麼p1故障?為什麼3.25?

擁有如此大體量的產品,產品經理對待任何功能都會小心謹慎和敬畏,尤其是彈窗。手淘首頁DAU在2019年雙11前已經達到2.89億,首頁的彈窗會直接觸達2.89億,無一例外。

毒老溼曾經在阿里做過雙11互動項目,就是大家常見的紅包雨玩法,會在每天的12點在淘寶首頁彈出紅包雨。持續15分鐘,會發放6000w的紅包。

深度剖析淘寶內測故障:為什麼p1故障?為什麼3.25?

即使現在回憶起來,心理也會突突的蹦蹦跳。

雖然只有15分鐘,但是瞬時流量達到了2000w。剛把玩法投放出去,就會觸達2000w用戶。

如果手淘崩了怎麼辦?如果權益沒發出去,會不會被投訴?如果文案出問題,會不會造成負面影響?

常在河邊走哪有不溼鞋啊。做了幾十次紅包雨後,某一次運氣比較差,在15分鐘內,沒發出一枚紅包,白白浪費幾千萬的流量。

手淘彈窗的申請是非常嚴格的,需要大大大大老闆審批,你懂的,不是隨便就能操作,這雖然不是事故,但毒老溼內疚。

幾十場的紅包雨,需要配置手淘彈窗。不是你想彈就彈,是需要審批後再去後臺配置

這麼大個蛋糕誰都想用,阿里那麼多業務,怎麼也要有個先來後到,輕重緩急。所以,會在控制彈窗的彈出順序和彈出時間。

比如紅包雨和簽到提醒兩個彈窗,紅包雨的優先級是100,簽到是89,在同一時間時,只能是紅包雨彈出之後,才會再次彈出簽到提醒彈窗。


深度剖析淘寶內測故障:為什麼p1故障?為什麼3.25?


好在是,手淘的技術牛x的很,不需要發版即可彈出彈窗,節省時間,提高效率,這也是各位同學可以借鑑的。

3.25事故彈窗的優先級,應該屬於最高優先級,而且彈窗停留時間無限,著實浪費用戶資源和精力。不過好在是隻有一個版本的用戶受到影響。


03


事故是否是有人故意為之,大家沒必要過多關注,但流程中的確存在問題。整個過程,是否經過審核?是否有測試發現?終究會有人擔責任,有功者獎勵,有過懲罰

阿里故障定責機制其實比較清晰,舉個螞蟻金服例子,定責有三大原則:

  1. 等級無下限,只要出現技術問題導致業務損失,就算故障。無論下跌多少,如點擊率從90%下跌到80%,播放時長從10分鐘降到8分鐘。
  2. 影響可用率的故障,定級最嚴厲,是p1級別。謠言的p0事故根本不存在,p0是需求優先級,p1最高等級。s1代表上半年,s2代表下半年。
  3. p2故障升級到p1故障,小於60分鐘。比如影響人數從5w到10w小於60分鐘,就算故障升級。

故障時間分為兩段,從故障發生開始到發現屬於故障發現時間,從發現到完全解決的時間,兩段時間的加和為故障時間。按照325事故的影響,時間延續至少12h

深度剖析淘寶內測故障:為什麼p1故障?為什麼3.25?

還有一種定故障級別方式,按照影響人數定故障級別。其中P1最嚴重,p4最輕。p3,p4故障需要各大影響業務線的TL審批,p1p2則是重大故障,需要bu接口人處理審批。

用戶反饋是比較重要的評估點,按照當前和上週諮詢量環比上升比例進行評估。比如上週諮詢量為100,這周突發到4000,這肯定是異常情況。

再者,故障諮詢的排隊數量和故障電話的接入量,也屬於故障的評估範圍。

所以,負責更新安裝吧的開發GG,是妥妥的被按在地上摩擦了,會被安排的明明白白的,P1故障沒跑。但是財年前節點,績效已經溝通完成,不確定是否會因為此事更改為3.25。

04

什麼是3.25?

經常會聽到阿里人說:xxx今年績效打了1,真難受。沒錯,1就是3.25,代表最差績效。阿里的績效評估是按照361模型,代表10個人中,3個最優績效,6個正常績效,1個最差績效。

最優績效是3.75,正常績效是3.5,最差績效是3.25。每個績效都會有+或-的區分,比如3.5+,3.5-,代表不同程度的績效水平。

什麼時候會打3.75?超出預期時。比如,你負責服裝活動,kpi是銷售4億。最後,你不但達成了業績目標,還和某個品牌簽了長期合作協議。這就是超出預期的好,會給3.75。

相反,如果你只賣了2億,還不及去年的水平,這是低於預期,加之平時你的態度不端正,和業務方溝通不暢等綜合因素,那自然而然的也會被打上3.25。

3.25不代表這個人能力不行,只是因為沒有達到目標預期而已。人算不如天算,有時候要看天的。

記得18年的雙12,服飾重頭戲,本來天氣很熱,禦寒的服裝很難賣出去。可天公作美,在雙12前,突然整個中國都被寒氣侵襲。恰好服飾大降價開始,天時地利人和,這波銷售遠遠超越預期,在頭3天就完成了KPI。

深度剖析淘寶內測故障:為什麼p1故障?為什麼3.25?

假設,天氣持續暖下去,還會有更多人來買羽絨服,保暖內衣嗎?KPI是沒辦法達成的了。

但如果身上背了故障,3.25會自然而來降到頭上。無論是之前做了多少的貢獻,即使賣了4個億,也不會手軟,這是原則。

現在只能為開發GG祈禱了,挺住,明年還是個好漢!

05

這件事情,給我們很多啟示,希望大家引以為戒,不要犯這種低級錯誤。

  • 認真,仔細對待每一行代碼,每一個操作。3.25是小,失去人心是大。
  • 對產品抱有敬畏之心,不要讓用戶去發現問題,主動要有報警機制,隨時提示異常情況,相信淘寶技術GG會去自省。
  • 對自己都不負責,還要指望別人嗎?細節要抓緊,多次review。
  • 低績效也無所謂,心態很重要,失敗乃兵家常事。
  • 一定要去大廠,感受淘寶教科書版的故障自救流程,既長見識,又長心!
  • 如果自己犯了錯,別連累你的老闆,他可能也要養家餬口。

最後,問大家個問題:如果這件事發生在你身上,如何力挽狂瀾?


分享到:


相關文章: