波音737 MAX 上的告警風暴

前言:2019年9月26日,美國國家運輸安全委員會發布首份波音737 MAX 系列客機事故調查報告,認為波音公司曾忽視了駕駛艙警報系統的運作時間等問題,建議美國聯邦航空管理局對波音737 MAX 機型的駕駛艙警報系統進行評估。

美國國家運輸安全委員會認為,駕駛艙警報系統的混亂可能導致飛機駕駛員反應遲緩。波音公司此前忽視了這一系統的運作時間問題,造成飛行員可能在同一時間內收到多重警報,無法正常判斷和做出反應。而波音公司原本應該“更清楚、更簡明地告知飛行員,在同一時間收到多個警報時,應該用什麼順序去處理這些警報。”因此,波音公司可能需要對飛機的警報系統、駕駛員操作程序以及訓練系統等都進行調整。

前段時間發生了一件事情,那就是美國發布了首份波音737 MAX 調查報告,這份報告將事故肇因鎖定在了“波音公司曾忽視駕駛艙警報系統問題”這一關鍵事件上。

波音737 MAX 上的告警風暴

正所謂大風起於青萍之末,警報的發生必須引起第一時間的注意。只有及時發現,妥善處理,才能稱得上是應對危機的應有表現。

然而文章中卻遺憾引述道:

“飛行員可能在同一時間內收到多重警報。”

“無法正常判斷和做出反應。”

在紅燈亮起,滿艙喧鬧的情況下,唯一該對此作出有效反應的飛行員,卻是手足無措,思緒如麻。

災難便只能如大廈將傾般不可挽回地發生了。

波音737 MAX 上的告警風暴

救援人員在埃塞俄比亞墜機現場

正如體量龐大,事件繁浩的企業 IT 系統。其結構環環相扣,一旦發生任何小小的 IT 問題,便會牽一而動萬千,引起多米諾骨牌式的連鎖反應,進而造成難以挽回的巨大損失。

人們為了預防這些零星卻致命的事故發生,便啟用了佔據大量人力資源的運維團隊,消耗海量的時間與精力去層層提防,處處看護,唯求“天下”不亂。

然而智者千慮必有一失,再精良的運維人員,也有馬失前蹄之時。

只有毫無紕漏的機器思維,方能拋卻人類具有的雜念,化紛繁於極簡,無限接近於0失誤去處理複雜事件。

波音737 MAX 上的告警風暴

2017年5月28日,“中國圍棋第一人”柯潔迎戰谷歌公司的人工智能棋手“阿法狗( AlphaGo )”,最終以三局全負的結果徹底敗退,這讓廣大圍觀群眾第一次清晰而具體地見識到了人工智能的威力。

時任中國圍棋協會副主席的聶衛平更是斷言:

“人工智能的運算能力遠遠不是人類能夠匹及的。”

而運維界早已認識到人工智能威力的仁人志士們,早早便提出了一個先進的理念 —“智能化運維(Artificial Intelligence for IT Operations,簡稱 AIOps )”

旨在以人工智能算法,代替傳統運維,實現全自動的“智能化運維”。

有了這樣的運維方式,萬千繁雜不過小小云煙,三兩運轉即可抵擋千般疑難。

而睿象雲即是這樣一家,以打造“智能化運維”為己任,致力於讓運維更加輕鬆高效的公司。

波音737 MAX 上的告警風暴

在如今人工智能飛速發展的中國,優秀的新興產品不斷問世,其中,睿象雲傾力打造的匠心產品——智能告警平臺( Cloud Alert ,以下簡稱 CA 平臺),便是眾多告警平臺中的佼佼者。

在這場波音737 MAX 事故中,如果早些接入我們的 CA 平臺,妥善管理,則完全可以防患於未然,徹底在事故發生之前解決這場危機。

我們將“波音事故”的官方報告稍作總結,發現了產生事故的三個重大原因:

1.駕駛艙警報系統突發混亂,直接導致飛機駕駛員反應遲緩;

2.飛行員在同一時間收到多重警報,無法正常應對危機情況;

3. 警報未能得到有效回應,事態持續擴大,最終失控。

駕駛艙警報系統混亂

產生混亂的原因,往往是因為突發的告警繁多,不同監控環境同時產生大量問題,一時紅燈頻閃,讓人手足無措。

CA 平臺秉承著輕鬆接入,智能管理的原則,提供跨多家公有云的告警實時接入,同時支持 Zabbix 、Nagios 、Cacti 、Solarwinds 、Prometheus 等主流監控工具對接,實現對不同廠商,不同工具接入的告警集中管理,快速定位問題根源。

可以說,監控告警的及時、準確、穩定,對系統環境平穩運行起著至關重要的作用。

只有去除告警紊亂,才能避免系統混亂,從而保證“天下不亂”。

飛行員同一時間收到多重警報

多重警報撲面而來的場面,往往都是運維監控人員的噩夢。當系統在短時間內產生大量告警時,就會出現可怕的“告警風暴”,致使處理者不能有效地解決問題。

而 CA 平臺會自動基於時間序列,將相同的事件/告警壓縮,達到自動去重的目的,然後將相似、同源告警再次進行規則壓縮,再通過我們海量的算法積累進行智能降噪

使得最終呈現的報警有序而簡潔,避免多重警報,一眼洞察難疑。

因此,無論是龐大系統中浩若煙海的突發警報,抑或是巨型機器裡紛亂繁雜的運行錯誤,不會再有過往場景中,每一級別的人員都驚慌四起,面對眼前的告警心急如焚卻又手足無措的情況。

持有 CA 平臺,只需冷靜面對井然有序的告警信息,有條不紊地分門別類,按需處理即可。

大江河海奔騰來,皆化三千小涓流。

警報未能得到有效回應

警報未能得到有效回應。要麼是接受消息的人員認為問題無足輕重,予以忽視、要麼是通知消息接收人未能察覺,根本沒有達到有效傳達,導致事態愈演愈烈,形成事故。

就像我們在國際大片上經常會看到的經典橋段 — “一個重要的消息發送至主角的手機裡,他的精力卻關注在眼前的“佳人”上,導致重要消息遭到忽視,事態繼續升級,不消一會兒,便引發了‘危機’。”

波音737 MAX 上的告警風暴

電影橋段只為博君一樂,然而在現實生活中,忽視重要告警會產生類似“波音事故”這樣真正的危機,帶來巨大的經濟損失以及人員傷亡。

因此,CA 平臺特地開發了獨特的分派策略功能,首先,告警通知會通過多種方式發送,在短信、郵件此等普通傳達之外,還會進一步發送至你的社交 App ——如微信,釘釘等,甚至撥打你本人電話。確保接收者能查收告警。

CA 平臺還能區分工作時間段,告警只會發送給正在值班的人員,確保接受者處於能夠第一時間高效處理問題的狀態,智能通知,使命必達。

為保萬無一失,CA 平臺還具備逐級通知功能。當第一級通知人未能做出有效回應時,系統會自動下達通知到上一級,直至最高級別的傳達人。

在“波音事故”中,如果一線技術人員不對這個警告做出有效處理,那麼報警便會層層傳遞。

我們可以想象,當告警消息傳達至機長本人後,他斷然不會無視這樣的緊急情況,勢必會立即安排具體措施,妥善處理相關故障。

話止於此,CA 平臺如何通過自己的先進方式去預防這三類事故起因的工作機制也已講述完畢。

作為業內領先的智能化運維服務商,我們現在所做的事情真的很酷,酷到可以避免“波音事故”這樣的悲劇發生,酷到可以解放萬千 IT 運維人員的辛勞,酷到可以達成人工智能自動化運維這一終極目標。

我們雖未名滿天下,仍尚在奔跑之中。但我們始終秉承著一顆匠心,持續不斷地在專研迭代產品,目前的優勢便已可圈可點,至少在上述闡述中,已經展現地淋漓盡致。

沒有名氣不代表沒有實力,我們的能力可以撐起一片天地。

就像當初揚言要打造“中國黃頁”的 Jack ma 一樣。

波音737 MAX 上的告警風暴

波音737 MAX 上的告警風暴

《書生馬雲》紀錄片截圖

當他談論到可以將整個中國的商品信息錄入網上,提供給全球各地的人們購買之時。

人們也是說他“口號喊得震天響”,即使他當時的阿里巴巴網站已經表現出了不俗的實力。

就像今天,睿象雲的實力也已初具規模,而我們的理想也同樣偉大。

我相信,有朝一日,波音公司會前來與睿象雲洽談,希望接入我們的先進系統,為他們提供智能化運維服務。

我相信,這一天一定會到來,就在不久後的將來。

本文由“睿象雲”原創,轉載請註明來源。


分享到:


相關文章: