AIOps 平臺的誤解,挑戰及建議(下)—AIOps 挑戰及建議

本文篇幅較長,分為上,中,下,三個部分進行連載。內容分別為:AIOps 背景/所應具備技術能力分析(上),AIOps 常見的誤解(中),挑戰及建議(下)。

前言

我大概是 5,6 年前開始接觸 ITOA 這個領域的,首次接觸後,發現領域有著巨大的潛力,一直尋找在這個領域做點事情的機會。大約三年前在這個領域創業,積極尋求 Product Market Fit。這幾年下來,經過與行業內的專家交流,研讀報告,閱讀論文,客戶訪談,親自動手對相應的運維場景解析,行業產品的試用調研,以及結合著中國運維市場現狀,撰寫了此文。本人才疏學淺,不學無術,歡迎拍磚。

挑戰

挑戰1:超越當前技術水平的期望

以下是其中一例,當用戶期望超越當前技術水平的一個典型的例子,車毀人亡。

AIOps 平臺的誤解,挑戰及建議(下)—AIOps 挑戰及建議

美國加州灣區高速上的一起致命車禍,。一輛價值$79,500的 Tesla Model X,在行駛至山景城段101和85高速交界時,突然撞上隔離帶,隨後爆炸起火。

對此,遇難華裔司機的遺孀 Sevonne Huang(下文簡稱Sevonne)首次公開發聲透露,丈夫生前曾抱怨過,特斯拉的自動導航儀,好幾次讓車子開向衝上防撞欄。Sevonne 說,將起訴特斯拉。

自動駕駛的安全性問題,再次把特斯拉推到風口浪尖上。然而事後,雖然特斯拉發聲明稱,抱歉發生這樣的悲劇,但同時也將責任指向了死者,“車輛再三發出警告,提醒司機操控車子,但事發前,司機並沒有把手放在方向盤上。自動駕駛儀並不能避免任何事故。”

司機對於特斯拉的 AutoPilot 過度相信,最終導致了悲劇了發生。

雖然目前的智能運維,所造成的結果可能不會那麼嚴重,但是按照Gartner 技術成熟度曲線來看,AIOps 還處於非常初期的階段(左下角),超越現階段的期望,是 AIOps 最大的風險。

AIOps 平臺的誤解,挑戰及建議(下)—AIOps 挑戰及建議

中國的企業用戶往往有大而全的建設方案,如何從企業的實際情況出發,制定節奏合適的規劃,我認為是一個很大的挑戰。

挑戰2:算法應用場景分散,成熟度不一致,通用性差,產品化,工程化困難,大部分場景距離實際應用有一定的距離

從目前來看,大家期望利用算法解決的場景包括:

  • 單指標異常檢測;
  • 多指標異常檢測;
  • 日誌模式異常檢測,根據日誌的類型的變化態勢,發現正常和異常情況下各類型日誌出現的模式;
  • 故障根因分析,方法多種多樣,有基於傳播網絡,有基於依賴,有基於概率數學統計等方法;
  • 容量預估,對現有業務情況進行分析,預測未來所需要資源使用情況;
  • 告警智能壓縮,基於根因,減少告警數量;
  • 故障預測,目前較為常用的場景為大批量,同批次硬盤的故障預測;
  • 基於知識圖譜(運維經驗)故障定位;

以上的每個智能場景,每個場景所需要用到的算法都不一樣,而且成熟度差異較大。

以最為簡單,但應用最為廣泛,成熟度最高的單指標異常檢測來舉例,從學術的角度來看,如果你到 Google 裡去搜索,你會發現有大約 60000 多條的記錄,時間跨度從上世紀 90 年代到幾天前的都會有。

從商業化的角度來看,目前從我看到的,比較成熟的也只有 Elastic 公司所收購的 Prelert 的異常檢測技術,是產品化的比較好的,普通的用戶是容易理解,容易使用的。

AIOps 平臺的誤解,挑戰及建議(下)—AIOps 挑戰及建議

這已經是 30 年來,集合了那麼多頂尖的智慧,所能達到的產品化程度最高,通用性最強的場景了。其他的場景,成熟度,或者通用性肯定是不如本場景。

例如故障預測,目前比較好的案例是預測硬盤故障,前提是你擁有大量同樣型號,相同批次的硬盤,其中某一些硬盤出故障了,從 S.M.A.R.T 信息中,你才能夠獲得訓練集,然後利用模型去預測同一個批次的故障。這種前置條件,通常只會在特定的用戶,例如騰訊,百度的數據中心,一次性購置上千塊的,才能出現1到15塊的故障硬盤 (據統計,硬盤的故障率在0.1%~1.5% 左右),而且就算有用戶根據硬盤的情況,訓練好的模型因為每個用戶的機房,電壓,溫度都不一樣,很可能沒有辦法進行復現,因此,此場景通用性極差。

如果要將用於預測硬盤故障的算法,用到某一個 IT 業務系統之上故障上,基本上也是不可能的,因為一個系統,相應的參數,變量,可能影響系統平穩運行因子太多,已經是沒有辦法套用到預測硬盤故障的算法裡頭來了。

還有,部分的算法,在實驗室中的效果非常好,準確率和召回率都很高,但是,消耗資源巨大,實時性差,沒有辦法投入真正的生產使用的可能性。

因此,在算法上,我們應該先去落地成熟,ROI 顯著的場景。

挑戰3:現有運維監控體系沒有完善

在無人駕駛技術領域,最核心的一個組件是 LiDar(激光雷達),一種運用雷達原理,採用光和激光作為主要傳感器的汽車視覺系統,LiDAR 傳感器賦予了自動駕駛汽車能夠看到周邊環境的“雙眼”。

世界上,幾乎所有的汽車廠商( Tesla 除外,Tesla 用的是通過攝像頭而實現視覺識別技術,所以我個人高度懷疑特斯拉的事故與此有關)在研發無人駕駛技術的時候,都會給車輛安裝上激光雷達。

而類比到運維的場景,如果眼睛不夠,數據不足,事情看不清楚,其實是很難做到明確的決策的,具體表現如下:

缺乏足夠的數據源: 有的客戶,沒有日誌管理系統,也沒有任何業務監控的手段,只有 CPU 內存,硬盤等基礎監控,這個時候,其實我個人上是不建議在現階段做 AIOps 的;

監控指標深度,專業華程度不夠:

這個問題很多時候反應的數據庫監控上,由於數據庫專業化程度較高,因此對數據庫的很多關鍵的指標未能識別,導致了關鍵信息的遺漏,可能會大大影響 AIOps 的落地效果;

配置管理不完善: CMDB 缺乏維護, 無法獲取系統間關係的描述,拓撲依賴,相關運維監控數據元數據缺乏管理,都會降低落地效果,特別是在故障根因定位中,缺乏關係描述所形成的有向無環圖,就很難利用傳播關係算法去幫助定位根因。當然,這個可以通過由 APM ,或者 NPM 工具,所生成的應用拓撲去部分彌補;

挑戰4:大數據基礎複雜,性能及多樣性要求高,元數據管理

整個 AIOps 平臺最核心數據平臺的部分,是要滿足以下的需求:

  • 高吞吐量,能實時處理海量,不同類型的數據(Metrics , Logging , Tracing);
  • 具備強大的流式計算能力;
  • 數據在插入後,能被準實時的檢索,聚合;
  • 數據變化多樣,會不停地新增動態列,數據存儲模型隨時會改變;
  • 超高的分析聚合計算性能,需要提供多維列式數據庫的分析能力;
  • 提供強大的實時搜索分析能力,可以通過關鍵字對事件信息進行檢索;
  • 具備一種或多種的數據查詢 DSL,便於實現不同的分析場景;
  • 具備歷史數據和近線數據的分別處理的能力;
  • 數據存儲能對接到多種的 ML 框架中,作為數據源,訓練模型;
  • 數據要能實現上卷預聚合,在進行長時間範圍聚合的時候,如月報等邏輯時,可以節約計算時間;
  • 大的查詢進入到平臺,平臺要有自我保護機制,不會造成故障;
  • 良好的元數據管理的能力,包括如果從那麼多數據中,按照模型還原相應的指標,以及指標間的關聯關係;
  • 能夠與在線的算法模塊進行集成;

以上的描述,都是 AIOps 的數據能力要求,往往需要多個大數據處理,存儲組件,才能滿足這種苛刻的要求,而且還需要無縫的整合起來,相應的工程技術難度非常大。

挑戰5:人才匱乏

目前在國內,無論是算法人才,還是大數據人才,都是比較匱乏的及昂貴的,在人才招募,項目預算制定的時候,要充分考慮相關因素。

從人才的意願來看,大部分的算法工程師及大數據工程師,更願意去參與一些離變現比較容易的場景,如推薦系統,視覺識別系統等,如何吸引更多的人才,特別是算法科學家等,讓他們感興趣,加入到 AIOps 的場景中來,也同時獲得較好的經濟回報,是整個業界需要考慮的地方。

建議

  • 企業結合自身的情況,合理控制期望,分階段進行演進,查漏補缺;
  • 建立一個完整的運維數據大數據體系是項目運維的關鍵,也是為智能化打下良好的基礎;
  • 以將整合指標數據、日誌數據作為切入點,落地逐步整合更多的數據源,產生更大的收益;
  • 智能化部分的落地場景優先聚焦在監控的異常檢測,以及日誌的智能聚類;
  • 立足運維,面向業務,將 Operation 的含義演繹為運營,為業務提供商業價值;

總結

AIOps 的確是一個非常革命性的概念框架,它從大數據和 AI 的能力視角,去顛覆或者完善現在的 ITOM 運維體系,給學術界,工業界,最終用戶,指明瞭一個明確,可持續高速發展5-10年的發展方向。可以預計,在未來 5-10 年內,大量關於 AIOps 的新思想,新理論,新技術,將會像寒武紀生命大爆炸時,不斷的湧現,創新源源不斷,作為業界工作者,作為企業,作為廠商,如何在這次的週期中抓住屬於自己的機會,這是一個很值得思考的命題。

AIOps 讓運維部門一下成了公司層面擁有數據最多的部門,運維人如何自身進化,從運維到運營,對大部分運維人來說,都是一個巨大的機會及挑戰。

雖然 AIOps 的確給我們帶來很多的想象空間,但是我們還是要以實際落地,實際幫助企業產生效率為導向,要避免跳入 AI 過熱的炒作風,一步一腳印,直面挑戰,持續演進,不斷吸收世界先進的經驗及思想,從而迎接未來這10年的黃金時代。

OneAPM 全新推出新一代 AIOps 平臺 I2,歡迎您隨時聯繫我們,即刻開啟貴公司的智能運維之旅。點擊進入 AIOps 官網瞭解更多信息。

來源:http://blog.oneapm.com/apm-tech/816.html


分享到:


相關文章: