AIOps 平臺的誤解,挑戰及建議(中)—AIOps常見的誤解

本文篇幅較長,分為上,中,下,三個部分進行連載。內容分別為:AIOps 背景/所應具備技術能力分析(上),AIOps 常見的誤解(中),挑戰及建議(下)。

前言

我大概是 5,6 年前開始接觸 ITOA 這個領域的,首次接觸後,發現領域有著巨大的潛力,一直尋找在這個領域做點事情的機會。大約三年前在這個領域創業,積極尋求 Product Market Fit。這幾年下來,經過與行業內的專家交流,研讀報告,閱讀論文,客戶訪談,親自動手對相應的運維場景解析,行業產品的試用調研,以及結合著中國運維市場現狀,撰寫了此文。本人才疏學淺,不學無術,歡迎拍磚。

我們第一部分主要講到了AIOps 的背景以及所需要的能力,我們這部分主要講誤解。

對 AIOps 誤解:

AIOps 等於可以減少人力資源的投入

  • AIOps 不等於無人值守;
  • AIOps 不等於 NoOps;
  • AIOps 不等於可以減少人專家的參與;
  • AIOps 可以降低人力成本;
  • AIOps 在現階段不等於可以省錢;

AI 的確是一個非常性感的詞彙,大家認為只要實現了智能化,就能夠輕輕鬆鬆,不需要人的干預,這當然是一個非常理想的狀況,但是,在短時間內,這個不能實現。這個的實現難度,個人認為,與自動無人駕駛,能實現第五等級是同樣的難度,也就說,可能起碼需要10年左右的時間,甚至可能更長時間。

AIOps 平臺本質上還是一個工具,在構建後,仍然需要人的參與,而且在目前的探索發展的投入階段,有大量的工需要去做,需要運維專家,大數據工程師,算法科學家,業務專家,暫時看不到能削減人力成本的可能性,而且相關的投入可能需要多年的時間。

在平臺建立後,在持續改進的情況下,仍然需要專家或者分析師,從不同的維度,從不同的業務口徑,組合合適的可視化技術,機器學習技術,大數據分析技術,制定分析場景,平臺才能夠為IT運維,業務分析產生持續的洞察,提供商業價值。

所以,AIOps 不能取代人,在現階段不可能減少人力投入,但在未來可能能促進部分運維人員轉型為通曉業務,掌握運維知識的數據分析師。

算法和智能化是AIOps最重要的事情

算法很重要,但是我個人認為,在此階段,大部分企業不應該以算法為第一著眼點。

這個應該是比較有爭議,或者,或者說大家認知不太一致的部分。以下這張圖是 Gartnert 在 AIOps 還在叫 ITOA 時候,給定義的四個階段:

  1. Data ingestion, indexing, storage and access;
  2. Visualization and basic statistical summary;
  3. Pattern discovery and anomaly detection;
  4. True causal path discovery;

Gartner 在報告中強調,掌握後面階段的前提是擁有前一階段的能力,如果不擁有充分的前一階段能力,將會影響 ITOA 的落地效果。因此這四個階段必須一個步一腳印,第三以及第四部時,才顯著地引入了機器算法,或者 AI 的必要。

大家都知道,所謂的機器學習算法,統計算法,深度學習算法這些 AI 的分類,其實是高度依賴於數據的。沒有多種數據源,數據的採集,數據存儲,數據統計,數據可視化,一切都只是空中樓梯。

AIOps 平臺的誤解,挑戰及建議(中)—AIOps常見的誤解

來源: Gartner Report “Organizations Must Sequentially Implement the Four Phases of ITOA to Maximize Investment ” 2015.2.18

因此,AIOps 的平臺的建設首先應該是著眼點應該是大數據,然後才是算法,從而實現持續洞察和改進的目標。

一定要上深度學習才叫 AIOps

我們可以先看看 AI , Machine Learning , Deep Learning 的關係,他們的關係大概如下圖。

AIOps 平臺的誤解,挑戰及建議(中)—AIOps常見的誤解

學術界有不少學者,在探索部分深度學習算法智能運維中的應用,如猶他州大學的《DeepLog: Anomaly Detection and Diagnosis from System Logs through Deep Learning》 中利用 Long Short-Term Memory (LSTM)來實現日誌模式的發現,從而實現異常檢測。但是,其實智能運維所需要的大部分算法,決策樹學習(decision tree learning)、聚類(clustering)、SVM(Support Vector Machine)和貝葉斯網絡(Bayesian networks)等等算法,均是屬於傳統的機器學習範疇的,因此 我們不應該將深度學習與 AIOps 掛上必然的聯繫。

甚至於,我們不用拘泥於概念,從解決問題的角度出發,在特定的場景,利用傳統的規則集,設定一些規則,降低了運維人員的工作強度,提高了效率,也能叫智能運維。甚至在Gartner 的報告中,對AIOps 落地的第一步,是統計分析,可視化,而不是任何的機器學習算法。

它適合現階段所有有規模的用戶

這個比較好理解,就目前來看,AIOps 只適合大型的客戶,原因如下:

  1. 中小型的客戶缺乏多種數據源;
  2. 中小型客戶業務需求沒有那麼複雜;
  3. 很多算法,其實是為了大規模運維的時候才用的上的,在規模小的時候,難以產生效果;

運維自動化是智能運維的前提

我看到過不少的文章,將運維分成了四個階段,將自動化運維放在智能運維的前一個階段,把智能,又或者在智能運維這個體系裡頭,硬是塞了很多自動化運維,批量操作,批量規劃的功能在裡頭,我覺得都是不對的。自動化運維更像是手,智能運維更像是眼鏡及大腦,有了更全面數據,更充滿的分析後,大腦能更好的指揮手進行操作。

AIOps 平臺的誤解,挑戰及建議(中)—AIOps常見的誤解

因此,企業應該將自動化運維和智能化運維看成了兩個有關聯的體系,但是不應該混一談,造成更多的誤解。

OneAPM 全新推出新一代 AIOps 平臺 I2,歡迎您隨時聯繫我們,即刻開啟貴公司的智能運維之旅。點擊進入 AIOps 官網瞭解更多信息。


分享到:


相關文章: