AIOps落地關鍵點指南

隨著系統效率和複雜程度的日益提高,我們用於承載服務的IT環境也變得異常複雜。許多企業在向微服務和容器化的邁進的過程中,給已有的應用進一步增加了大量的服務組件。那麼如何管理和協調好各個組件之間的功能與關係,顯然是我們需要面對和處理的巨大挑戰。

對於大多數企業而言,他們的IT運營(IT Ops)團隊往往只能疲於應付上述複雜局面,且很難獲取到更多的實用信息與管理資源。而這恰恰是人工智能化IT運營(AIOps)一顯身手的地方。通過由大數據、數據分析和機器學習等技術所提供高水準的定製服務,AIOps能夠為當下流行的基礎架構提供的全面、且深入的寶貴支持。

下面我們來一起了解一下,那些涉及到AIOps落地實踐方面的關鍵知識點。

瞭解AIOps

如今,雖說已經出現了大量的自動化工具,但是IT Ops團隊卻無法收益於效率的提升。由於這些工具尚無法基於數據進行自動化的決策,因此人工運維的工作量仍舊十分龐大。

而AIOps提供了一種將數據分析集成到IT Ops中的更為精細的方法。它能夠根據組織的目標,來更好地支持可擴展性的工作流。

AIOps平臺的各種技術組件

AIOps落地关键点指南

AIOps的各種用例

異常檢測– 作為一種最基本的檢測方法,只有在檢測到數據中的異常之時,才會觸發某個補救措施。

因果分析- 為了快速有效地解決問題,AIOps能夠按需進行根本原因的分析。

預測— AIOps可以利用所支持的工具對未來進行自動化的預測。例如,它可以瞭解用戶流量的變更方式與時間,並籍此做出反應,進而解決問題。

警報管理– 它可以自動實施智能化的補救、以及閉環補救,而無需任何人工干預。

在AIOps和DevOps之間製造平衡

眾所周知,DevOps已經給許多企業帶來了文化上的轉變,而AIOps也有著異曲同工之妙。通過幫助企業從各種相互連接的、卻又分散的數據中發現潛在的洞見,AIOps讓企業的決策自動化變得更敏捷且準確。

對於企業而言,擺脫長期以來的信息孤島狀態是非常重要的,他們希望由自己系統所生成的數據能夠具有全局化的可觀察性(observability),而不僅限於單個部門或業務。

另外,通過AIOps,IT Ops管理人員的傳統職能也會逐漸轉化為系統現場可靠性工程師的(Site Reliability Engineer)這一角色。籍此,他們能夠利用手頭上收集到的信息、並以更加有效的方式解決碰到的各種問題。

儘管AIOps和DevOps的落地目標都是為了改進組織的服務、並提高總體生產力,但是AIOps還能夠通過減少妨礙生產力的干擾因素,來提高DevOps的各項實踐效率。例如:AIOps就能有效地減少來自各種平臺的誤報和通知的數量,由此DevOps工程師們便可以更加輕鬆地將有限的精力,集中到真正的故障問題之上。可以肯定地說,AIOps能夠對DevOps工程師、及其企業目標起到事半功倍的效果。

AIOps與時間管理

無論企業開發團隊的規模是大還是小,他們總是會遇到“時間緊、任務急”之類的常見問題。幸運的是,無論是在創建機器學習模型、還是在處理數據方面,AIOps都能夠通過靈活地獲取數據,以及處理大量新的信息,來幫助您在有限的時間內完成海量的任務。

過去,企業雖然深知高質量數據的重要性,但是面對其複雜性時,往往無法通過常規的數據分析,來進行解讀、驗證,甚至為自己所用。正如一份畢馬威會計師事務所的調查所顯示的那樣:由於與自己的想法或經驗並不相符,67%的CEO會不得不選擇性地忽略那些計算機驅動的模型、或由數據分析所提供的洞見與判斷。

如今,AIOps則能夠利用那些訓練有素的機器學習算法,“實時”地捕獲並維護那些高質量的數據,進而採用大量既有的用例,來實現快速準確的處理。例如:對於那些能夠檢測服務異常狀態的用例而言,快速識別錯誤代碼與信息往往是至關重要的。特別是在防範系統安全漏洞的場景中,AIOps能夠讓自動化且精準的方式為運營團隊,以最快的方式找到解決問題各種備選方案。

AIOps的日益普及

當然,擁有數據是一回事,而真正能夠有效地使用數據則是另一回事了。在實際應用中,企業往往需要利用機器學習的相關技術,來自動化地擴展目標應用及其對應的平臺。

根據MarketsandMarkets(https://www.marketsandmarkets.com/PressReleases/aiops-platform.asp)的預測:明年,企業採用AIOps平臺的增長率將達到34%,而目前的轉化率需求也正在持續增長。在不增加資源負擔的情況下,AIOps讓企業變得更加靈活,他們的響應能力也會更強。可以說,AIOps即將成為高度數字化時代的必備工具。

AIOps的落地

隨著越來越多的企業願意在運營中採用AIOps模式,他們所要面對的問題是:如何以與業務需求相適應的方式來接受它。以下是我們為您準備的一些有關AIOps落地關鍵點指南:

  • l實施團隊通過了解人工智能和機器學習的基礎知識,以便更好地運用相關技術。

  • 通過調查,發現運營人員日常工作中最耗時的任務。尤其是那些需要有效地轉化為自動化的重複性任務,往往最需要通過AIOps的干預來減輕作業的負擔。

  • 避免一次性涉及太多的方面。我們可以從小處做起,從高優先級的任務開始。一旦獲得了良好的反饋,則可以通過及時的評估,將該技術用例推行其他領域和任務的解決任務之中。

  • 針對不同的數據採用AIOps。毫無疑問,此舉可能需要比您想象更長的時間才能實現,不過您將會收穫更多有關當前系統的洞悉。此外,通過成功地定義各項參數,並及時地評估各項指標,您需要確保AIOps的各項工作能夠與組織的目標完美契合。

從應用成熟度來看

對於大多數組織,特別是IT部門的領導者而言,他們更熱衷於通過對於複雜事件與任務的自動化執行,來減少各類警報的數量,降低服務中斷和停機所帶來的成本。而在AIOps的採用和落地時,不同組織的目標可能會有所不同。不過,他們通常會希望獲得目標系統更全面的可見性,以及對於生產環境更有效的運營處理能力。

下圖展示的是一個五步走的成熟度模型。該模型能夠幫助組織確定自身在監視和自動化過程中所處的位置。

AIOps落地关键点指南

其實,AIOps主要適用於那些有著長期目標、並將其運用到以微服務為驅動應用程序的領域。也就是說,AIOps旨在確保組織內部信息的流動,以滿足整體架構和業務目標,而不僅僅是改善當前的運營流程。運營團隊需要從當前應用的角度出發,協同架構團隊、甚至是雲端支持團隊,重新考慮如何去感知整個堆棧。而且,這對於那些使用微服務所構建的應用程序尤為重要。同時,企業需要通過重新設計各種運營功能,來深入瞭解應用層的架構特點,進而讓恰當的數據自動流向應用開發人員,並提供各種必要的見解。

總結

如今,已有不少的企業嚐鮮式地採用了AIOps的運營模式,但是他們也碰到了不少實際落地方面的問題。希望上述建議能夠幫助您更平滑地實現向AIOps的轉化,並充分釋放AIOps的潛能。

CIO之家 www.ciozj.com 微信公眾號:imciow


分享到:


相關文章: