從ITOM到AIOps:IT運維管理向智能運維的進化

當前互聯網和移動互聯網發展迅猛,從事各個行業的企業為了應對日趨激烈的市場競爭,紛紛進行了數字化轉型,利用移動互聯網技術、雲計算及大數據等新興信息技術發展企業的數字服務,從而吸引客戶,幫助銷售和推廣產品,提升客戶體驗。

然而,隨之而來的是規模不斷擴大的IT系統、日益複雜的系統架構,以及海量的IT運維數據,同時公司業務對IT系統的連續性要求也進一步提高。

面對這些新形勢下的挑戰,IT 運維管理(ITOM)需要從原有的人工加被動響應,轉變為更高效、更智能化的運維體系,為新形勢下的IT系統保駕護航。

當前傳統的 ITOM 工具往往缺乏分析能力,雖然也能採集到運維數據,但無法對這些數據所包含的信息進行洞察,更加無法將數據進行知識化的本質提升。研究機構Forrester 曾在之前的一份報告中指出:“這些工具為我們提供了大量的原始數據,但能洞察出埋在這些數據中的有價值信息的能力還是非常稀缺的。”(來源:Turn Big Data Inward With ITAnalytics)

令IT運維團隊感到欣慰的是,智能運維(AIOps)踏著人工智能的時代浪潮應運而生。

Gartner在2016年發佈的報告中首先提出了基於大數據及算法(Algorithmic IT Operations)的 IT運維概念。隨著人工智能的快速興起,Gartner 將 AIOps 的概念從原本的基於大數據及算法,擴充為基於人工智能(ArtificialIntelligencefor IT Operations,AIOps),期望通過大數據、現代機器學習及更多高級分析技術,提供具備主動性、人性化及動態可視化的能力,直接或間接地提升目前傳統IT運維(監控、自動化、服務檯)的能力。

AIOps 為IT運維提供了全新的管理思路。AIOps 的定義涵蓋的兩個階段,可概括為兩個層次的提升:數據到信息分析層次的提升;信息到知識提取層次的提升。

从ITOM到AIOps:IT运维管理向智能运维的进化

從數據到信息的分析,更多的是採用數據統計方法,幫助運維相關人員更好地從眾多運維數據中瞭解系統的運行狀態,分析並定位故障,實時獲取統計數據。而信息到知識的提升更多的是希望藉助人工智能算法,在信息分析的基礎上通過機器學習的方式實現異常狀況檢測、故障/趨勢分析、故障關聯和精準告警。

根據權威機構Gartner的預測,比起現今5%這樣的數據比例,到 2019 年,全球25%的公司都將系統性部署實施 AIOps 平臺支持兩個及以上的主要 IT 運維功能。到2022年,40% 的大型企業會通過大數據和機器學習的能力來幫助甚至逐漸取代傳統運維中的監控、服務檯及自動化流程。

AIOps重新定義了IT運維的管理方式,為IT運維團隊適時提供適當信息,以便實現以下幾點。

通過採集當前環境中的運維數據,集成現有IT運維管理工具,利用聚合數據分析的技術,對IT系統中各個環節的問題進行快速定位、故障排除和預測。

對來自業務環節中各個分佈系統的數據進行整體分析,合理優化IT服務,挖掘關鍵業務 KPI 指標,反哺業務端,幫助其做出明智決策。

通過大數據和人工智能技術分析用戶的行為日誌和運維數據,發掘潛在的系統安全和合規問題,為企業的信息安全保駕護航。

从ITOM到AIOps:IT运维管理向智能运维的进化

那麼AIOps究竟在IT運維中有哪有典型的應用場景呢?常見的場景大致如下。

全局日誌檢索

以一個典型金融行業為例,他們有上百個業務系統,面對每天產生的大量日誌數據(幾TB),日常運維過程中,當運維人員需要排錯或日誌巡檢時,需要逐臺登錄服務器, 無法集中查看和管理日誌數據;另外,日誌查詢方式比較原始, 比如 Windows 服務器,手動查看Event Log, Linux服務器則只能通過less、grep和awk等常見的Linux指令,無法從時間段、關鍵字、字段值統計等方面進行多維度查詢。

AIOps平臺通過收集各類數據源(包括操作系統、系統軟件、數據庫、應用日誌等),統一進行管理。不同於以往每次僅可查看數量有限的幾種日誌,運維人員可通過智能運維平臺所提供的關鍵字、統計函數、單條件、多條件、模糊查找等功能,在多個系統中快速定位故障信息,幫助運維人員從全局視角查看系統的運維數據信息。

複雜多維報表,應用深度監控

AIOps將各系統的運維數據進行統計分析並生成各類實時報表,對各類運維數據(如應用日誌、交易日誌、系統日誌)進行多維度、多角度深入分析及可視化展現,以業務視角實時展示各種業務指標,具體如下。

快速發現故障,精準告警

實時採集各類運維數據(日誌、監控系統告警、性能數據等),通過對歷史數據的挖掘和分析,AIOps 可以找出哪些告警和事件是頻繁一起出現的,並將其認看作同一類故障的告警,從而把多個告警和指標合併,推送給運維人員,做到精細化告警,避免傳統監控工具因一故障而導致的告警風暴,生產告警噪音。

縮短故障解決時間

通過運維數據可視化(複雜多維報表,熱力圖)及精細化告警信息,結合以前發現問題的經驗知識庫和模型,從而將運維信息從平面變為立體,立體展現故障樹分析,通過推導路徑使運維人員對於問題的定位更加快速、直觀,使得問題的解決更加容易。

預測未來

進行數據挖掘,生成分析類報表,進行趨勢/容量/故障預測。例如,某些故障之間有時間上的先後關係,交換頁不足、內存不足會逐漸導致系統故障或應用故障,該系統建立關聯模型,發現前者故障,提醒用戶可能後繼可能發生系統故障或應用故障。在故障產生真正業務影響前,告知運維人員事先解決問題。

IT輔助決策支持

通過採集海量多維度數據,構建多元結構化底層數據倉庫,以搭積木的方式適配各類運維場景,並在場景裡刻畫系統和人員畫像,通過畫像形式來輔助企業進行IT 決策。

从ITOM到AIOps:IT运维管理向智能运维的进化

AIOps與現有ITOM平臺的關係具體如何呢?傳統IT運維管理平臺,即 ITOM 平臺,往往是為完成單一管理任務而設計的,更偏向於管理某一細分專業領域。

監控系統:負責IT系統的健康及可用性管理

IT服務管理平臺:負責配置管理,資產管理,事件/問題/變更等服務流程管理

SOC平臺:專注於信息安全管理

APM平臺:應用邏輯拓撲管理,應用故障診斷等

而AIOps平臺則構建在傳統ITOM平臺的上層,把ITOM作為分析的源頭,通過接口集成將各個 ITOM平臺組件中的孤立運維數據進行彙總,使其突破數據孤島的壁壘,其次藉助自身的關聯分析、機器學習、數據建模、全局搜索能力,幫助企業從IT系統的行為、狀態、配置、故障和事件中等多個維度,產生趨勢預判、快速故障定位和商業洞察等價值。

从ITOM到AIOps:IT运维管理向智能运维的进化

在信息架構與應用系統日漸龐大的今天,如果再通過人工分析定位的運維方式,很難適應目前日益快速增長的業務需求。規模不斷擴大的 IT 系統、日益複雜的系統架構,以及海量的 IT 運維數據對使用傳統ITOM的運維人員而言都如芒在背。因此,我們有理由相信AIOps能夠幫助企業及各類運維人員在大數據中找到合適的發展模式。現在是時候用一些類似人工智能的思維方式來為IT產業服務,使大數據的分析方向轉到IT運維上了。

鏈接:https://www.jianshu.com/p/431d22637bf8


分享到:


相關文章: