12.23 「AIOps」「第三章」——為什麼說AIOps的必要基礎是知識字典庫

在上一篇文章中,我們通過總結這兩年在AIOps的落地過程中積累的經驗,簡述了在構建與實踐AIOps的時候可能掉入的陷阱,尤其是對現階段AIOps發展水平的認知不足以及在技術的選擇兩方面產生的陷阱,同時結尾處提出了聯動北方未來AIOps的發展方向——即通過建立運維基礎知識字典庫從而實現基於理解的智能運維。

本篇文章將承接上文,進一步闡明為什麼說AIOps的必要基礎是知識字典庫。

01 基礎知識字典庫的含義及必要性

首先,我們來解釋一下基礎知識字典庫的具體含義。這裡所說的知識字典庫,指的是運維領域的各個IT產品累加形成的一個龐大的專業領域數據字典庫,其主要內容為各個產品的各類官方定義好的錯誤代碼的詳細信息解釋說明的總和,這些知識也正是我們理解IT產品的錯誤現象與原因的關鍵通道。

在本系列第一篇文章裡有提到,根據中國科學院張鈸院士的看法,AIOps目前所用到的深度學習已觸及天花板,但張鈸院士在最近的一次採訪中,同時也指出了人工智能未來發展的三個方向——

第一,建立可解釋性與魯棒的人工智能理論和方法;

第二,打造安全、可靠、可信的人工智能技術;

第三,開創創新的人工智能應用。

其中第一點,建立可解釋性與魯棒的人工智能理論和方法,在AIOps應用上則可以解釋為運維領域的知識字典庫是AIOps的必要基礎。

目前市面上的各種AIOps產品均是以標準的機器學習為基礎,對其系統收集產生的各類基礎數據做相關時序、趨勢等維度的分析和學習,並沒有真正理解各IT系統產生的各類信息的具體含義,所以故障或者狀態信息的可解釋性與魯棒則不成立;此外,AIOps的目標根因分析與故障自愈,也不能落地實現。

由以上兩點可以推導出,基於解釋可理解的運維領域基礎知識字典庫,是AIOps的必要基礎。

02 聯動北方的運維基礎知識字典庫

針對AIOps當前智能化不足的現狀,聯動北方提出並構建了業內第一個運維基礎知識字典庫。

運維工作中涉及的技術複雜而繁瑣,通過建立運維基礎知識字典庫,可以對官方已有的信息以及在實際運維操作中積累的工作經驗進行進一步的整理與規範,通過數據共享為後續運維工作提供參考,以達到提高運維服務效率及質量的目的。

根據知識是否與IT運維服務流程相關,運維過程中產生的知識可分為流程相關知識和非流程相關知識。

流程相關知識主要包括事件處理和問題處理中產生的知識,例如故障的解決方案等,以及在變更管理流程中產生的知識,如IT服務相關的制度和流程、針對不同事件和問題的解決方案(包括官方文檔與運維工作中的經驗補充)以及IT服務管理過程中產生的變更申請、測試方案、技術方案等。

非流程相關知識則主要包括針對運維領域額外補充的學習或參考材料,可以包括技術參考資料、網絡拓補圖等。

此外,聯動北方基礎知識字典庫並不是封閉的,而是開放的、可編輯的,為便於基礎知識庫的持續更新與完善、保證知識的時效性,同時方便用戶使用,聯動北方運維基礎知識字典庫提供了以下功能。

(1)支持將運維過程中的事件及問題轉化知識,將事件、問題的解決方案、優化建議自動納入字典庫。對於運維工作過程中遇到的問題,用戶可直接編輯並提交管理員審核,審核通過後便會加入字典庫;同時,系統支持單條知識導入和批量導入的功能,以便用戶的使用。

(2)支持知識關聯。系統內的知識點中存在相似或者內容關聯等性質的內容會自動進行關聯,進一步挖掘信息。

(3)支持搜索功能。系統支持分類搜索、快速搜索、高級搜索等功能,用戶可根據需要選擇合適的搜索模式,第一時間查詢到需要的信息。

(4)支持知識編輯。對於基礎知識字典中已經存在的知識,被授權的人員可採用更高效的方案進行補充與替換,同時系統會保存編輯記錄,方便後續核對與查閱。

​03 運維基礎知識字典庫的優點

通過創建基礎知識字典庫,能對運維基礎知識進行有效的管理,實現知識的創建、儲存、共享與應用,其作用主要體現在如下幾方面:


「AIOps」「第三章」——為什麼說AIOps的必要基礎是知識字典庫

(1)實現知識共享

運維工程師在工作過程中難免常常需要重複解決用戶的相同問題,通過建立字典庫,大多數重複的問題及其解決方案都可以從字典庫中簡單、直接地獲取,從而將相關工作人員從重複性的工作中解放出來,以解決其他新的問題,從而達到提升工作效率,降低IT維護成本的目的。

(2)實現知識轉化

在運維過程中,經常會遇到一些新的問題,其解決方案往往只有參與者知道,但通過將錯誤及處理方案加入知識庫,便可以實現知識共享。基礎知識字典庫的建立將極大促進知識的轉化,有利於提高IT服務部門的整體水平。

(3)避免知識流失

運維是一項相對依賴一線運維人員經驗的工作,許多知識往往集中在一線崗位工作人員的腦子裡,一些IT應用的操作或故障解決方法可能起初只有開發人員知道,一旦相關人員缺席或離職,很小的問題都可能引發極大的損失,而通過建立基礎知識字典庫則可以有效避免由人員變更造成的知識流失和信息孤島。

(4)挖掘應用信息

基礎知識字典庫不僅可以作為一種信息收集、整理工具,同時還是一種數據分析、統計工具。從問題查詢頻次、知識點擊率以及解決的用戶請求數量等信息,可以挖掘出許多有用的信息。通過對這些信息進行分析,IT服務提供者可以及時發現和避免一些潛在的問題,提高企業整體運行效率。

(5)提高運維響應速度和質量

當基礎知識字典庫的質量和數量積累到一定的數據量時,便可作為IT運維的強大儲備庫,配合基礎知識字典庫方便、高效的搜索功能,為快速響應IT服務需求提供了動力。而通過不斷地更新與迭代,能夠進入字典庫的解決方法一般來說是最正確、標準和高效的,能快速、高質量的解決故障也意味著能夠提升客戶滿意度,而這無疑是IT運維的最終目的。

通過建立運維基礎知識字典庫,可以將已有的知識進行串聯與共享,為AIOps提供一個可以理解與思考的大腦,也為AIOps的落地實踐奠定了堅實的基礎。

在下一篇文章,我們將結合應用實例,繼續探討如何避免AIOps滑向務虛與空中樓閣。


分享到:


相關文章: