重磅!獨家解密國內外第一個 AIOps 白皮書(正式版)

話不多說,有圖有真相,請看~

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

是的,文末有福利~

蕭田國

高效運維社區 發起人

AIOps 白皮書及標準 聯合發起人

DevOps 標準體系 聯合發起人

開放運維聯盟主席

復旦大學特聘講師

前言

在OSCAR聯盟(雲計算開源產業聯盟)指導下,高效運維社區匯聚國內 3BATJ 及電信、金融頂級 AIOps 專家及所在公司智慧結晶的《 企業級 AIOps 實施建議 》白皮書的第一版已經正式發佈( V0.6,下載鏈接詳見後文)。

本次分享內容源自 413 GOPS全球運維大會2018·深圳站,主要內容包括如下7點:

1、整體介紹

2、AIOps 的目標、指導原則

3、AIOps 的能力分級和能力框架

4、AIOps 的平臺能力體系

5、AIOps 的團隊角色

6、AIOps 的常見應用場景

7、AIOps 實施及關鍵技術

運維的工作重點向來以三大類為主:質量、成本和效率。 AIOps 也不例外,無不在強化或進一步優化相關內容。

一、AIOps 白皮書整體介紹

重磅!獨家解密國內外第一個 AIOps 白皮書(正式版)

上圖中劃叉的內容在本版本中沒有,即不包含: AIOps 指導原則、 AIOps 實踐路徑建議、AIOps 的效果度量。為啥?主要是因為還沒寫完 :)

本版未包含內容預計將在 914 GOPS全球運維大會2018·上海站隆重發布。

正如下圖所示,傳統的運維,用我們的血肉築起一座橋,這是很辛苦的,同樣也很容易崩塌。這個階段俗稱人肉運維。

後來有了自動化運維、 DevOps 和 AIOps 。

DevOps 的處境有些尷尬。有些傳統行業是抗拒 DevOps 的,認為這可能會導致運維下崗,或者被“吃掉”。

而且,有開發人員開玩笑的說,DevOps,居然讓神聖的 開發 和 運維 這樣的詞彙混在了一起。(可見 IT 內部鄙視鏈之深重)

更嚴重的是,DevOps 難以喚起公司業務及決策層的關注,很容易被顧名思義的認為無關業務(只是開發和運維之間的曖昧),只是又一個單純的技術概念(那就技術人員來做就好嘛)。因此需要做大量“教育”工作,但如您所知,改變一個人的認知,相對不易。

2016年開始出現的 AIOps ,相比而言更適合運維,而且更有格局。

Ops 終於和高大上的 AI 合理融合在一起,故障自愈、智能變更、容量預測等令人無比嚮往,其想象空間足以引起公司業務及決策層的充分重視。

我甚至可以據此說:運維,野百合也會有春天。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

清華大學裴丹教授把 AIOps 和自動化運維的關係做了界定,自動化運維需要具有行業領域知識和運維場景的知識,具有實際處理能力。自動化運維基於規則,適用於中小環境。

AIOps 是去規則化的,嘗試通過大量的數據訓練,自動琢磨出來規則,因此適用於大型或更復雜的環境。

AIOps 是運維的歸宿,是 DevOps 在 Ops 側的高階實現, DevOps 要做得如絲般順滑的好,必須藉助於 AI。

二、AIOps 的目標

AIOps 就是對規則的AI化,不再人為指定規則,而是通過機器學習把規則琢磨出來。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

三、 AIOps 能力分級

我們把 AIOps 能力分為五級:

  • 嘗試應用,開始嘗試應用AI能力;

  • 單點應用,能形成內部使用的“學件”;

  • 串聯應用,能根據多個運維場景串起來,可以把複雜的問題解決;

  • 能力完備,主要運維場景均已實現流程化免干預AI運算能力;

  • 終極AIOps,可以在成本、質量、效率間從容調整。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

AIOps 白皮書只關心 AIOps ,雖然自動化運維是基石,非常的重要。這麼編寫的一個原因在於,如果還把自動化運維的內容加進來,那可能過於臃腫。

AIOps 的能力框架如上圖右側,從底下往上數,是數據的上報標準、命名規範、採集數據通道、數據清洗ETL、數據倉庫、離線計算和實時計算。我們按照效益、質量、成本三個方向對於 AIOps 實現的場景進行定義。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

學件是南京大學周志華教授率先提出來的。可以理解為升級版的API。傳統 API 基於規則,輸入參數是什麼,輸出就是什麼,中間是固定的邏輯(規則)。

學件類 API 不是基於規則的,學件會有記憶功能,它能幫你把模型訓練出來,比如說調參。這樣的好處是可以做到被共享。

以後可能會出現學件市場,類似於 APP Store ,你可以花錢或者免費買到一個學件。這些學件基於通用性很強的場景和單元,有機會因此被業界共用。又因為它本身不是基於數據(它是基於數據結果),因此也不會造成數據的洩密。

上述這個框架由騰訊SNG 趙建春等提出。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

如果被壓縮得太厲害以致無法閱讀,請下載白皮書。

四、AIOps 平臺能力體系

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

這是騰訊IEG 劉棲銅團隊提出的 AIOps 平臺能力體系,包括數據接入、數據計算、數據存儲,數據分析和AI建模 等。相關的 AIOps 平臺能力體系如下,和 Google 、 Facebook 的 AutoML 有異曲同工之處。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

五、AIOps 團隊角色

主要分為三類:運維開發工程師、運維AI工程師和運維工程師。

AIOps 首先基於自動化運維。在目前的階段,運維開發工程師有兩種:一是運維自動化平臺開發工程師,二是運維數據開發工程師。

這裡的運維AI工程師是我們商量很久後的結果。有人建議叫做算法科學家,但覺得有點大;叫做算法研究員?這個名字很好,但是偏小,感覺又不能 cover 住所有工作內容。

後來我們商量,就叫運維AI工程師,因為這個崗位要求具備算法能力,對運維本身又有較多瞭解,又高於算法。

這裡的運維工程師包括了運維領域專家和數據清洗及處理工程師的職責。是要幹活的領域專家。所以不能單純的叫做運維領域專家(畢竟得幹活),但又不能叫做運維領域工程師(AI 界沒這個怪怪的詞彙)。所以最後先這樣稱呼之。

三種角色的主要貢獻者包括平安科技陳亞殊團隊及騰訊IEG 黨受輝(咖啡黨)等。

如果您有更好的稱謂,也請獻計獻策哦。

另外,關於三類角色的招聘需求,也將出現在今年9月發佈的 V1.0 中,敬請期待哈。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

這個圖的意義何在?不是試圖講清楚他們的相互職責,而是告訴大家他們的邊界及如何內外部協同關係。

本圖由華為消費者BG 周榮等貢獻。

運維工程師是運維領域的專家,也是數據清洗工程師,是總的出入口。研發、產品、運營,把他們對於業務數據的場景需求、訴求提供給運維工程師。運維工程師具有相關領域知識,知道怎麼向運維開發工程師解釋和轉換需求,告訴業務產品的難點與挑戰,再反饋自動化的方案。

六、AIOps 常見的應用場景

AIOps 常見的應用場景包括效率提升、質量保障、成本優化三大方面。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

在各個方向裡,五級是什麼樣的能力範圍,包括到哪一級應該是什麼樣的能力,這已經是 AIOps 標準的雛形。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

質量保證方向包括異常檢測、故障診斷、故障預測和故障自愈等。

故障預測現在有一些比較通用的,比如說硬盤異常預測,網絡異常預測。硬盤性能預測也可以說是硬盤算命,它可以學習同類硬盤的各種歷史數據,根據相關分析,告訴你硬盤什麼時候會壞,據說有些家能做到準確率 99%。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

關於性能提升方面,包括智能收擴容,智能調度和智能機器人等,成本優化包括單點優化、設備及CPU優化等很多方面。

6.1 智能變更

智能變更會挑戰運維的生理極限。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

自動化運維做好,但還需要人來操作。以前架構只是一套,如果微服務化,被拆成100個。微服務的最大好處之一是可以獨立部署。這樣,每天的變更次數變多很多,人工操作就力不從心了。智能變更有機會大展身手。

6.2 異常檢測

包括如數據源的異常檢測。假設數據中間時序斷了,作為 AIOps 能不能發現並解決?另外異常檢測也包括指標異常檢測(單指標和多指標)及文本異常檢測等。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

6.3 故障診斷

故障診斷是很典型的應用場景,既可以基於人工故障庫/知識庫(類似 Google AlphaGo 一代,學習各種人類棋譜),也可以更進一步,無招勝有招(類似 Google AlphaGo Zero,不再學習人類棋譜)。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

6.4 資源優化

資源優化,比如說IO密集型應用的優化(典型應用如數據庫智能運維),這些都是很明顯的基於 AIOps 實現。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

本部分由騰訊SNG 張戎及華為消費者BG 張培等貢獻。

七、AIOps的實施及關鍵技術

重磅!獨家解密國內外第一個 AIOps 白皮書(正式版)

前面四個都是通用大數據的能力,右邊這個圖基於 BMC,從底下的數據源放上去進行算法分析,我們加上了頂層的質量、成本和效率。

AIOps 的實施及關鍵的技術,目前主要列出六類:

1 指標趨勢預測

2 指標的聚類

3 多指標聯動關聯挖掘

4 指標與事件的關聯挖掘

5 事件與事件的關聯挖掘

6 故障傳播關係挖掘

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

本部分主要由數智慧、日誌易及擎創 AIOps 專家貢獻。

可能很多人犯嘀咕,確實很難搞的樣子。其實不用擔心,裡面很多具體的算法都會被固化下來。

AI,我們需要懂他,但不要害怕。

我們可以藉助於相關工具和產品,業務跑起來就好。AIOps 並非要求每個人都是數學博士,就像想吃飯了,不需要每個人都得當廚子。

本次白皮書還附帶一些案例,包括如下。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

白皮書40多頁,匯聚了各方貢獻。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

好消息:4月27日,AIOps 企業標準和產品標準均已在中國通信標準化協會立項通過,這也是對本 AIOps 白皮書的最大認可。

AIOps,對我們而言是一個好機會,我們有機會鳥槍換炮。在這個過程中,我們不能自傲也不能過於自卑,仰望星空並腳踏實地即可。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

這是本版白皮書核心的編寫專家,按照姓氏字母序來排的。另外清華大學裴丹教授作為顧問也親自參加了較多撰寫並給出意見。

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

通過研究,我們發現國內的 AIOps 並不比國外差。據上午演講裡頭 Facebook 的人講,他們的 AI 應用更多聚焦在廣告業務增值。AIOps ,其實國外的研究和實踐並沒那麼多。

對我們而言,生逢好時。

關於白皮書您有什麼樣的意見和建議,歡迎一起來聊一聊。

文末福利▼

如果您想獲得 AIOps 白皮書(紙質、簽名版)

請戳下方二維碼填寫調查問卷▼

另外,填寫這個問卷

也有機會獲得如下大會的專場門票

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)

您想關注更多 AIOps 白皮書如何進一步落地,AIOps 在 BATJ 有著怎樣的實施?

另有國內外金融(中國銀行等)、通信行業等一線企業帶來關於 AIOps 的思考與實踐,AIOps 的實踐和轉化在實際場景中的體現與成果,我們期待您的參與,感謝您的到來,更期待與您思想碰撞出火花。

本次大會的三大亮點▽

重磅!独家解密国内外第一个 AIOps 白皮书(正式版)


分享到:


相關文章: