百度 AIOps 實踐中的四大金剛

百度 AIOps 实践中的四大金刚

百度 AIOps 实践中的四大金刚

負責百度雲智能監控、智能故障自愈方向架構設計與研發,推動AIOps的實踐與落地。

乾貨概覽

AIOpsArtificial Intelligence for IT Operations),即智能運維,是將人工智能的能力與運維相結合,通過機器學習的方法來提升運維效率。

在傳統的自動化運維體系中,重複性運維工作的人力成本和效率問題得到了有效解決。但在複雜場景下的故障處理、變更管理、容量管理、服務資源過程中,仍需要人來掌控決策的過程,這阻礙了運維效率的進一步提升。而AI方法的引入,使得機器能夠代替人來做出決策,從而讓真正意義上的實現完全自動化成為了可能。

在AIOps的落地實施過程中,最關鍵的因素還是,即AIOps的建設者們。

AIOps作為一個全新的技術發展和應用方向,並不是簡單地說具備某一種技能或招募一兩個大牛就可以完成的,它需要不同角色、多個團隊的配合才可以達成。根據近幾年來整個業界對AIOps的理解和實踐,AIOps參與角色的劃分也越來越清晰。在百度4年的AIOps實踐中,我們總結得出瞭如下四種不可或缺的角色:

  • 運維工程師

  • 運維研發工程師

  • 平臺研發工程師

  • 運維AI工程師

可以看到,除了運維AI工程師外,其他角色並不是AIOps產生之後才出現的,他們在傳統運維中也發揮了重要作用。我們今天主要想和大家探討一下,在AIOps時代,他們的職責究竟發生了哪些變化。為了方便大家理解,我們會基於百度AIOps的實踐案例,來進行具體說明。

單機房故障自愈場景

單機房故障自愈是一個典型的AIOps落地項目。該方案主要解決的問題場景如下:某個業務由於網絡、設備、變更、程序Bug、容量等原因造成故障,但故障範圍僅侷限在單個機房或單個Region內部。那麼,我們可以基於流量調度等手段,將訪問流量調度到非故障機房或Region,實現該類型故障的自動止損。

整個故障自愈過程分為如下幾個階段:

百度 AIOps 实践中的四大金刚

在這個過程中,需要AIOps四種角色分工明確、緊密配合,來完成整個AIOps解決方案的落地實現。在單機房故障自愈場景下,四種角色的關係如下圖所示:

百度 AIOps 实践中的四大金刚

運維工程師

在單機房故障自愈項目中,運維工程師基於日常運維工作中所積累的場景、問題和經驗,確定以單機房故障止損作為主要需求和突破口,通過定義單機房故障止損的問題域解決思路以及風險點,明確AI可以發力的領域。運維工程師的職責主要包括如下幾個方面:

百度 AIOps 实践中的四大金刚

在完成問題域的定義後,運維工程師需要跟蹤整個單機房故障自愈解決方案的

落地,包括在策略設計前期提供數據標註支持,在中期進行效果的驗收,在後期將單機房故障自愈方案實際部署運行到生產環境。

AIOps時代的職責和技能變化

運維工程師承擔線上服務質量的責任,是服務質量的關鍵保證。在工作過程中,會與研發、產品、運營等各類角色、不同團隊進行深度的溝通和協作。

傳統運維中,運維工程師的主要職責分為三個方面:質量、成本、效率

百度 AIOps 实践中的四大金刚

主要包含如下工作內容:

百度 AIOps 实践中的四大金刚

在AIOps落地實施中,運維工程師是處於中心的角色,也賦予了新的職責,他們是AIOps具體實施的需求提出者成果驗收者。具體職責包括:

百度 AIOps 实践中的四大金刚

在AIOps時代,運維工程師一方面需要熟悉運維領域的知識,瞭解運維的難題和解決思路;另一方面需要了解人工智能和機器學習的思路,能夠理解哪些場景問題適合用機器學習方法解決,需要提供怎樣的樣本和數據,即成為AI在運維領域落地實施的解決方案專家

運維AI工程師

在單機房故障自愈場景中,運維AI工程師將機器學習的算法與實際的故障處理業務場景相結合,針對單機房故障場景的風險點,進行策略研發與實驗工作。如下圖所示:

百度 AIOps 实践中的四大金刚

運維AI工程師分別設計瞭如下算法策略來滿足整個複雜故障場景的自動決策:

  • 異常檢測算法:解決故障發現時指標異常判斷問題,基於AI方法實現較高的準確率和召回率,作為整個故障自愈的數據基礎

  • 策略編排算法:基於當前線上的實際流量和服務狀態,設計損益計算模型,判斷基於何種方式的操作組合或步驟,能夠使整個自動止損帶來收益最大,風險最小。

  • 流量調度算法:基於線上服務容量與實時流量情況,進行精確流量比例計算,防禦容量不足或不準風險,並實現流量調度收益最大化。

在完成策略設計與研發後,需要根據歷史數據進行Case回溯,並進行仿真Case模擬,來驗證策略效果,並進行逐步迭代調優,以達到線上運行的準確率和召回率要求。

AIOps時代的職責和技能變化

運維AI工程師是將AI引入運維的核心角色。他們針對運維數據、運維經驗進行理解和梳理,使用機器學習的方法將海量運維數據進行彙總、歸納,使得數據中的價值顯現出來。

運維AI工程師首先需要具備AI工程師的技能,需要對數學及機器學習方法有足夠的掌握程度,並能應用實踐。如下圖所示AI工程師技能表:

百度 AIOps 实践中的四大金刚

如單機房故障自愈場景中的介紹,運維AI工程師需要具備機器學習知識並在運維領域落地的能力。運維AI工程師的職責如下:

百度 AIOps 实践中的四大金刚

平臺研發工程師

在單機房故障自愈場景中,平臺研發工程師需要關注三類平臺的建設。如圖所示:

百度 AIOps 实践中的四大金刚
  • 基礎運維平臺:提供單機房故障自愈場景中的依賴平臺,如:監控平臺和流量調度平臺。在日常運維中提供標準化運維數據獲取和運維操作的基礎,而在AIOps中,這部分接口需要能夠同時支持人工和自動的數據獲取和運維操作。

  • 智能運維平臺:提供對AI能力的支持,如:統一的數據服務(運維知識庫)、運維開發框架,以及給AI策略實驗和運行的運維策略框架等。

  • 故障自愈機器人:針對單個業務場景進行平臺化抽象,使之成為一個基礎服務,基於AIOps平臺研發和運行。

AIOps時代的職責和技能變化

平臺研發工程師負責運維平臺及基礎組件的研發與建設。

在傳統運維場景中,平臺研發工程師負責平臺、基礎組件、類庫和工具的研發工作。在針對運維的場景中,會覆蓋運維相關的服務管理、監控、變更、流量調度等相關平臺。

百度 AIOps 实践中的四大金刚

這部分平臺是運維的基礎,在AIOps時代仍然需要依賴於這些平臺的建設。

同時在AIOps場景中,數據成為了中心,運維各種狀態信息轉換為大數據,機器學習則作用在大數據上進行分析。在百度AIOps的實踐中,運維開發框架、運維知識庫、運維策略框架共同組成了完整的智能運維平臺,三大平臺的建設和實施離不開大數據、機器學習架構的引入。這就要求平臺研發工程師具備大數據、機器學習平臺架構師的

多重身份,具備流式計算、分佈式存儲、機器學習平臺、算法策略平臺等一系列大數據和機器學習平臺架構能力。

百度 AIOps 实践中的四大金刚

運維研發工程師

基於多個業務線場景抽象出的單機房故障自愈解決方案,能夠滿足大部分場景需求,但並不意味著可以直接提供給各個業務線來使用。原因如下:

  • 策略和參數需要進行調整

流量調度、容災策略等策略,針對不同的業務線,配置並不相同。例如某些業務對響應時間敏感,跨地域的調度會帶來較大的延遲,影響用戶體驗,這時就需要根據業務情況配置機房之間的跨機房流量調度延遲係數,來實現流量優先調度到延遲係數最低的機房。

  • 通用框架無法滿足所有需求

部分業務線需要對原有的策略進行部分重寫才能夠滿足需求。例如,部分業務在流量調度時,需要聯動服務降級來滿足容量需求,這就需要額外增加服務降級聯動的邏輯。

那麼,就需要運維研發工程師出手來解決這個問題。根據業務線的實際情況,對策略和參數進行配置和調優,對通用框架無法滿足的需求,進行定製化研發,使得單機房故障自愈方案能夠實際應用在不同業務線上。

AIOps時代的職責和技能變化

運維研發工程師負責基於業務線特徵的運維研發工作,在傳統運維中,是運維自動化的實施者,實現了針對業務場景的自動化運維實施落地。其職責如下:

百度 AIOps 实践中的四大金刚

在AIOps時代,運維研發工程師承擔了AIOps智能化運維解決方案在業務線實施落地的職責。他們是AIOps場景的實踐者,將AIOps解決方案與業務架構特徵相結合,實現AIOps在業務線的落地。

百度 AIOps 实践中的四大金刚

一方面,他們會與運維工程師緊密配合,對業務問題進行深度分析,理解業務的特點。另一方面,他們與平臺研發工程師、AI工程師相配合,基於AIOps解決方案的策略和框架,進行定製化開發,使其適合自身業務線的特徵。

總結

本文介紹了運維工程師、運維AI工程師、平臺研發工程師、運維研發工程師四種角色在自動化運維時代和AIOps智能化運維時代,其職責和技能的拓展和變化。AIOps技術為運維技術的發展帶來了更多的機遇,對於每個參與到AIOps實施的個人或團隊也是如此。四種角色既有術業專攻,同時又緊密協作,共同將AI能力引入為運維賦能。那麼,你的選擇是什麼呢?

AIOps 時代,運維中的 “四大金剛” 如何轉變和發揮有效職能 ? 請密切關注 GOPS 2018 上海站!由國內 BATJ 多位專家撰寫的全球首個《 企業級 AIOps 實施建議》白皮書 V 1.0 將於 GOPS 上海站 震撼發佈,敬請關注!

百度 AIOps 实践中的四大金刚

本次大會的五大亮點

百度 AIOps 实践中的四大金刚

GOPS 2018 上海站更多詳情,點擊閱讀原文訪問


分享到:


相關文章: