後SRE時代監控系統選型

在DevOps和SRE流行的今天,在開發可靠性或實施DevOps實踐時,企業決策的核心是統計數據。而企業數據信息中最重要的一環就是線上業務的監控信息,如果沒有業務運行時間,網絡負載和資源使用情況等關鍵性監控指標,企業將無法有效的開發或操作實踐。而這些數據都有依靠各種各樣的監控工具來收集和彙集。

當基於對客戶影響的度量標準時,SLO之類的SRE實踐最有用。確定監控什麼以及如何進行監控是一個重要的決策。本文我們就來了解SRE時代下的監控和流行監控工具。

監控分類

確定在系統體系結構中監控點的分佈非常重要。根據監控實施的位置,監控工具將能夠獲取不同類型的數據。監控最常見分類及監控點分佈如下:

資源監控

資源監控也稱為服務器監控或基礎結構監控,它通過收集有關服務器運行方式的數據來獲取基本信息。資源監控工具會監控最基本的主機內存使用率,CPU負載和磁盤空間等信息。在基於物理服務器的體系結構中,有關硬件運行狀況的信息(比如CPU溫度和組件正常運行時間)也有助於避免服務器故障。在基於雲的環境中,虛擬服務器系統的匯聚信息更為有用。

網絡監控

網絡監控用來監控下行和上行主機的網絡數據。監控工具可捕獲所有組件(如交換機,防火牆,服務器等)中的所有請求和響應數據包。網絡監控可以簡單隻收集入口和出口總流量,也可以針對更詳細的應用或者端口為基準來收集。

APP性能監控

APP性能監控用來收集有關整體服務執行情況的數據。這些工具會將自己的請求發送到服務接口,並跟蹤指標,例如響應的速度和完整性。目標是推動對APP性能問題的檢測和診斷,以確保接口以預期的水平運行。

第三方組件監控

這涉及監控體系結構中第三方組件的運行狀況和可用性。在微服務盛行的時代,服務可能取決於外部服務的正常運行。像APP性能監控一樣,工具可以根據自己的請求檢查這些服務的狀態。

在整體解決方案中包括每種監控類型。優先考慮使用健壯的冗餘監控工具,以確保不會遺漏潛在問題。同時,指標和警報應與服務綁定在一起,以確保與業務影響相關。

監控指標

擁有可操作的數據不僅與數據本身有關;為了正確響應監控工具報告的內容,還需要以最有用的方式顯示數據。以下是監控工具可以提供的事項:

告警:當指標超過特定閾值時觸發告警;

事件日誌:創建事件日誌,根據參數突出顯示;

趨勢圖:創建一段時間內的指標趨勢圖;

儀表板:一目瞭然地提供關鍵服務運行狀況組件的儀表板;

指標數據庫:創建可以查詢的指標數據庫。

在制定開發決策或對事件做出響應時,需要了解自己需要什麼?需要什麼監控指標?這些指標怎麼可視化等。

監控工具推薦

下面我們推薦最受歡迎的SRE和DevOps監控工具,可供大家選擇。

Prometheus

後SRE時代監控系統選型

Prometheus是一種流行的開源監控工具,提供警報,查詢,可視化和許多其他有用的功能。Prometheus有專門的開發社區提供了大量文檔和說明,可以幫助我們快速入門。蟲蟲之前的文章也專門介紹過Prometheu,大家可以查看歷史文章進行了解。

Zabbix

後SRE時代監控系統選型

Zabbix 是最流行的開源分佈式企業監控系統。zabbix自帶各種模版可以監控各種服務器監控項、網絡設備。zabbix server可以通過SNMP,zabbix agent,ping,端口監視等方法提供對遠程服務器/網絡狀態的監視和數據收集。zabbix是目前使用最廣泛最流行的傳統以物理服務器為架構的業務系統監控。

zabbix目前在SRE時代問題數據依賴於中心關係數據庫(Mysql或者PostgreSQL),監控數據量不能自動清理,累積過大會拖慢系統運行速度。而且對雲架構體系監控支持還不夠。

Grafana

Grafana是使用golang開發的開源的度量分析與監控可視化儀表盤系統。

後SRE時代監控系統選型

Grafana支持時間序列數據和應用程序分析的可視化以儀表盤形式展示當前系統狀態。Grafana常見監控系統數據源,也支持對日誌匯聚數據源,支持對數據進行篩選,也可以對多個數據源組合顯示為一個儀表盤。

Nagios

Nagios提供了開源(Nagios Core)和商業化定製版本(Nagios XI)。Nagios提供了高度可定製的界面,並可以監控整個IT網絡。支持通過配置嚮導來突出其易用性,以引導用戶設置新的監控服務。

後SRE時代監控系統選型

AppDynamics

後SRE時代監控系統選型

AppDynamics是專注於APM的監控平臺。除了傳統的APM監控外,提供的其他功能包括基於AI的視角,用於人工智能模擬客戶和最終用戶監控,以及集成收益分析的業務監控。自從2017年AppDynamics被思科收購以後除了基本APM外,在基礎網絡設置方面進行的監控

DataDog

後SRE時代監控系統選型

DataDog是一個針對雲規模服務的監控平臺。它在可視化,警報以及數據匯聚和分析方面具有強大的功能。它們使性能指標與業務影響相關聯。

聽云云平臺


聽云云平臺是國內權威的APM平臺之一,通過針對全平臺的應用性能監控。聽雲平臺,由聽雲App、聽雲Network、聽雲Server、聽雲Browser和聽雲Sys組成,提供針對手機應用、網絡、瀏覽器、服務器的性能監控產品,可以實現應用性能全方位可視化,包括PC端、瀏覽器、移動客戶端到服務器。

New Relic

後SRE時代監控系統選型

New Relic是一個監控平臺,提供了幾個也可以獨立使用的組件:New Relic APM(應用程序性能監控),New Relic Browser和New Relic Infrastructure。New Relic提供了適用於iOS和Android的應用程序,為移動應用提供了更多監控選項。

Site24x7

後SRE時代監控系統選型

Site24x7專門從事網站監控,提供諸如狀態頁和Web服務(例如AWS和Azure)運行狀況診斷的工具。它們還提供綜合Web事務監控,使可以模擬使用情況並收集指標。

SignalFx

後SRE時代監控系統選型

SignalFx提供了廣泛的微服務集成,可以看到服務運行狀況的完整結構,幫助用戶從單一模型到微服務模型構建架構。SignalFX可以通過多種方式收集所需的指標,包括收集的,自定義指標或使用第三方應用程序。對於自定義指標類型的用戶,則可以直接通過Ruby,Python,Java或Node.js從應用程序發送數據。 使用第三方應用程序則可以選擇使用現有工具之一,例如AWS cloudwatch,Docker,Elasticsearch,MySQL甚至New Relic。

PRTG Network Monitor

後SRE時代監控系統選型

PRTG Network Monitor是一體式完整網絡運營監控系統,可以集成到體系結構的許多階段和位置,可以在網絡,單個服務器,特定應用程序以及兩者之間的所有內容上提供監控。功能包括:停機監測,阻塞和使用監測,數據包嗅探,深入分析和簡明的報告。PRTG Network Monitor有一個基於Web的用戶友好的界面,允許用戶快速配置網絡設備和傳感器。


分享到:


相關文章: