「乾貨」運維常用的17款監控系統


「乾貨」運維常用的17款監控系統

Zabbix 作為企業級的網絡監控工具,通過從服務器,虛擬機和網絡設備收集的數據提供實時監控,自動發現,映射和可擴展等功能。

Zabbix的企業級監控軟件為用戶提供內置的Java應用服務器監控,硬件監控,VMware監控和CPU,內存,網絡,磁盤空間性能監控。

該企業級網絡監控工具能夠每分鐘進行 3,000,000 次檢查,具有更高的安全性和數據中心監控功能。


2. Nagios

「乾貨」運維常用的17款監控系統

Nagios 是一款用於監控IT基礎架構和查看當前狀態、歷史日誌和基本報告的開源軟件工具。Nagios 用戶可以監控系統指標,網絡協議,應用程序,服務器,網絡基礎架構和接收故障警報。

Nagios提供三種類型的網絡管理工具,Nagios XL,Nagios日誌服務器和Nagios網絡分析器。其中 Nagios XL 最適合網絡監控(儘管其他兩種也提供網絡監控服務)。

Nagios XL提供企業級網絡監控,為用戶提供帶寬報告,網絡心跳監控,自定義URL,電子郵件報告和遠程機器監控。 升級的企業版提供基於Web的服務器控制檯訪問,業務流程監控,記錄審核和自動化刪除功能。


3. Cacti

「乾貨」運維常用的17款監控系統

最初發佈於2001年, Cacti 是一款開源的基於Web的網絡監控和專為數據記錄而設計的圖形化工具。它可以用於實時顯示網絡數據,如CPU負載或帶寬利用率。

Cacti是RRDtool的前端應用程序,RRDtool是一種用於存儲實時變化數據的開源數據庫工具,其使用SNMP作為其默認收集算法,但如果你喜歡本地Perl的PHP腳本,那麼你也可以使用它們。

其最新版本0.8.8h於2016年5月發佈,主要功能包括無限圖形項目、圖形自動填充支持、圖形數據處理、自定義數據採集腳本、內置SNMP支持、圖形模板、數據源模板、主機模板和基於用戶的管理。


4. GroundWork Monitor Core

「乾貨」運維常用的17款監控系統

GroundWork Monitor Core 是監控網絡、應用和雲計算使用情況的平臺。開源版本包含最多可監控50個設備和基於社區的支持的許可證,該軟件還有其對應的商業版本。

在其網絡管理功能方面,GroundWork提供網絡和設備的自發現和維護、拓撲、報警控制、通過API/SNMP/IPMI的數據收集和對OpenDaylight SDN的支持等功能。

GroundWork還提供了存儲管理,支持大規模的企業級供應商,如NetApp和EMC,以及從磁盤、塊或對象存儲的數據收集和存儲緩衝以及中斷可視化。

由於GroundWork的一站式網絡管理方法,這種套件可能更適合那些尋找成熟品牌的大型商業和企業,而不是以開發人員為重點的工具,如Big Brother或Big Sister。


5. Hyperic

「乾貨」運維常用的17款監控系統

VMware的Hyperic工具用於在物理、虛擬或雲環境下監控Web應用程序及其性能。 它適用於應用程序服務器,web服務器,數據庫,操作系統,虛擬機管理程序,消息傳遞服務和目錄服務器。

Hyperic提供基礎架構和操作系統監控,詳細的報告,應用程序和中間件監控,警報和修復工作流程以及通用可擴展的API。

該網絡監控工具提供了企業版本,可以提高網絡警報功能,並且能更好地創建基準。


6. Observium

「乾貨」運維常用的17款監控系統

基於Linux的Observium是一個自動監測的網絡監控工具。 據該網站介紹,“該工具是由一批經驗豐富的專業網絡工程師和系統管理員開發和維護的,Observium是一個由用戶自己設計和構建的平臺。”

Observium提供社區版本和專業版,使用RRDTool進行緩衝存儲和圖形化功能,並具有易於使用的用戶界面和報告功能。 但是,它沒有報告導出功能,這可能對商務應用來講會是一個問題。

社區版本將為用戶提供對所有支持設備或指標的完整自動監測功能,通過自動發現協議進行網絡映射,自動識別數百種設備,並且每六個月發佈一個新版本。

而專業版用戶將獲得所有社區版本的功能並且還將獲得實時軟件更新和修復功能,基於規則的自動分組功能,網絡閾值和狀態警報系統以及流量統計系統。


7. NetXMS

「乾貨」運維常用的17款監控系統

NetXMS 提供了企業級開源網絡管理和監控程序,它在Windows和Linux上有一個簡單的用戶界面。

NetXMS通過相對簡單的安裝過程為IT基礎架構的所有層提供了分佈式網絡監控、自動化網絡發現和詳細報告。

此外,服務器設備和代理對於這樣一個全面的產品來說是相當輕量級的。


8. Pandora FMS

「乾貨」運維常用的17款監控系統

定位於企業級, Pandora FMS 提供了一個時尚且整潔的用戶體驗,提供了易於閱讀的快速洞察工具以及重要的網絡統計信息,例如網絡狀態、已上報的告警、已部署的代理數量和其他最近執行任務的列表。

Pandora FMS可以在無需外部訪問的情況下執行網絡診斷,這意味著用戶可以更快地響應任何網絡問題。事實上,FMS聲稱,在代理模式下的器監控系統響應速度約為10秒。


9. NetDisco

「乾貨」運維常用的17款監控系統

NetDisco專為類 Unix 操作系統而設計,通過NSMP提供基於網絡的自動發現網絡設備的功能,從而生成網絡拓撲圖。它是專為中型到大型網絡而設計的。

該網絡管理工具可用於定位設備,創建設備目錄並報告IP地址和交換機端口使用情況。

NetDisco用戶可以通過MAC或IP在網絡上定位機器,關閉交換機端口,或更改端口的VLAN或PoE狀態,按照型號,供應商,軟件和操作系統對網絡硬件進行清點,並給你的網絡創建一個詳細的拓撲圖。


10.OpenNMS

「乾貨」運維常用的17款監控系統

OpenNMS是在1999年發佈的,旨在為大型企業級用戶提供事件管理,服務監控和性能測量。

使企業用戶受益的主要特點包括外部腳本、向通話系統工程師發送警報、擴展Java本機通知策略API、請求跟蹤(RT)集成、高級警報、IPv4和IPv6網絡可達性超過ICMP、測試狀態和節點庫存信息。

企業服務或是“風格”網絡提供預置事件,通知,數據收集,工作流和附加報告等功能。


11. RANCID

「乾貨」運維常用的17款監控系統

RANCID 聽起來像一個消極的名字,除非你學會Really Awesome New Cisco的配置。這一點意味著它能監視路由器或其他設備的配置,並維護任何更改過的歷史記錄。RANCID 支持很多供應商設備,包括 Juniper路由,HP交換機,Redback的NAS 和 很多對Observium有擴展設備的支持。

RANCID支持許多供應商的設備,包括Juniper路由器,HP交換機,Redback NAS和許多其他設備,以及對Observium的擴展支持。

RANCID提供多種網絡管理功能,包括登錄到路由器表(router.db)中的每個設備,運行各種命令以獲取將被保存的信息,將之前收集的信息中的任何變化發送到郵件列表,並提交這些更改到版本控制系統。


12. Xymon

「乾貨」運維常用的17款監控系統

另一個需要提及的網絡監控工具是Xymon(以前稱為Hobbit)。 Xymon監控服務器,應用程序和網絡,通過網頁提供有關所有這些網絡組件運行狀況的信息。

其網站上表示Xymon的開發受到Big Brother的啟發,同Big Sister一樣,它試圖解決Big Brother BTF的缺點,如性能方面。 同時,Xymon更容易部署並且是免費的。


13. Big Brother BTF

「乾貨」運維常用的17款監控系統

Big Brother創建於20世紀90年代中期,用於監控網絡系統,後來被Quest Software收購,而其又被戴爾在2012年收購。

許多其他網絡監控工具都是模仿Big Brother的,所以它有一個大型的、詳細的論壇和有幫助的開發人員社區,是初學者的好選擇。

除了可用於學生和非商業用途的開源版本之外,其還提供了名為Big Brother Professional Edition的商業版本。


14. Big Sister


「乾貨」運維常用的17款監控系統

Big Sister創始人托馬斯·艾比(Thomas Aeby)表示,他對Big Brother的網絡監控印象深刻,但希望提高其性能,減少壞事件發生時的警報數量,並進行其他改進。

Big Sister提供網絡監控,節點管理,doxygen過濾器和Web應用程序框架,作為Unix衍生產品和Microsoft Windows操作系統的一部分。

Big Sister對監控網絡系統的IT管理員有所幫助。當系統故障時,它會通知管理員,生成狀態變化歷史記錄日誌並顯示各種系統性能數據。


15. Open Falcon

「乾貨」運維常用的17款監控系統

Open Falcon 是由小米開源的運維監控系統。小米從互聯網公司的一些需求出發,從各位SRE、SA、DEVS的使用經驗和反饋出發,結合業界的一些大的互聯網公司做監控,用監控的一些思考出發,設計開發了小米的監控系統:open-falcon。open-falcon的目標是做最開放、最好用的互聯網企業級監控產品。

其特點是:

  • 強大靈活的數據採集:自動發現,支持falcon-agent、snmp、支持用戶主動push、用戶自定義插件支持、opentsdb data model like(timestamp、endpoint、metric、key-value tags)
  • 水平擴展能力:支持每個週期上億次的數據採集、告警判定、歷史數據存儲和查詢
  • 高效率的告警策略管理:高效的portal、支持策略模板、模板繼承和覆蓋、多種告警方式、支持callback調用
  • 人性化的告警設置:最大告警次數、告警級別、告警恢復通知、告警暫停、不同時段不同閾值、支持維護週期
  • 高效率的graph組件:單機支撐200萬metric的上報、歸檔、存儲(週期為1分鐘)
  • 高效的歷史數據query組件:採用rrdtool的數據歸檔策略,秒級返回上百個metric一年的歷史數據
  • dashboard:多維度的數據展示,用戶自定義Screen
  • 高可用:整個系統無核心單點,易運維,易部署,可水平擴展
  • 開發語言: 整個系統的後端,全部golang編寫,portal和dashboard使用python編寫。


16. Icinga

「乾貨」運維常用的17款監控系統

Icinga 起初是 Nagios 的一個分支。Icinga 2 則是做減法得來的,它還能提供分佈式監控和多線程框架,這是 Nagios 或 Icinga 1 所不具備的。你可以從 Nagios 遷移到 Icinga 1,然後再遷移到 Icinga 2。

與 Nagios 一樣,Icinga 幾乎也能通吃所有設備,搭配 SNMP、定製插件和擴展使用效果更佳。

Icinga 提供全局監控和警告框架,只是在 Web UI 上與 Nagios 有所不同。

Icinga 有多款 Web UI,它與 Nagios 的不同主要是配置,用戶通過 Web UI 就能搞定,省去了麻煩的配置文檔。對於那些在命令行之外管理配置的人來說,這是個重大利好。

Icinga 融入了多款繪圖和監控套件(如 PNP4Nagios、inGraph 和 Graphite),可視化性能絕對可靠。此外,Icinga 還擁有擴展報告功能。


17. Ntop

「乾貨」運維常用的17款監控系統

Ntop 計劃,也就是傳說中的 Ntopng,已經陸陸續續開發了十年。它是一款頂尖的網絡流量監控工具,Web 圖形用戶界面簡潔且順滑。它使用 C 語言編寫且完全獨立,你只需要運行配置,就能監控某個特定網絡接口的單一進程,就這麼簡單。

Ntop 提供了簡單易懂的圖形和表格來顯示當前和過去的網絡流量,包括協議、源、目的地以及特定交易的歷史,甚至兩端的主機。此外,你還會發現廣泛的網絡利用率圖表、實時地圖和趨勢,以及針對各種附加件(例如NetFlow和sFlow)的插件框架。這裡甚至還有專門嵌入到 Ntop 的硬件監控器 Nbox。

Ntop 甚至用上了輕量級 Lua API 框架,通過腳本語言就能支持擴展。Ntop 還可以將主機數據存儲在 RRD 文件中,以支持持久的數據採集。

Ntop 最便捷的用途就是現場流量檢查。當你發現自己的某個 Cacti PHP Weathermap 突然顯示紅色的網絡鏈接集時,就意味著這些鏈接的利用率超過了 85%,但原因卻不得而知。只要切換到 Ntopng 程序來監控該網絡段,就可以查看最高流量消耗者每分鐘的報表,並立即獲知到底哪個主機在佔用流量。

這種可視性算得上是無價之寶了,而且唾手可得。從本質上來講,你可以在被配置成交換機級別的任何端口運行 Ntopng,以便監控任何端口或者 VLAN。


分享到:


相關文章: