prometheus+grafana+alertmanger_技术 _ 頭條網

監控方案涉及的關鍵問題

採集數據存儲數據告警、展示數據

那麼基於prometheus的監控方案是用什麼技術實現？本文基於docker進行部署，目的以簡單的demo快速瞭解prometheus監控方案的涉及的知識點以及流程。

本文介紹的內容

prometheus整體架構介紹安裝prometheus安裝grafana安裝alertmanagergrafana關聯prometheusprometheus關聯alertmanagerprometheus定義告警規則alertmanager觸發告警

prometheus整體架構

從prometheus官方給的架構圖分析出，基於prometheus的監控方案常用組件：

Exporters ：暴露metrics,收集監控指標，並以一種規定的數據格式提供給Prometheus-採集監控對象數據Prometheus Server ：收集數據和存儲數據到時間序列數據庫中，收集的數據由Exporters提供-採集/存儲數據Alertmanager ：告警管理，接收Prometheus的告警，去重/分組/發出告警（郵件、webhook等）- 告警Grafana：監控Dashbord，UI展示，設置Prometheus Server地址即可自定義監控Dashbord- UI展示Push Gateway：用於短期的jobs，jobs直接向Prometheus server端推送它們的 metrics.用於服務層面的 metrics

部署組件

本文以docker方式部署：prometheus、grafana、alertmanager

install prometheus

<code>docker run --name prometheus -d -p 9090:9090 quay.io/prometheus/prometheus
# 暴露端口：9090
docker run --name prometheus -d -p 9090:9090 -v /etc/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml quay.io/prometheus/prometheus
# 掛載prometheus.yml文件，便於在主機上直接修改
docker run --name prometheus -d -p 9090:9090 --link=alertmanger:alertmanger -v /etc/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml -v /etc/prometheus/rules:/etc/prometheus/rules quay.io/prometheus/prometheus
# 掛載掛載prometheus.yml文件，創建了rules目錄，rules存放告警規則yaml文件，後續會提到/<code>

install grafana

<code>docker run -d -p 3000:3000 --name=grafana grafana/grafana/<code>

install alertmanger

<code>docker run --name alertmanger -d -p 9093:9093 -v /etc/alertmanager/alertmanager.yml:/etc/alertmanager/alertmanager.yml quay.io/prometheus/alertmanager
#掛載告警文件：alertmanager.yml，便於在主機上直接修改文件/<code>

grafana關聯prometheus

Prometheus界面，採集promhttp_metric_handler_requests_total為demo進行演示，這個metrics是prometheus自己監控自己的http請求數量

訪問grafana，默認用戶名和密碼都是：admin設置-type選擇Prometheus-填寫Prometheus訪問地址，點擊Save&Test 測試關聯prometheus是否成功

新建dashboard，設置Metrics，即可展示數據

prometheus關聯alertmanager

prometheus配置文件路徑：/etc/prometheus/prometheus.yaml，在如下配置設置告警地址

<code>global:
scrape_interval: 15s
evaluation_interval: 15s
# Alertmanager configuration
alerting:
alertmanagers:
- static_configs:
- targets: ['alertmanger:9093']
# 關聯告警服務器alertmanger
scrape_configs:
- job_name: 'prometheus'
# metrics_path defaults to '/metrics'
# scheme defaults to 'http'.
static_configs:
- targets: ['localhost:9090']
# prometheus 服務監聽的端口/<code>

查看prometheus-Status-configuration，檢測配置是否生效

prometheus定義告警規則-prom_rules.yml

<code>groups:
- name: test-rule
rules:
- alert: promReqCounts
expr: promhttp_metric_handler_requests_total > 10
for: 0s
labels:
prom: http
annotations:
summary: High prometheus request total is above 1000/<code>定義request請求總數大於10就發生告警，標籤為：prom：http定義rules考官網例子：https://prometheus.io/docs/prometheus/latest/configuration/alerting_rules/

在prometheus中關聯rule文件 - prom_rules.yml

<code>global:
scrape_interval: 15s
evaluation_interval: 15s

# Alertmanager configuration
alerting:
alertmanagers:
- static_configs:
- targets: ['alertmanger:9093']
# 關聯告警服務器alertmanger
rule_files:
- "rules/prom_rules.yml"
# 定義告警規則：prom_rules.yml
scrape_configs:
- job_name: 'prometheus'
# metrics_path defaults to '/metrics'
# scheme defaults to 'http'.
static_configs:
- targets: ['localhost:9090']
# prometheus 服務監聽的端口/<code>

alertmanager觸發告警

配置alertmanager.yml文件

<code>global:
resolve_timeout: 5m

route:
group_by: ['alertname']
group_wait: 10s
group_interval: 10s
repeat_interval: 1h
receiver: 'web.test'
routes:
- receiver: 'web.hook'
match:
prom: http
receivers:
- name: 'web.hook'
webhook_configs:
- url: 'http://127.0.0.1:8888'
- name: 'web.test'
webhook_configs:
- url: 'http://127.0.0.1:88888'
inhibit_rules:
- source_match:
severity: 'critical'
target_match:
severity: 'warning'
equal: ['alertname', 'dev', 'instance']/<code>當alertmanger接收到標籤為：prom:http的告警就觸發 web.hook，當然也可以發郵件等操作更多告警參考官網例子：https://prometheus.io/docs/alerting/configuration/

如果發生了告警，alertmaneger界面會有記錄

參考文檔

prometheus : https://prometheus.io/docs/prometheus/latest/installation/exporter : https://prometheus.io/docs/instrumenting/exporters/#exporters-and-integrationsalertmanger: https://prometheus.io/docs/alerting/alertmanager/prometheus rules : https://prometheus.io/docs/prometheus/latest/configuration/recording_rules/grafana：http://docs.grafana.org/

原文鏈接：https://mp.weixin.qq.com/s/H91lLCfUic5yPMEjZOGRWQ

關於睿雲智合

深圳睿雲智合科技有限公司成立於2012年，總部位於深圳，並分別在成都、深圳設立了研發中心，北京、上海設立了分支機構，核心骨幹人員全部為來自金融、科技行業知名企業資深業務專家、技術專家。早期專注於為中國金融保險等大型企業提供創新技術、電子商務、CRM等領域專業諮詢服務。

自2016年始，在率先將容器技術引進到中國保險行業客戶後，公司組建了專業的容器技術產品研發和實施服務團隊，旨在幫助中國金融行業客戶將容器創新技術應用於企業信息技術支持業務發展的基礎能力改善與提升，成為中國金融保險行業容器技術服務領導品牌。

此外，憑藉多年來在呼叫中心領域的業務經驗與技術積累，睿雲智合率先在業界推出基於開源軟交換平臺FreeSwitch的微服務架構多媒體數字化業務平臺，將語音、視頻、webchat、微信、微博等多種客戶接觸渠道集成，實現客戶統一接入、精準識別、智能路由的CRM策略，並以容器化治理來支持平臺的全應用生命週期管理，顯著提升了數字化業務處理的靈活、高效、彈性、穩定等特性，為幫助傳統企業向“以客戶為中心”的數字化業務轉型提供完美的一站式整體解決方案。

prometheus整體架構

部署組件

grafana關聯prometheus

prometheus關聯alertmanager

prometheus定義告警規則-prom_rules.yml

alertmanager觸發告警

相關文章:

Prometheus(普羅米修斯)

異常處理：Grafana+ES搜索提示max

Docker+Jmeter+InfluxDB+Grafana 搭建性能監控平臺

Kubernetes系列之kubernetes Prometheus Operator

【開源資訊】Grafana 6.7.0 發佈，系統指標監控與分析平臺

Spring Boot 微服務應用集成Prometheus + Grafana 實現監控告警

利用 Prometheus 監控測試服務器集群實踐詳解

【開源資訊】Grafana 6.7.0-beta1 發佈，系統指標監控與分析平臺

基於 Njmon + InfluxDB + Grafana 實現性能指標實時可視監控

Prometheus 與 nodata 告警

IT監控：Grafana vs Datadog詳細比較

Prometheus + Grafana 監控 SpringBoot項目監控系統

如何使用 Prometheus 輕鬆實現集群監控？

Zabbix vs Prometheus 哪個好一些？

K8S的Kafka監控(Prometheus+Grafana)

03.08 K8S的Kafka監控(Prometheus+Grafana)

03.07 安裝數據可視化展現軟件-grafana

03.04 使用CortexAPI 實現Cortex的基本操作

02.26 監控平臺-CentOS7下安裝promethus+grafana

使用 Cortex 實現 Prometheus 的多租戶管理

實踐指路明燈，源碼剖析flink-metrics

grafana&prometheus生產容器化監控-4：kubePrometheus監控k8s

Prometheus——內存數據庫指標的監控

Prometheus——DNS服務器實時監控的利器

11.21 打造炫麗的Linux服務器監控平臺——Grafana + Prometheus

Kubernetes 持久化安裝 Prometheus

Prometheus Operator 安裝及監控k8s

Prometheus 原理介紹

Prometheus+Consul服務自動發現監控

exporter+Grafana+Alertmanager 監控部署（上）

Prometheus+Grafana監控系統安裝實記

grafana&prometheus生產級容器化監控-3：監控mysql

grafana&prometheus生產級容器化監控-1：生產級容器化

分享一款開源的監控神器--Prometheus 簡介、架構及相關概念

09.19 無監控不運維——Prometheus 快速入門

「Prometheus系列」實戰—Prometheus + Grafana——Nginx 監控

Spring Boot 2監控數據可視化(Prometheus + Grafana手把手圖文)

Prometheus 監控 RabbitMQ

k8s中通過consul實現prometheus聯邦功能

grafana+influxdb+telegraf搭建服務器監控平臺

Prometheus vs. Graphite：時序數據監控工具選擇

OneAPM大講堂｜監控數據的可視化分析神器 Grafana 的告警實踐

第二章 IoC容器和Bean配置

運算裡不得不說的python模塊—math

Devops度量--DevOps 現狀快速檢查表

SOP是什麼（解讀）

還不知道交換機上如何配置DHCP，趕緊過來圍觀吧，一分鐘包你學會

還在手動配置IP地址嗎？太Low了，一分鐘教會您如何配置DHCP

Python爬蟲自學筆記：分析頭條文章網頁源文件

DNS偵查工具

國人開源的異步 Python ORM：GINO

程序測評：Create React App 3.3中有哪些酷炫新功能？

“明學”的魅力？我只要我覺得：駕馭終端，提高生產力

（必收藏系列）Linux面試題——命令集

五分鐘學會如何在 IPFS 上部署網站

「正點原子NANO STM32F103開發板資料連載」第29章 內存管理實驗

小白怎麼學Web前端開發 如何成為技術達人

如何開發一個web靜態服務器

學Java編程還有前景嗎 如何才能拿到高薪

Python網絡爬蟲之配置篇（一）

SpringBoot 整合SpringSecurity示例實現前後分離權限註解+JWT登錄認證

Python的運行效率太低？幾行代碼快速提升！

python的優點是什麼？最新Python400集視頻（附教程）

MySQL中OOM故障應如何下手-愛可生

像專家一樣使用 panic

30種不同的編程語言怎麼寫“Hello, World”

percona QAN 介紹

面試官：你可以用純CSS判斷鼠標進入的方向嗎？

網絡工程師職業生涯中，哪兩點是最重要的？

交換機中相關術語代表什麼意思，有必要弄清楚

由淺入深瞭解以太坊 2.0：最常見問題和最全學習清單

【Linux簡單實用小命令001】CentOS 7、8的防火牆端口開放

吃透這些IPFS硬核知識點，日後搶頭礦隨時“彎道超車”

「正點原子NANO STM32F103開發板資料連載」第29章內存管理實驗

小白怎麼學Web前端開發如何成為技術達人

學Java編程還有前景嗎如何才能拿到高薪