Prometheus+Grafana监控系统使用手册
Prometheus+Grafana监控系统使用手册
需安装插件说明Docke:基于docker安装
Prometheus:Prometheus 是由 SoundCloud 开源监控告警解决方案。
Grafana:Grafana是一款用Go语言开发的开源数据可视化工具,可以做数据监控和数据统计,带有告警功能
cAdvisor:可以对节点机器上的资源及容器进行实时监控和性能数据采集,包括CPU使用情况、内存使用情况、网络吞吐量及文件系统使用情况
Alertmanager:报警工具
prometheus-webhook-dingtalk钉钉报警插件部署服务器192.1680/105 采用docker部署
Prometheus:配置文件 /opt/iot/conf/prometheus/prometheus.yml
规则文件/opt/iot/conf/prometheus/rules
Dingtalk:/opt/iot/conf/prometheus/dingtalk.yml
Alertmanager: 106部署
配置文件:/usr/local/alertmanager-0.23.0.linux-amd64/alertmanager.yml
使用说明Prometheus地址:https://prometheus.toplion.com.cn/能查询配置的规则,已经生效的规则,节点信息等


grafana地址:https://grafana.toplion.com.cn/

监控配置登录105服务器
cd /opt/iot/conf/prometheus/
修改配置文件
修改解压的文件夹名为node_exporter
下图启动监控服务
刷新页面,新配置的服务器信息会在下图文本框中显示

新环境第一次导入服务器信息,如下图:

输入,点击load

点击import

完成,显示下图

规则配置/opt/iot/conf/prometheus/rules 文件夹内新增.yml文件或者修改原yml文件

编写配置规则脚本保存,重启普罗米修斯服务配置报警(默认钉钉报警)新建钉钉群,智能群助手添加机器人,赋值机器人Webhook
Grafana页面配置钉钉

cd /opt/iot/conf/prometheus
修改配置文件

d. 保存重启
普罗米修斯报警信息会发送的配置的钉钉群
规则说明配置文件/opt/iot/conf/prometheus/rules
具体的报警规则需要在配置文件里手动配置,当配置值超过阈值时即会钉钉群推送报警消息。
目前报警参数配置为
cpu使用率>85
内存使用率>85
节点宕机停止运行超过 15s