Prometheus+Grafana监控系统使用手册

Prometheus+Grafana监控系统使用手册 需安装插件说明Docke:基于docker安装 Prometheus:Prometheus 是由 SoundCloud 开源监控告警解决方案。 Grafana:Grafana是一款用Go语言开发的开源数据可视化工具,可以做数据监控和数据统计,带有告警功能 cAdvisor:可以对节点机器上的资源及容器进行实时监控和性能数据采集,包括CPU使用情况、内存使用情况、网络吞吐量及文件系统使用情况 Alertmanager:报警工具 prometheus-webhook-dingtalk钉钉报警插件部署服务器192.1680/105 采用docker部署 Prometheus:配置文件 /opt/iot/conf/prometheus/prometheus.yml 规则文件/opt/iot/conf/prometheus/rules Dingtalk:/opt/iot/conf/prometheus/dingtalk.yml Alertmanager: 106部署 配置文件:/usr/local/alertmanager-0.23.0.linux-amd64/alertmanager.yml 使用说明Prometheus地址:https://prometheus.toplion.com.cn/能查询配置的规则,已经生效的规则,节点信息等
grafana地址:https://grafana.toplion.com.cn/
监控配置登录105服务器 cd /opt/iot/conf/prometheus/ 修改配置文件
修改解压的文件夹名为node_exporter 下图启动监控服务
刷新页面,新配置的服务器信息会在下图文本框中显示
新环境第一次导入服务器信息,如下图:
输入,点击load
点击import
完成,显示下图
规则配置/opt/iot/conf/prometheus/rules 文件夹内新增.yml文件或者修改原yml文件
编写配置规则脚本保存,重启普罗米修斯服务配置报警(默认钉钉报警)新建钉钉群,智能群助手添加机器人,赋值机器人Webhook Grafana页面配置钉钉
cd /opt/iot/conf/prometheus 修改配置文件
d. 保存重启 普罗米修斯报警信息会发送的配置的钉钉群
规则说明配置文件/opt/iot/conf/prometheus/rules 具体的报警规则需要在配置文件里手动配置,当配置值超过阈值时即会钉钉群推送报警消息。 目前报警参数配置为 cpu使用率>85 内存使用率>85 节点宕机停止运行超过 15s