服务资源监控助力安全运维

2026年01月20日/ 浏览 11

关键词：监控技术；信息技术；运维；智能化；监控平台

摘要：随着软硬件服务的增多，安全运维工作将显得尤为重要。那么，如何应用服务监控技术来助力安全运维，以保障各服务及应用的稳定运行呢？

小编在上篇技术文章《容器技术创新信息技术应用》中提到，随着软硬件服务的增多，安全运维工作将显得尤为重要。那么，如何应用服务监控技术来助力安全运维，以保障各服务及应用的稳定运行呢？

一、常见监控技术

在IT运维管理过程中，主要需对服务器、应用及网络设备进行监控。在网络设备上，所有厂商基本都采用SNMP简单网络管理协议（也有使用其他协议如WMI、SSH等协议）进行轮询和监控；但在服务器和应用上，目前主要存在两种模式：Agent（代理模式）和Agentless（无代理模式），其本质区别在于运行数据的采集上。顾名思义，代理模式需在服务器中安装轻量代理软件，以收集运维需要的数据，其最大弊端是实施工作量较大；无代理模式则无需安装服务器代理软件，但需开放相应的协议端口，其最大弊端就是安全性降低、网络实时传输数据的压力增大等。

在技术上，目前使用较多的主要有：Prometheus、Zabbix、Nagios 和 Open-Falcon等，其简单的比较如下：

从系统成熟度方面来看，Zabbix和Nagios都是较为传统的监控系统，出现较早，系统功能比较稳定，成熟度较高。而Prometheus和Open-Falcon都是最近才诞生的，虽然功能还在不断迭代、更新，但它们借鉴老牌监控系统的经验，在架构设计上更为先进。

从社区活跃度方面来看，目前Zabbix和Nagios的社区活跃度比较低，Open-Falcon的社区虽然也比较活跃，但基本都是国内的公司在参与。反而，Prometheus的社区活跃度最高，并且得到CNCF基金会的支持，未来的发展值得期待。在技术选型上，社区活跃度往往是重要考虑因素之一。

目前各大厂商使用较多的主要是Prometheus和Zabbix。由于Zabbix和 Nagios出现得比较早，当时容器还未诞生，对容器的支持自然也比较差。Zabbix在传统监控系统中，尤其是在服务器相关监控方面，占据绝对优势。Nagios则在网络监控方面有广泛应用。Open-Falcon虽然提供了容器监控功能，但支持力度有限。Prometheus是一款基于时序数据库的开源监控系统，其动态发现机制，不仅支持Swarm原生集群，还支持Kubernetes容器集群监控，非常适合虚拟化环境的监控，比如VM、Docker、Kubernetes等，是目前容器监控的最佳解决方案之一。伴随着容器技术的发展，Prometheus开始成为容器监控方面的标配，并将被广泛应用，业内也将“Kubernetes+ Docker+Prometheus”称为容器三件套。

二、数慧服务监控平台

数慧服务监控平台（DSMP），结合自然资源行业应用部署在物理机或容器或并存的实际情况，集成Zabbix和Prometheus监控技术的各自优势，为行业软硬件提供全面监控、灵活高效配置、实时指标追踪预警、快速异常定位及故障恢复的能力，全面减轻运维压力，提升运维效率。同时，DSMP在技术上选取Grafana数据展示，为运维人员提供丰富的可视化监控信息，DSMP为自然资源行业提供了多源高效、易扩展、易集成、可视化的服务监控解决方案。DSMP目前已支持网络、服务器、数据库、中间件、容器、应用、服务、第三方接口等运行的监控。

1、运行数据采集

在监控IT基础资源时，DSMP可以从任何设备、系统、应用程序上采集数据，包括网络设备、云服务、容器、虚拟机、操作系统级监控、日志文件、数据库、应用程序、服务、物联网传感器、网页监控、HTTP/HTTPS端点监控并支持各种行业标准协议以及从外部API端点采集数据。

平台采用推拉数据采集方式，包括：间隔轮询、定时采集、特定时间段的轮询间隔以及用于高频监控的数据节流推拉，采集数据类型包括：数字、文本、二进制、结构化JSON、XML、CSV等通用的数据格式。

平台同时支持各种远程监控服务的协议，包括：网络监控、脚本化监控、SNMP轮询和Trapping、Java应用程序监控、IPMI、SSH/Telnet检查、ODBC监控、ICMP和TCP检查、从HTTP端点采集数据、Modbus和MQTT协议支持。

在原生协议上不能满足监控要求时，可以部署Agent进行深度监控，Agent是适用于所有操作系统和硬件平台的本地高性能监控解决方案。目前已经支持JAVA、JMX、Pyhthon、Go、Rubby、.Net、node.js等语言的客户端软件开发工具（SDK），基于这些SDK可以很容易将应用程序纳入到监控范围，实现期望监控的内容。

2、多维度可视化数据监控仪表盘

在监控数据展示时，可根据自身需求使用预置组件进行灵活个性化配置并存储为模版，也可直接使用现有模版（例如服务器监控模版、数据库监控模版等），极大地减少配置工作。同时平台支持通过常用的柱状图、折线图、时序图、趋势图、热力图、拓扑图等多样化组合展示，形成监控数据驾驶舱，实时快捷地了解各类服务资源的动态运行状态，并支持导出分析报告。

图服务器资源监控

图中间件监控

3、多渠道的智能化预警

运维人员可在平台中设置多级预警阈值，当监控指标超过阈值时，平台可发出预警信息，包括：邮件、短信、弹窗、企业微信、外部消息系统和第三方服务等，也可以根据需要，为不同的场景定义不同的预警消息。例如，可根据问题类型和收件人的角色来自定义预警信息，定时发送PDF报表等，从而方便对服务进行深入洞察和长期跟踪分析。

图企业微信中的预警信息

借助预警机制可帮助运维人员更快地定位、分析和解决问题，也支持对不同用户的简单通知和升级操作、延迟通知和自动问题修正等。如果采取自动解决问题时，不仅可以收到问题的预警信息，还可以执行修正脚本或命令来尝试解决问题，如执行修正脚本：重启服务、管理云资源、自动伸缩资源、执行任何其他自定义逻辑。

服务资源监控是自动化运维中必备的一环。通过智能化监控，运维人员能够直观、全面、系统、实时地掌握软硬件运行状态，做到事前及时预警、事中快速定位、事后总结分析和改进，同时基于其强大的自动化巡检功能也大大减轻了运维压力，提升了整体运维能力，助力安全运维。

更多精彩内容，敬请持续关注“DIST上海数慧”。