服务资源监控助力安全运维

2026年01月20日/ 浏览 11

关键词:监控技术;信息技术;运维;智能化;监控平台

摘要:随着软硬件服务的增多,安全运维工作将显得尤为重要。那么,如何应用服务监控技术来助力安全运维,以保障各服务及应用的稳定运行呢?

小编在上篇技术文章《容器技术创新信息技术应用》中提到,随着软硬件服务的增多,安全运维工作将显得尤为重要。那么,如何应用服务监控技术来助力安全运维,以保障各服务及应用的稳定运行呢?

一、常见监控技术

在IT运维管理过程中,主要需对服务器、应用及网络设备进行监控。在网络设备上,所有厂商基本都采用SNMP简单网络管理协议(也有使用其他协议如WMI、SSH等协议)进行轮询和监控;但在服务器和应用上,目前主要存在两种模式:Agent(代理模式)和Agentless(无代理模式),其本质区别在于运行数据的采集上。顾名思义,代理模式需在服务器中安装轻量代理软件,以收集运维需要的数据,其最大弊端是实施工作量较大;无代理模式则无需安装服务器代理软件,但需开放相应的协议端口,其最大弊端就是安全性降低、网络实时传输数据的压力增大等。

在技术上,目前使用较多的主要有:Prometheus、Zabbix、Nagios 和 Open-Falcon等,其简单的比较如下:

从系统成熟度方面来看,Zabbix和Nagios都是较为传统的监控系统,出现较早,系统功能比较稳定,成熟度较高。而Prometheus和Open-Falcon都是最近才诞生的,虽然功能还在不断迭代、更新,但它们借鉴老牌监控系统的经验,在架构设计上更为先进。

从社区活跃度方面来看,目前Zabbix和Nagios的社区活跃度比较低,Open-Falcon的社区虽然也比较活跃,但基本都是国内的公司在参与。反而,Prometheus的社区活跃度最高,并且得到CNCF基金会的支持,未来的发展值得期待。在技术选型上,社区活跃度往往是重要考虑因素之一。

目前各大厂商使用较多的主要是Prometheus和Zabbix。由于Zabbix和 Nagios出现得比较早,当时容器还未诞生,对容器的支持自然也比较差。Zabbix在传统监控系统中,尤其是在服务器相关监控方面,占据绝对优势。Nagios则在网络监控方面有广泛应用。Open-Falcon虽然提供了容器监控功能,但支持力度有限。Prometheus是一款基于时序数据库的开源监控系统,其动态发现机制,不仅支持Swarm原生集群,还支持Kubernetes容器集群监控,非常适合虚拟化环境的监控,比如VM、Docker、Kubernetes等,是目前容器监控的最佳解决方案之一。伴随着容器技术的发展,Prometheus开始成为容器监控方面的标配,并将被广泛应用,业内也将“Kubernetes+ Docker+Prometheus”称为容器三件套。

二、数慧服务监控平台

数慧服务监控平台(DSMP),结合自然资源行业应用部署在物理机或容器或并存的实际情况,集成Zabbix和Prometheus监控技术的各自优势,为行业软硬件提供全面监控、灵活高效配置、实时指标追踪预警、快速异常定位及故障恢复的能力,全面减轻运维压力,提升运维效率。同时,DSMP在技术上选取Grafana数据展示,为运维人员提供丰富的可视化监控信息,DSMP为自然资源行业提供了多源高效、易扩展、易集成、可视化的服务监控解决方案。DSMP目前已支持网络、服务器、数据库、中间件、容器、应用、服务、第三方接口等运行的监控。

1、运行数据采集

在监控IT基础资源时,DSMP可以从任何设备、系统、应用程序上采集数据,包括网络设备、云服务、容器、虚拟机、操作系统级监控、日志文件、数据库、应用程序、服务、物联网传感器、网页监控、HTTP/HTTPS端点监控并支持各种行业标准协议以及从外部API端点采集数据。

平台采用推拉数据采集方式,包括:间隔轮询、定时采集、特定时间段的轮询间隔以及用于高频监控的数据节流推拉,采集数据类型包括:数字、文本、二进制、结构化JSON、XML、CSV等通用的数据格式。

平台同时支持各种远程监控服务的协议,包括:网络监控、脚本化监控、SNMP轮询和Trapping、Java应用程序监控、IPMI、SSH/Telnet检查、ODBC监控、ICMP和TCP检查、从HTTP端点采集数据、Modbus和MQTT协议支持。

在原生协议上不能满足监控要求时,可以部署Agent进行深度监控,Agent是适用于所有操作系统和硬件平台的本地高性能监控解决方案。目前已经支持JAVA、JMX、Pyhthon、Go、Rubby、.Net、node.js等语言的客户端软件开发工具(SDK),基于这些SDK可以很容易将应用程序纳入到监控范围,实现期望监控的内容。

2、多维度可视化数据监控仪表盘

在监控数据展示时,可根据自身需求使用预置组件进行灵活个性化配置并存储为模版,也可直接使用现有模版(例如服务器监控模版、数据库监控模版等),极大地减少配置工作。同时平台支持通过常用的柱状图、折线图、时序图、趋势图、热力图、拓扑图等多样化组合展示,形成监控数据驾驶舱,实时快捷地了解各类服务资源的动态运行状态,并支持导出分析报告。

图 服务器资源监控

图 中间件监控

3、多渠道的智能化预警

运维人员可在平台中设置多级预警阈值,当监控指标超过阈值时,平台可发出预警信息,包括:邮件、短信、弹窗、企业微信、外部消息系统和第三方服务等,也可以根据需要,为不同的场景定义不同的预警消息。例如,可根据问题类型和收件人的角色来自定义预警信息,定时发送PDF报表等,从而方便对服务进行深入洞察和长期跟踪分析。

图 企业微信中的预警信息

借助预警机制可帮助运维人员更快地定位、分析和解决问题,也支持对不同用户的简单通知和升级操作、延迟通知和自动问题修正等。如果采取自动解决问题时,不仅可以收到问题的预警信息,还可以执行修正脚本或命令来尝试解决问题,如执行修正脚本:重启服务、管理云资源、自动伸缩资源、执行任何其他自定义逻辑。

服务资源监控是自动化运维中必备的一环。通过智能化监控,运维人员能够直观、全面、系统、实时地掌握软硬件运行状态,做到事前及时预警、事中快速定位、事后总结分析和改进,同时基于其强大的自动化巡检功能也大大减轻了运维压力,提升了整体运维能力,助力安全运维。

更多精彩内容,敬请持续关注“DIST上海数慧”。

picture loss