银行 Zabbix 监控架构分享.doc

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
? ? ? ? ? ? ? ? 银行 Zabbix 监控架构分享 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Zabbix 平台概述 平台介绍 Zabbix 是一个基于 Web 界面提供分布式系统监视及网络监视功能的企业级开源解决方案。它能监视各种网络参数,保证服务器系统的安全运营,并提供灵活的通知机制以让系统管理员快速定位、解决存在的各种问题,借助Zabbix 可很轻松地减轻运维人员繁重的服务器管理任务,保证业务系统持续运行。其后端使用数据库存储监控配置和历史数据,可以非常方便地对接数据分析、报表定制等渠道,在前端开放了丰富的 RESTful API 供第三方平台调用,整体架构在当下的 DevOps 的趋势下显得非常亮眼。 选型过程 我们于 2017 年开始接触 Zabbix,之前运维内主要使用的监控系统是 Nagios,但 Nagios 的页面展示、监控配置、自动化等各项功能对基础架构的运维人员来说不是特别友好,而风头正劲的 Zabbix 正好引起了我们的注意。基础架构的运维工作中,需要面对各种各样的监控场景,例如 PC 服务器的故障灯巡检、存储设备的阵列健康判断、小型机 LPAR 的资源监控、操作系统的多路径检查,等等。而 Zabbix 内置提供了 SNMP、IMPI、SSH、Agent 等多种监控途径,在系统架构的各层场景下都能很好的适配,其中 Agent 还支持自定义工具,总体的表现非常灵活。在网页前端管理上,Zabbix 可以满足各个粒度的监控管理,从整个集群到单独一个监控项都能够进行细分管控,自定义 dashboard 和历史数据可视化功能也极大地方便运维人员对监控数据的审查。综合以上的考虑因素,行内选择了 Zabbix 作为一个新的监控平台试点,从基础资源的监控出发,首先将大部分存储、主机和操作系统接管到 Zabbix。 使用现状 2017 年底在基础架构范围内试行的 Zabbix 系统,从 3.2 版本开始逐步演进到现在的 4.4 版本,其中经历了各项监控系统的里程碑事件。目前的 Zabbix 系统也由原先的小范围试用,逐步扩展到涵盖硬件、应用、平台、业务等更大范围的场景,架构上也从单数据中心进化为三中心的分布式部署。除了逐渐替代旧的监控系统,越来越多的第三方系统也开始对接起了 Zabbix,例如自动化运维平台、持续发布平台、运维可视化平台等,通过 API 或者数据库抽数的方式,使用海量的运维监控数据实现智能运维的工作模式。 在编写此文前不久,我们也顺利完成应用系统监控迁移到 Zabbix 平台,作为一名全程参与 Zabbix 系统推广实施和自动化开发的运维人员,非常荣幸能够见证我们运维力量的茁壮成长,在此,本人也将从架构部署、监控维度、自动化方案、运营管理层面,分享我们 Zabbix 系统发展壮大的经验。 硬件监控 数据中心的运维管理中,系统架构的纵向深度是非常陡长的,包括最基础的硬件设备也需要运维人员费尽心思地去巡检排查,但随着数据中心的设备数量呈爆发式增长,人工巡检已不能满足当下监控实时性、可靠性的要求。对于这种低层级的监控,Zabbix 的多维度特性就非常好的解决了这个问题,其内置的 SNMP/IPMI 协议能够轻松对接相关硬件设备的带外监控。 目前我们使用 SNMP Agent 的被动方式定期巡检硬件设备的基础指标,例如故障灯信号、电源功率、内存信息、磁盘阵列等,代替人工巡检的方式来实现异常捕获,并对数据中心内的所有设备做到硬件信息采集,定时更新至 CMDB。例如以下为部分华为 RH2288 V3 IBMC 监控模板中自动发现的配置: Zabbix 配置硬件监控的操作过程也非常便捷,大部分都是在网页界面配置,只需要定义好 SNMP Agent/Trap 的接口或 IPMI 传感器目标端口后即可灵活定义监控项。对于 IPMI 监控的配置,主要是将传感器的名称填入即可,目前我们对 IPMI 的带外监控使用的相对较少,主要是部分浪潮 PC 服务器在使用,对 IPMI 更多地考虑应用于在如 VMware vSphere 的 DPM 等带外管理上。 在硬件监控选择监控协议时,保持的一项原则是:能用 SNMP 就不用其他,能用 SNMPv3 就不用 SNMPv2 。因为 SNMP 在 Zabbix 中可以非常灵活的实现自动发现,而 SNMPv3 可以提供更健壮的认证机制,因为在开放硬件监控的同时也必须考量网络安全的风险。对单个 SNMPv3 的监控项配置如下,大部分参数都提供了输入窗口: 对于上述提及的 SNMP 配置自动发现的灵活性,这也是依赖于 SNMP 设计的原理,借助树结构的索引方式,可以根据 index 字段枚举现有元素的数量,然后再根据数量长度来

您可能关注的文档

文档评论(0)

智慧IT + 关注
实名认证
内容提供者

微软售前技术专家持证人

生命在于奋斗,技术在于分享!

领域认证该用户于2023年09月10日上传了微软售前技术专家

1亿VIP精品文档

相关文档