数字化智能IT运维管理
功能特点
用户通过资源配置可以对整个系统所监控的资源进行配置。
1、需要管理员对资源的KPI进行配置,放开系统监控资源权限,在资源配置页面生成相应的资源配置入口;
2、由普通管理用户通过资源配置入口添加相应的资源监视器,通过监视器监控所需的资源指标。
系统中提供添加资源的功能,同时提供针对资源的更新、删除操作。资源是系统运行中最基础的单元,资源添加以后才有后续的性能数据的产生,告警数据、告警通知、报表等后续功能。
资源的添加按照不同的资源类型进行不同的参数处理,针对同一类型的资源,基本参数大致相同。
针对操作系统资源,采用的协议不一致,协议类型包括SNMP。
针对数据库资源,可以直接通过数据库密码的方式进行监控,同时也可以依据特定的数据库,采用不同的方式前去处理。
针对不同的中间件,采用中间件特定的方式进行监控。
资源监控数据处理流程
系统web页面添加监视器,监视器信息存入数据库,采集程序读取数据库中监视器信息并对相应的资源进行采集数据,将采集到的数据存入系统数据库中。
数据处理流程如下:
监视器添加过程:用户通过运维管理系统的Web操作页面,添加监视器,比如:Kylin操作系统,添加完成后会Java程序将输入写入到数据库中;
监视器加载过程:采集程序,定期5秒会查询“监视器列表更新的状态标志位”是否有更新,如果有更新,则从数据库中读出最新的监视器列表,同时读取监视器的配置参数,如:IP、SNMP读共同体、SNMP版本号等。如果没有更新,则不加载;
性能采集过程:加载新的监视器后,按照对应设备的采集协议,进行设备可用性、性能采集。以Kylin操作系统为例,
首先PING设备是否可达,如果不可达,则退出监视器轮询采集过程,产生可用性告警;如果可达,则继续下一步;
如果设备可达,使用SNMP读共同体、SNMP版本号参数通过SNMP协议,测试系统是否SNMP协议是否正常访问,如果不能访问,则退出监控轮询采集过程,产生监控认证失败告警;如果能够访问,则继续下一步;
通过MIB库中的各种OID,采集系统基本信息、CPU、内存、磁盘等常规性能参数;
采集完成后,则进行性能分析整理。
Kylin监控
主机监控管理能监控Kylin系统。首先监控管理发现网络中的每个Kylin系统,然后监控每个CPU的行为、完整的内存利用率,以及本地和远程的系统统计数据。
Kylin管理功能通过自动化的事件检测及纠正,有助于优化Kylin系统性能、提交全面的管理报表并确保可用性。监控管理还能监控Kylin系统中运行的进程。
数据库监控
基于配置的阈值,生成通知和告警;基于配置自动执行动作。
能即刻呈现性能图表和报表;基于可用性、健康状况和连接时间分组并显示报表。
提供历史的和当前的性能指标,以便了解特定时间内的性能状态。
中间件监控
监控系统能够监控诸如Apusic、山东中创等应用监控能确保中间件的健康和可用性。当服务器上运行的服务或应用出现故障时,这些服务器的功能和性能就会受到影响。业务管理通过快速检测和诊断应用服务器以及服务的故障问题,有助于确保较高的正常运行时间。
资源详情展示
资源性能数据采集完成之后,通过系统协作流程提供的数据在页面进行展示,展示的资源通过KPI的方式进行展示,页面中上每一个表格和每一个功能块都是KPI组合起来的数据。
资源展示以树型的结构进行展开,默认的方式是以资源类型的方式形成树型,同时也可以自定义组合。
可视化
以图型的方式对资源、概览数据进行展示,主要的可视化展示分为:拓扑视图、机房视图、大屏。
拓扑视图
拓扑视图分为:网络拓扑视图,物理拓扑视图,业务拓扑视图,和自定义拓扑视图。
其中物理拓扑视图展示的是真实的网络设备和真实的连接关系,网络视图展示网络之间的连接关系,自定义拓扑视图根据客户需要,建立不同视角下的网络视图。
业务视图以业务的视角进行资源的展示,可以添加所有可以监控的资源,根据实际需要,以业务的视角添加对应的网络资源、服务器资源、软件资源、虚拟化资源。
拓扑视图中的资源可以添加连线,设置资源之间的连接关系,连接关系可以是逻辑的,也可以是物理的,并且连线需要在数据字典中进行定义。
机房视图
以机房为视角展示资源的视图,展示的资源主要是硬件的形式为单位进行展示,如服务器,网络设备。
告警事件管理
告警事件管理包含,告警事件的产生(参考资源管理-资源监控-数据处理流程)、告警事件的处理、事件产生的通知、以及配置产生告警的阈值配置。
报表展示
报表的展示需要能够支持饼图、柱图、折线图进行展示,同时辅以列表数据进行展示。报表需要支持导出为Word、Excel、Pdf格式。
系统管理主要功能包含:用户、角色、权限的管理,对用户操作日志的查看,清除功能,数据字典的维护。

应用场景
场景一:IT故障的快速定位和根因分析
在企业中,大家常会看到这样的场景:发现业务系统无法登陆,或营业数据出现异常波动,打电话到IT部门询问,IT运维人员立刻开始手忙脚乱地用各种工具排查故障原因。
业务系统健康、稳定运行是业务正常开展的前提,也是IT部门的基本职责。对IT部门来说,先于业务部门发现故障,就可以提前向业务部门发出警示,或在接到业务部门质询电话的时候,给出更放心、更准确的答复,从而有效提高业务部门的工作效率和质量。
首先,业务运维系统凭借自身的平台化能力,将原本割裂的各种监控数据,如网络设备状态、业务网站性能、关键业务API及事务流程、CDN加速效果、云主机状态等,通过智能数据过滤、关键数据识别对关键的性能指标数据进行汇总,实现运维监控数据的统一管理。
然后,依据事先设置好的告警策略,对告警事件进行优先级和重要程度排序,并将故障信息第一时间发送给IT部门。故障信息的通知方式是多种多样的,包括移动App、短信、语音、邮件、URL回调等,确保信息及时、准确地送达。
最后,运维人员利用业务运维平台提供的故障快照功能,可以准确还原故障现场,进行IT故障的快速定位和根因分析。
场景二:跨应用系统的关联分析
在很多企业,特别是大型集团企业中,核心业务往往不是由单一系统支撑的,一个业务的完整流程需要访问多个平台、不同语言开发的应用系统。同一业务的多个支撑系统,往往是由不同的开发团队或外包服务商提供的,代码规范性和一致性较差,后续的支持和维护也由不同的运维团队来完成的。
首先,多个支撑系统各自为政,使企业很难了解业务的完整流程和全局状态;第二,当出现问题时,业务人员协调各应用系统,分别进行自查分析,缺乏协同管控,导致业务问题迟迟不能解决;第三,传统的监控管理工具,只能解决单一系统的性能或故障问题,无法解决跨系统问题追踪的难题。
数字化业务运维平台以企业现有IT监控系统和日志数据为基础,使用智能数据采集器从应用性能管理软件、系统日志、Zabbix、ITSM等多种监控管理系统中获取性能相关指标数据,通过大数据平台的建模、处理和指标关联后,用大数据方法将业务流程完整地梳理和展现出来,帮助企业了解业务处理过程中各应用系统的调用关系、业务运行状态及性能表现。
建立业务关键指标及性能之间的关联模型,从采集的海量历史数据中分析性能与业务之间的非线性多因素关系,从事后的影响评估、事前的What-if预测分析等多个方面来考虑性能问题对性能的影响,甚至可从业务的角度反向驱动业务对性能的要求。
场景三:企业IT资源一体化管控
"互联网+"转型,企业不断加大数据中心、虚拟资源、网络、应用、安全、运维服务等IT资源的投入,使整个IT系统的规模越来越大,复杂度越来越高。随之而来的,是企业越来越难以掌握IT资源的运行状况和利用率,IT资源的规划和决策也缺乏全面、真实数据的支撑。在这样的背景下,IT资源的一体化管控,就成为了一个非常现实的问题。
数字化业务运维建立的统一IT数据采集、管理和分析平台,实现各分散IT系统数据的集中采集、统一管理和统一展现。通过大屏幕,企业的IT管理者可以多维度、多视角地了解各类IT资源的运行状况和利用情况。
同时,业务运维平台可以统计出不同应用系统功能模块和所调用服务、使用时间、频次、处理耗时等指标。依据这些分析数据,企业可以对臃肿的业务功能模块进行合理有效的"瘦身"和优化,从而大幅提高系统的运行效率。
在及时了解全局业务状态的基础上,企业可以不断改进业务流程,优化IT资源配置,从而让运营更高效,让决策更科学。
数字化智能业务运维平台的意义
企业的数字化程度越高,运维的管理难度也越大,数字化智能业务运维解决方案能够帮助企业有效降低运维难度,让IT更好的支撑业务。通过平台化带来的可扩展性,充分满足企业数字化进程中不断变化的运维需求,实现IT引领业务、引领创新的目标。
随着人工智能技术的不断成熟,数字化将赋予业务运维平台更多AI和大数据的能力,打造智能运维体系(AIOps),为中国企业的数字化转型提供更有力的支持。