哈密银行(哈密市商业银行:IT运维数字化转型的场景实践)
来源:峰值财经 发布时间:2023-05-04 浏览量:次
来源:2022第三届中小金融机构数智化转型优秀案例评选
获奖单位:哈密市商业银行
荣获奖项:数据智能应用创新优秀案例奖
一、项目背景及目标
伴随着银行业务的发展以及监控要求的不断提升,运维工作的压力和难度越来越大,当出现问题时,只能被动的去解决问题,事后甚至一些问题的根本原因都无法查明。因此需要建立一套运维体系,该体系能及时发现问题、留下问题时段数据(如日志、服务器运行情况等)和能辅助运维人员快速定位问题。
根据哈密市商业银行数字化转型的规划,量身定制一套符合哈密市商业银行的以业务系统为单位的运维体系,以新建设的IT运维管理平台为核心,通过制度和流程的制定,逐步将运维工作数字化和规范化,配合新技术的使用(数据湖和运维大数据平台)提高运维工作的效率,解决运维工作中遇到的实际问题。
为实现以上目标,我行建立了IT运维管理平台,主要实现以下目标:
1.搭建全数据中心的镜像流量网,统一对生产镜像流量进行管理和使用,为后续需要使用镜像流量的系统提供服务,如:风险管理系统、态势感知系统等。
2.通过搭建日志监控和应用报文监控,对应用进行全方面监控,精细化告警规则,针对重点交易进行个性化设置,保留日志和报文的数据,为快速定位提供数据依据,并推进行内日志和报文规范化的建设。
3.建立对于操作系统、数据库、中间件和网络设备的基础监控,将所有服务器和网络设备纳入监控,保留监控数据以用来为后期扩容、容量管理、项目后评价等提供数据支持。
4.建立信息科技部的CMBD,以CMDB做为IT运维管理平台的核心,通过其他监控平台对CMDB进行部分维护工作,减轻人工维护。同时,启动电子流程模块,将所有信息科技部流程电子化,通过流程进行CMDB的维护,以保证CMBD的可靠性。
5.通过NPM的建设,将网络以业务系统为单位进行展现,掌握流量的动向。
6.建立统一的运维管理平台,将各个底层监控的监控数据和告警进行汇总去进行监控数据的消费,如告警快速定位、建立容量预测模型、建立系统健康度模型等。
二、项目方案
IT运维管理平台旨在实现一套管控体系、一套低代码与运维开发方法;通过建立统一运维管理平台,整合贯通CMDB、流程平台、监控平台、运维数据分析、知识库、门户及可视化等,实现企业IT运维工具化、可视化、标准化、数字化、一体化的体系化演进。
按照以上建设思路,结合我行实际情况,IT运维管理平台的实现方案如下:
1.工具化运维
通过新增、升级、替换现有监控模块,包含基础监控、应用监控、网络监控、日志监控等建设我行运维监控体系。
2.可视化运维
通过对运维体系中各平台数据发掘扩展,挖掘数据场景实现监控平台全方位展示业务状态指标。
3.标准化运维
制定体系化的运维管理制度、规范运维管理流程,并结合CMDB和流程平台,实现资产和运维管理的标准化。
4.统一化运维
通过搭建统一运维管理平台,整合CMDB、流程平台、监控平台等组件功能,实现各个组件之间的数据共享和联动,最终实现一体化运维管理平台建设。
5.数字化运维
通过从基础监控平台、应用监控平台、日志监控模块和流量监控平台所采集的数据进行转换、清洗和管理,实现数字化建模,用于支撑运维场景优化、故障原因分析、快速定位。
IT运维管理平台采用分布式高可用架构,支持横向扩展,随着业务需要随时扩容平台节点,通过高效数据采集手段,实现对现有IT环境的实时数据采集,打破各个孤立运维工具中的数据孤岛,对所有运维数据进行集中高效的存储、查询及可视化展示。支持结构化、非结构化的数据采集支撑。通过鼠标点选的方式实现全局数据查询,查询方式简单易上手,查询速度达到秒级返回。平台预设丰富模版及展示模式,能够对多维度数据进行多种方式的实时性展现。内置AI智能日志分析引擎,实现日志异常检测、日志异常定位并辅助故障定位。平台提供符合业界标准的集成接口,其体系架构符合行业大数据的技术发展路线。
三、创新点
3.1 建设运维一体化平台
通过建设运维一体化平台,实现数据一体化、操作一体化、管理一体化、展现一体化。以更贴合业务的用户场景为驱动,整合分散的告警、指标、日志、配置等孤岛数据,按多种维度转换成对“人”有用的决策信息,并通过统一门户、可视化方式直观的展示,让业务状态更健壮、运维管理更高效。
平台能够采集、处理和分析各类日志、指标和告警等运维数据,并提供数据的统一集中查询、检索和预测分析。此外,平台在AI算法的支撑下,还能通过关联分析、建模预测等方式发现不同运维数据类别中的潜在关系,并建设历史数据趋势分析、告警阈值设置、异常信息发现以及日志智能检索分析等大数据运维应用场景,为告警阈值设置、异常信息发现等提供参考依据,实现事前智能预警、事后故障快速定位,进一步提升客户数据中心运维管理水平。
3.2 基于负载均衡的应用监控
传统应用监控主要通过对TAP设备镜像的流量进行分析。本次项目采用负载均衡实现解析的功能。我行主要使用的负载均衡为F5,F5设备具有可对通过其设备的报文进行解析的功能,具体实现通过F5的irules进行业务输出编辑,实现所需要的数据输出至logstash,logstash进行与kafka的topic-id字段对接,完成数据进入kafka,在通过数据调和引擎将数据接入大数据平台,最后通过可视化平台对数据进行可视化展示。
基于F5的强大处理能力,报文解析可以达到秒级,且可避免因为TAP设备导致的丢包情况出现,大幅提高应用监控的准确性。同时,将解析数据接入大数据平台后,可根据行内实际情况,配合上层平台的告警功能,灵活实现基于交易的监控和告警。
3.3 所见即所得的可视化能力
平台内置了大量的展示组件,展示方式灵活多样,生动,可交互。具有高度个性化定制的数据可视化图表,支持柱形图、折线图、饼图、面积图、散点图、百分比、仪表盘、四象图、雷达图、漏斗图、区域图等多种的图形展示。可基于应用场景及建设拓扑分析,将不同组件不同维度的视图进行整合和管理。
实时展示监控业务视图中所有服务的整体健康状态。直观展示IT运维环境的运行的业务系统及环节及服务组件之间的访问关系和关键指标,多种维度指标深入分析,在故障发生时能更加直观的呈现故障关联信息、故障根源情况,极大地提升故障解决效率。运维人员可以从视图第一时间得到提示,并快速通过统计分析、日志聚类、日志串联等等手段快速定位故障环节。
3.4 交易串联
运维大数据平台对在线交易类的业务系统特别推出了针对业务端到端的动态运行图,通过全局流水号对交易报文所经过的每个业务节点计算交易耗时。对于出现成功率低或出现的错误的节点直观的呈现在运维人员面前,便于故障定位。同时,当需要查询单笔交易时可通过流水号等关健字进行搜索,即可搜索到此交易所涉及到的每个业务系统的交易日志。通过多维度深入分析及可视化展现,以业务视角实时展示各种业务指标,透视应用接口调用状态,对核心业务进行关键指标统计(如调用来源、调用量、接口处理时间等),体现端到端的运维的状态。将平面的日志变为立体的日志。通过对日志源与对应系统的逻辑关系记录,使问题的定位更加快速、直观,使得问题的解决更加容易便捷。
3.5 应急故障处置场景化分析
通过搭建业务、应用和IT组件的关联关系,可以建立一套面向业务的IT生产模型,进而实现业务到IT组件的全貌掌控。面向业务的应急故障处置以业务异常为应急出发点,通过上述模型快速判断业务影响范围及可能影响故障点。当业务影响面比较大的时候,借助模型快速定位对应的业务组件,通过重启、切换等手段先行恢复业务。待业务恢复正常后,通过告警回溯、根因定位等手段分析当时故障原因,为后续系统优化提供场景支撑。当业务影响面比较小时,即还有足够的故障处置时间窗口,则可以借助模型从业务到应用到IT组件进行逐层的根因定位。同时结合系统内置的历史根因场景快速定位疑似根因帮助用户准确恢复故障。
应急故障处置场景化分析,通过在配置管理库CMDB中先将行内IT资产信息、行内业务逻辑信息进行数据建模,构建出业务系统的分类,业务系统访问关系,业务系统架构图。然后通过大数据分析能力对一定时间范围内的多个告警按时间顺序在业务系统架构图中动态展示前后顺序,支持维护人员手工录入或剔除已知的告警信息;支持场景回放模拟整个故障过程,供维护人员进行人为定位故障前后逻辑及完整性使用。当维护人员将故障场景化后,系统会自动生成案例录入系统知识库。同时大数据分析平台对场景进行分析,进行场景数据化建模,后期针对同类场景如果再现,则提前进行预警通知,并提醒运维人员使用该之前的运维经验去完成诊断分析,快速定位故障原因。
3.6 构建实时数据湖,打破“运维数据孤岛”
我行基于Apache Iceberg打造的实时数据湖,具备同时支持流批处理、支持数据更新、支持事务、可扩展的元数据、支持多种存储计算引擎等特性。优化了数据入库流程,上游数据写入即可见,不影响当前数据处理任务,极大地缩小数据入库延迟。统一了数据存储和灵活的文件组织,提供了基于流式的增量计算模型和基于批处理的全量表计算模型。批处理和流任务可以使用相同的存储模型,数据不再孤立。同时支持更多的分析计算引擎,如Spark、Flink、Presto、Trino以及Hive等,做到数据处理的准确性和实时性。
通过构建我行实时数据湖,将分散的监控指标、监控告警、日志文件、报文明细、配置等有用的孤岛运维数据存放在数据湖中,为后续的数据分析、场景构建做准备。实现了更简单的存储、处理数据的能力,这些能力可以存储任意规模、任意类型、任意产生速度的数据,可以跨平台、跨语言的做分析和处理。并且支持批处理、流式计算、交互式分析等,在加速运用数据的同时,消除了数据采集和存储的复杂性。我行实时数据湖同现有的数据管理和治理一起工作,保证数据的一致、可管理和安全。为运维一体化平台的算法、机器学习、可视化等模块提供及时、准确的数据支撑。
四、项目成效
4.1 机器学习算法提高告警有效性
通过数据湖技术的使用,实现在运维过程对于日志快速查询的目标,从原来需要登录每台机器去查询日志,改为统一查询,可跨服务器、跨应用的日志查询。查询时间由原来的10-30分钟缩短到1-5分钟以内。通过日志分析与告警压缩智能化手段,在数以亿计的日志产生有效告警变成了可能,当前告警压缩率为63%,有效的提升了告警的准确性。通过使用F5进行报文解析和配合运维管理平台的告警模块,实现了应用监控的灵活告警,可根据实际需求进行告警配置。如:对于重要系统的重要业务进行单独的告警配置;对于更新后新上线的交易进行临时的单独监控。
同时,产生了一套符合我行实际情况的告警升级规则,从告警阈值等级到处理时长两个维度进行告警升级,并按照不同等级配置发送到不同人员处。
4.2 交易串联故障场景化分析,提升运维效率
通过将交易串联,可以直观地看到交易整体流程路径,可以查询到交易在流经路径中各个节点的日志信息和详细报文信息。当业务出现问题时,可从业务链路最后一个出现问题的节点进行排查,避免了所有出问题业务系统人员均需要进行排查。通过问题业务系统的告警、交易报文、应用、操作系统和数据日志中报错信息进行展示,快速定位故障环节,降低发现问题节点的时间,提高运维效率。
应急故障处置场景化分析,利用运维人员的运维经验,将日常运维中的告警通过场景化的方式梳理出来。当告警关联一个或者多个确定的场景时,可大大缩小问题分析的范围,提高故障定位与故障溯源的成功率,减少故障分析所需要的时间。另外一方面,因为场景化运维的引入也可以解决高水平运维人员不足的问题。
4.3 建立了一套完整且符合哈密市商业银行实际情况的运维体系
通过IT运维管理平台的建立,我行已经建成了一套以运维管理平台为核心的符合我行实际运维情况的运维体系。该运维体系包含了运维工作的整个生命周期,从监、管、控三方面辅助运维工作的进行。通过以业务系统为单位的监控,及时发现问题。当问题出现时,通过快速定位功能,快速辅助运维人员定位到问题节点并进行排查,并提供知识库中类似问题的解决方案。问题处理完成后,通过电子流程,将处理过程和问题分析报告进行上传到知识库中。
运维体系的建立,为行内提供了:
1、信息科技部的CMDB,其中包含了信息科技部的所有IT资产,以业务系统为单位,从上层应用到底层服务器信息,再到系统之间的互访关系、合同信息等内容均在CMDB中进行保存,并建立关联关系,让每套应用系统的信息都有账可查。让CMDB成为整套运维体系的核心。
2、将信息科技部内部的流程电子化,并针对每个流程进行单独的表单设计,电子表单内容直接和CMDB进行对接,当完成审批流程后,可直接对CMDB进行维护,从而降低CMDB的人工维护工作量,也提高了CMDB的准确性。同时,电子流程也为考核提供了数据依据。
3、梳理出了交易流量视图,将网络流量以业务系统视角进行展现,能知道交易流量到底去了哪。
4、梳理出了业务系统之间的访问关系,通过统一流水号对交易进行串联展现,在快速定位和问题影响范围上面可直观展现。
5、推进了我行日志和报文规范化的建设,已经流程电子化的建设工作。让运维工作更规划化。为后期自动化建设打好基础。
五、项目总结
我行采用数字化驱动运维战略,底层依托大数据平台的算力,实现运维数据的采、存、管、析、用,从监、管、控三方面整体提升运维能力。建立监控体系使监控平台覆盖运维全领域,实现运维数据数字化,并围绕CMDB配置管理作为主数据,建立指标、日志、告警、工单等统一运维大数据模型。基于可视化、低代码的编排设计引擎界面,实现对数据接入、数据标准、数据治理、数据消费、算法服务的闭环,进而提供可视化、白盒化的数据算法和训练能力。构建面向业务视角的数据地图和服务目录,促进数据的分析消费和深度挖掘,大幅提升运维数据资产的价值,提高问题处理的效率。
更多金融科技案例和金融数据智能优秀解决方案,请登录数字金融创新知识服务平台-金科创新社官网案例库、选型库查看。