近几年来,随着大数据、人工智能等IT技术的快速地发展,DevOps、AIOps等新文化、新理念的冲击,几乎所有企业的技术部门都在谋求变革,不单单是为了跟上技术潮流,更是为了能适应随义务而一起发展的IT系统的运维复杂度和体量,部分比较靠前的同业甚至完成了从支撑业务到引领业务、技术输出的转型。在这场IT运维的变革中,运维中台的建设将是IT运维实现数智化转型的关键一步。
为满足外部监管对业务连续性保障和信息安全管理的基础要求,按照我行信息科技2020—2025年五年战略规划落地路径,结合全行数字化转型的内在需求,信息技术部提出了运维中台建设的总体目标,拟在2至3年内,依据中台建设思路,通过查漏补缺、统一规范、整合优化三大步骤对运维监控、管理、分析完成IT运维体系数字化、智能化、轻型化的转型目标。
我行在运维中台前通过同业考察、需求调研、技术探讨充分论证了项目的可行性和必要性,同时利用和发挥存量监控工具的效能,统筹设计了运维中台的项目建设目标和范围,结合DevOps建设、云平台建设形成了信息技术部数字化转型规划实施路径,主要项目实施过程如下:首先,在运维中台立项前进行充分的需求调研和架构设计。我行对该项目进行了长达一年以上的考察和调研,充分了解了周边行的建设情况,掌握了市场上监控平台和工具的特性和优势,并结合我行实际的需求进行了统筹规划,设计运维中台整体架构,分别制定了一二期项目建设目标。其次,在运维中台项目启动前完成对存量监控工具的优化。我行从2022年初开始慢慢地对运维监控工具进行针对性的优化,运维中台建设前,以应用监控、硬件监控、流量监控优化作为切入点,逐步对重要业务系统来进行覆盖和渗透,充分的发挥了存量监控工具的能力。最后,快速推进项目各阶段性目标按计划落地。2022年6月日志分析平成立项采购,通过前期长期的技术铺垫及技术调研,日志分析平台项目迅速完成落地并发挥效能,至10月底已完成所有重要信息系统的接入并完成告警优化;2022年9月运维中台框架初步建立,核心应用监控、数据库监控陆续上线月CMDB、统一运维监控完成投产并对存量监控工具进行纳管;12月自动化巡检、告警去重压缩上线月ECC大屏完成投产上线月,运维中台各场景监控策略达到900余条,对生产事件监控覆盖率达到98%。
1.应用监控。应用监控通过镜像流量对相关应用系统交易指标进行无侵入式监控,目前覆盖了新核心、农信银、二代支付、电子银行、信贷、中间业务等重要信息系统的交易,通过对交易报文的深度解析,对监控阈值及策略的调优,应用监控告警准确性大幅度的提高,多次及时预警了农信银、中间业务的交易超时风险。
2.硬件监控。通过带外管理方式实现跨厂商、跨硬件平台的硬件设备管理,实现实时监控硬件设备的工作状态,当发生故障时及时告警并立即处理;对硬件资源进行统一管理,联动CMDB建立消费渠道,实时更新硬件资源清单;解决了硬件设备的监控盲区,自完成实施多次及时告警了硬件设备的CPU、内存、风扇等故障;通过硬件监控实现串联资产入库、上架、监控、下架、出库的闭环管理。
3.网络流量监控。在NPM网络流量监控对外联区、生产区、互联网区全覆盖监控的基础上,丰富了链路告警、流量告警,对人行、省联社、支行网点线路进行了重点监控,及时调优了我行流量控制策略,解决了省联社、人行大文件传输对业务的影响,解决了支行影像资料下载造成的网络拥堵问题。
4.日志监控。对应用日志进行集中收集,形成日志数据湖,实现交易数据分析、实时告警、日志管理审计等,满足了日常日志数据查询、问题排错、关联分析的需求,对电子银行、统一支付、新一代核心系统交易日志等实现了有效预警,有效节约了应用运维人员对交易日志的查询和定位时间,多次及时排除了生产隐患。
5.数据库监控。对全行TDSQL、Oracle、DB2、MySql、Redis等数据库资源进行纳管,实现了数据库资源集中管控、监控告警、SQL审计等功能,目前完成了生产环境300余套数据库资源纳管,数据库活动日志使用率、第二日志使用率、灾备数据库运作时的状态监控已完成部署,多次预警了数据库日志使用率过高、灾备数据库的数据同步中断风险。
6.CMDB。CMDB对全行IT资源进行统一管理,包括机房、服务器、集群、操作系统、应用、数据库、组件等,形成从硬件资源到软件资源的关系拓扑,丰富告警维度,并建立数据消费渠道,形成流程闭环,提升内部管理,目前正在梳理各存量资源台账,进行数据治理,结合DevOps建设串联科技管理、项目管理流程,形成信息科技资产、工单、事件、问题、风险、应急的全流程管控,有效建立ITSM流程管理。
7.统一监控平台。统一监控平台针对运维数据碎片化、资产数据维护困难、传统运维效率低下等问题,通过构建运维数据指标库,形成运维数据规范标准,实现各类运维工具统一告警;实现自动化巡检、指标异常检测、容量预警等功能。实现各类工具统一集中告警、自动化巡检以及事件跟踪分析,有效提升了运维管理效率。
运维中台的建设对我行生产稳定运行及业务连续性的保障起到了显著效果,2022—2023年期间我行生产系统全年保持运行稳定,未出现重大生产事件或安全事件。运维中台持续发挥效能,取得了如下成效。
一是解决“漏报、滥报、误报”问题,明显提升告警覆盖度和精准度。首先,“点面结合”交叉检核,实现重要信息系统多维度监控100%覆盖。通过统一运维监控、日志分析平台、应用监控、数据库监控、ESB监控等工具建设,目前行内重要信息系统实现100%覆盖,实现了多维度7×24小时实时监控,全力保障生产稳定运行。其次,运维中台告警对生产事件的覆盖率明显提升。2023年全年发生的生产事件中,通过应用、日志、硬件、网络等监控工具发出告警,覆盖率达到98%。再次,实现告警去重压缩,避免“滥报”问题。F5告警纳入统一监控后,通过去重压缩短信发送量降低90%以上。其他工具陆续接入后,经数据清洗、告警压缩后全部通过企业微信、邮件发送,完全解决短信泛滥问题。最后,告警精准度提高,问题定位时间明显缩短。运维中台针对告警策略持续优化,对察觉缺陷故障做到了精准告警,缩短了问题排查时间。以往出现一些明显的异常问题至业务部门反馈通知再到排查恢复,前后耗时至少1小时。运维中台上线后,运维人员根据告警内容提示迅速定位问题并快速处理,问题解决总时长控制在15分钟以内,时间缩短75%以上,有效提升了故障响应效率。
二是防患于未然,通过事前预警有效增强主动运维能力。运维中台针对告警数据、日志、文件等实现事前、事中的预警、告警,运维团队对于生产问题处置效率不断的提高,避免了轻微生产事件影响的扩大化,将生产问题由客户或业务部门通知科技部门解决的情况逐步转变为科技部门通过告警察觉缺陷立即处理,部分场景业务部门电话通知时相关问题已得到解决,明显提升了科技部门对于生产事件的主动运维能力和事前解决能力。
三是警示存量系统风险,举一反三推动技术架构与业务需求优化。2022—2023年,我行对运维中台暴露的生产问题进行复盘,举一反三分析、跟踪解决进度对相关系统100余个风险点进行排查整改,如高并发导致系统故障、业务需求考虑不全、代码逻辑有误、页面字段长度控制有误等问题,有效解决了存量系统风险隐患,充分保障了业务稳定性。
四是运维监控管理体系建立,各团队有效配合并形成约束。至运维中台上线完成,科技部门初步实现了“值班团队告警-运维团队处理-监控团队优化跟进”的运维监控管理体系建立,值班团队7×24小时值守ECC,根据告警信息及时联系各系统负责人员做处理;运维团队在接到值班团队或运维中台告警信息后对生产事件做处理,关闭风险事件;监控团队事后根据事件分布情况、发生频率、运维团队处置效率等信息,及时复盘归纳总结问题,进一步提出建议,优化告警策略,举一反三解决别的问题,并对值班团队、运维团队处置过程进行记录提供考核依据。
五是CMDB配置管理数据库初步成型,信息资产实现统一数据治理。CMDB配置管理数据库替代了IT资源手工台账登记模式,目前已完成网络设备、线路费用登记、系统备份策略、虚拟机资产等软硬件资源整理;向堡垒机、DevOps、统一运维监控平台、日志分析平台等提供数据消费接口,并通过DevOps流程驱动数据录入和更新,保障信息科技资产数据的准确性和完整性。
六是降本增效,结合自动化、线上化手段节约人员和信息交互成本。首先,实现自动化巡检,降低人工巡检成本。运维中台利用CMDB与统一监控平台数据采集与比对功能替代人工巡检并进行告警,目前已实现对重要系统CPU内存、数据库状态、网络线路状态的自动化巡检,通过企业微信将巡检报表和结果定时推送。其次,企业微信统一告警代替短信,有效节约短信费用。运维中台已实现告警压缩去重,并通过企业微信机器人在各监控群进行推送,目前已下架所有短信类告警通知,每年节省短信费用数十万。
七是重塑ECC大屏,展现新数据中心风采。运维中台共设计十几种大屏界面,包含综合大屏、应用大屏、监控告警大屏、基础资源屏、安全大屏等。外观上,运维中台ECC大屏展现将成为展现我行新数据中心风采的门户;内容上,ECC大屏准确的告警信息将有利于值班监控团队及时有效地发现并上报问题,对事件进行全生命周期跟踪。
1.基础设施类问题。2023年10月某日,运维中台提示A系统业务部分超时,随后回到正常状态;同时硬件监控告警波分线路中断。经运维人员排查,该问题时点一条波分线路中断并发生切换,导致部分灾备节点业务发生延迟。我行立即联系运营商对波分线路进行了抢修和保障,于数小时后回到正常状态。运维中台从应用、基础设施多个角度提供准确的告警信息,帮助运维人员及时准确地定位问题,及时排除基础设施故障。
2.某第三方系统连续报错问题。2023年3月某日,运维中台提示C系统近10分钟内业务报错笔数超过10笔。排查发现第三方更新字段后未通知我行进行配合变更,影响第三方签约和查询交易。运维人员确定问题后立即联系业务和研发部门,经与第三方沟通后进行紧急抢修解决了该问题。后续对该第三方进行了约谈,明确了第三方变更通知流程。通过此次告警我行及时恢复了第三方业务,保障了民生类业务的稳定性。
3.某服务器容量增长预警。2023年6月某日中午,运维中台提示D系统[/data]的空间使用率以每天5%的速度增长,将在1天内达到告警值80%,若不及时进行扩容,将影响业务的正常开展。运维人员接到告警后,立即对服务器[/data]目录进行扩容并增加清理策略,避免了容量写满问题。依靠运维中台的智能预警功能,运维人员及时有效地发现和解决风险隐患,规避生产问题的发生。
由于运维团队的出色工作以及运维中台的优异表现,信息技术部获得GOPS全球运维大会——2023银行业IT运维领域年度明星团队;智能运维中台获2023第七届农村中小金融机构科学技术创新十大网络影响力优秀案例、运维管理创新优秀案例奖。
按照IT战略规划要求,结合我行运维体系数字化建设路径,后续科技部门优化思路及主要计划如下。
一是继续夯实基础监控工具,不断丰富运维指标库建设,形成监控工具接入标准,提高运维中台的覆盖度和准确性。2024年计划逐步优化各类基础环境监控工具,并按照运维中台数据标准完成治理,完成对信创软硬件的监控覆盖,结合数据处理能力加强关联性分析,以交叉核验方式发现监控盲点,从数据视角解决遗留的运维资产缺失问题,有助于运维中台更准确地定位问题。
二是完成运维中台与DevOps平台的对接,持续不断的增加CMDB消费场景,验证CMDB数据的完整性和有效性;分析系统间关联关系,完成信息科技全流程线上化管理,实现信息科技数字化转型。2024年将结合DevOps平台优化,形成流程驱动运维中台数据更新、运维中台接口提供流程数据消费、监控团队优化数据和流程的完整闭环,确保信息科技资产数据在CMDB的不断丰富和完善,驱动信息科技数智化转型。
三是推进自动化运维场景落地,逐步的提升事件解决效率,解放信息科学技术人员生产力,全力支撑业务发展。2023年已实现自动化灾备切换平台建设、防火墙策略自动下发、负载均衡自动发布下线资源等自动化场景落地。2024年将继续在故障自愈、重大变更前后技术验证、操作安全审计等智能化场景方面开展探索,运维中台将持续减少信息科学技术人员重复工作,从而解放生产力,将人员投入到系统架构设计、业务场景开发、复杂问题处理、授课培训、技术创新等更有价值的工作中去。
上一篇:科创信息03月01日涨停分析
下一篇:公司前线慧博云通题材要点调整更新