来源:鑫智奖·2024第五届金融机构数智化转型优秀案例评选
获奖单位:中信建投证券
荣获奖项:智能运维优秀案例奖
一、项目背景及目标
根据《证券基金经营机构信息技术管理办法》、《信息系统应急技术预案管理规范》以及《应用系统运行管理规范》等相关要求,重要业务系统需要定期开展应急演练,验证监控、应急预案以及高可用能力的有效性,确保发生生产故障后系统业务连续性。
如何快速、有效地开展证券业务信息系统的应急演练,验证信息系统的监控告警是否及时,在事前制造类似生产故障,验证应急预案的完备性,提升系统运营应急处置能力,需要一个安全可靠的演练平台支撑上述工作的开展。同时,通过演练平台在事前进行演练,提前暴露信息系统风险,完善应急预案,提升监控告警机制,亦需要一个能够提供丰富故障场景注入的工具平台。
建立一个遵循混沌工程实验原理的故障演练平台,为测试人员提供的一个真实、安全、便捷的演练场地,可以有效地验证系统的健壮性、业务系统服务能力的可持续性、故障恢复的即时性。
通过本平台开展演练活动,可以协助运维团队提升综合保障能力,树立解决生产突发故障的信心,完善运维保障方案。本期项目目标是能在各应用系统的测试环境和生产转测环境进行故障演练活动。
二、创新点
1.大运维体系的融合创新
混沌工程实践梳理各环节所需承担功能职责,升级工具系统功能,终将故障注入平台与现有压测系统、监控分析、资产配置、自动化工具、运维管理平台等系统对接,通过流程管控驱动系统混沌实验到系统优化的全生命周期实现。终使故障演练平台不再孤立的作为故障注入工具,有效融入大运维体系,拓展了其服务能力。
2.全过程的自动化
依靠人工录入场景、分析影响的方式开展规模化的实验和演练人力本很高,效率低,历史数据可追溯体验不佳。故障演练平台通过风险评估模型、资产配置、故障能力组合,自动生产实验场景,进行实验任务自动调度、故障注入并通知监控分析系统,完成场景特征采集、根因分析,触发应急自动化及处置结果观测分析,终实现了混沌工程实践的全流程自动化处置。通过自动化设计,极大的减轻了混沌实验过程的人工依赖,提高实验能力、保证实验收益,加速信息系统的稳定性改进。
3.工具体系的开放性
快速适配系统技术方案迭代,持续满足运行管理需求是运行管理工具体系设计建设的必然要求。我们将故障演练平台的各种能力进行改造,通过统一的接口标准,将系统功能接口化,向工具体系开放。如此,故障扰动能力、故障实验过程管理将不再受限于固定工具平台,通过简单的对接、配置就可以快速满足混沌实验的需求。
三、项目技术方案
中信建投证券的混沌工程实践并非是对传统研发、运维体系的替代与革新,而是在遵从IS20000标准前提下,结合运维管理的数字化转型以及智能化的发展方向,对大运维管理体系中的部分环节、理念升级与延伸,是一整套系统性工作。
故障演练平台:在该平台上以业务链路为核心,从业务的整体处理过程出发,将技术风险管控策略从局部管控延伸至整体管控,探究业务处理过程中整个信息系统生命周期的缺陷,从而实现技术风险的全过程闭环管理。该模块还提供了任务编排调度、场景库管理、扰动注入和用户展示功能。
分析模块:在系统中承上启下,它主要进行日志分析、监控指标分析、根因分析和场景识别。针对混沌演练过程中产生的日志和监控告警数据,分析判断爆炸半径和业务影响程度,并且反向验证监控告警是否准确全面。在此分析基础上,提取故障特征,进行问题定位,匹配已有应急场景。
应急管理:用于应对故障处置,以确保系统及时快速恢复可用,提高系统的稳定性。它通过预先制定应对措施和响应流程,使团队能够高效地应对各种突发情况。这个模块包括了方案管理、方案实施、应急协同等内容,其目标是在故障发生时能够迅速根据已有方案迅速进行处置、快速恢复,从而减小损失并保障系统的正常运行。
报告管理:实验演练结束后,能够基于模板,记录过程中指标变化情况、压测情况、处置情况等,生成演练报告,提供基于权限管控的报告查看与下载,为系统和应急方案优化提供支撑,更好的推进下次混沌实验有序进行。
稳定性改进:对技术规范的持续改进是混沌工程实践的延伸。系统管理者在通过混沌工程发现稳定性缺陷时,识别架构设计、编码规范、测试评估等环节中的不足,积累开发端系统韧性提升规范,推动系统韧性提升管理工作的前置。
流程管理:把控混沌实验开始到结束全生命周期的各个环节,提供给用户统一的操作渠道。
四、项目过程管理
我司引入混沌工程并结合结合实际情况,将混沌工程建设分为三个阶段:*****个阶段主要是提高信息系统的稳定性和柔韧性,解决信息系统健壮性的问题。第二个阶段主要解决应急场景的完整性、告警的完整性和有效性以及处置的有效性,并将应急场景、报警与自动化处置衔接起来,实现应急场景的演练和处置的自动化。第三个阶段结合大数据分析和人工智能技术,实现故障场景的智能识别,建立场景的特征值,实现信息系统稳定性和应急处置的智能化和自动化处置。目前我司已完成*****阶段建设,处于第二个阶段,并在规划第三个阶段的建设。
五、运营情况
通过混沌实验,模拟故障场景从原来的42个,提升到了422个;一轮破坏性测试从原来12人天,降低到7人天。新的故障场景发现了15个待优化点,目前9个已经优化,2个已经制定优化方案,4个还在制定方案中。
此外,故障演练微服务桥接平台实现了通过API调用输出故障演练能力,支持跨系统、多团队协作演练,而且构建了一套标准的场景框架和演练流程工具,使演练需求能够被快速响应。
六、项目成效
中信建投证券通过混沌工程实践首先对外围渠道系统进行故障演练活动,其次从各个应用系统从基础设施层、应用组件层和业务链路层进行全方位混沌实验,有效地验证系统的健壮性、业务服务能力的可持续性、故障恢复的可靠性。截止目前,纳管信息系统已从外围渠道系统逐步向核心交易系统进行推进,风险场景也从基础设施层向跨系统业务链路层覆盖。
通过混沌工程实践发现多处系统薄弱环节并修复,已经让相关人员充分理解“面向错误、拥抱失败”的重要性,将混沌实验作为系统稳定性提升的必要手段,形成了跨条线、自上而下的团队文化共识,并通过以文化促进实践,以实践成果宣导文化的良性循环。
通过混沌工程的建设和实践,促进运行管理体系和工具系统完善,为信息系统可用性和连续性管理提供有效抓手,通过“以战养战”、“实战练兵”,提升监控的覆盖度和准确性、应急管理的有效性,形成了一套完整闭环的工程实践体系。
七、经验总结
混沌工程实践的建设和推广是一个持续的过程,以下是一些建设和推广的经验分享:
定义明确的实验目标:在进行混沌工程实践之前,确保明确定义实验的目标和期望结果。这有助于团队更好地衡量实践的效果和价值。如果目标不明确,可能会导致实践过程中的混乱和不必要的干扰。
适度和渐进的实践:混沌工程实践应该在适度和可控的范围内进行。开始时,可以选择较小的实验范围和影响范围,逐步扩大实践的规模。这有助于降低风险,并确保系统的稳定性和可用性。
风险评估和控制:在引入故障和不确定性时,需要进行充分的风险评估,并采取适当的控制措施。这可以帮助减少潜在的负面影响,并确保系统的可靠性和恢复能力。风险评估应该包括评估可能的业务影响,以及制定相应的备份和恢复策略。
数据收集和分析:混沌工程实践需要充分收集和分析相关的数据。这包括实验过程中的指标、系统响应和用户反馈等。通过对数据进行分析,可以更好地了解实践的效果,并识别潜在的改进点。
学习和知识分享:混沌工程实践应该是一个团队学习和知识分享的过程。团队成员应该相互支持和分享经验,以便更好地理解和应对系统中的故障和不确定性。定期的团队回顾和分享会议可以帮助发现问题并提出改进措施。
自动化和工具支持:利用自动化工具和系统来支持混沌工程实践是非常重要的。自动化可以减少人为错误,并提高实践的效率和一致性。选择适合的混沌工程工具和平台,可以帮助团队更好地管理实验和监控系统状态。
总的来说,混沌工程实践的反思和改进需要团队的持续努力和不断学习。关键是确保实验目标明确、风险可控、数据驱动和团队协作,以实现更好的结果。通过不断改进和优化实践方法和流程,可以提高系统的安全性和稳定性,从而更好地应对复杂的现实环境。
更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.