网易首页 > 网易号 > 正文 申请入驻

哈尔滨银行:基于业务系统可用性数字化转型实践与应用

0
分享至

来源:2023鑫智奖第四届中小金融机构数智化转型优秀案例评选

获奖单位:哈尔滨银行

荣获奖项:专家好评TOP10优秀案例

一、项目背景及目标

数字经济建设已经成为构建现代经济体系、实现经济高质量发展的重要引擎。2022年初,人民银行及银保监会先后发布了《金融科技发展规划(2022—2025年)》与《关于银行业保险业数字化转型的指导意见》,指导和推动金融行业全面数字化转型。数字经济发展将深刻改变金融行业竞争格局,中小银行必须牢牢把握数字经济的机遇,顺势而为,全面推进数字化转型。然而,中小银行在数字化转型过程中面临着诸多困难,特别是监管机构制定了《商业银行业务连续性监管指引》和《《银行保险机构消费者权益保护管理办法》,对业务系统可用性管理和连续性提出了更高的要求,需要有针对性地制定策略,建立从研发、测试、运维一体化数字化管理框架,在业务系统可用性数字化转型落地实践过程中形成闭环管理,不断提高业务系统可用性和连续性,提升科技服务能力,必须牢牢把握数字经济的机遇,顺势而为,全面推进数字化转型。

二、创新点

依据ITIL和DevOps管理方法论,依托于现有的最新的大数据和人工智能分析技术,并结合我行多年在数字化建设实践,通过投产变更管理、配置管理、监控管理、应急管理、科技服务台管理等流程,有效控制“开发、测试、运维一体化”过程风险,利用业务可用性监控工具和人工智能分析技术,保障业务系统可用性和连续性,系统持续稳定运行。在此基础上,本项目主要从如下五个方面提出一套全面、动态、可实施的研发运维管理框架,并就服务创新与业务系统稳定运行进行详细论证和阐述。

1、将ITIL和DevOps管理方法论有效融合:结合哈尔滨银行运维管理和可用性管理实践,将理论有效融合,识别需求、设计、研发、测试、运维过程中关键风险控制因素,特别是非功能需求的风险识别与控制,建立从研发、测试、运维一体化数字化管理框架,将人工日常变更、配置、巡检、监控、应急等工作,落地在运维服务管理平台工具上,实现“工业化”组件的风险管控模式,同时将应急处置实现标准化与自动化,实现业务系统可持续安全稳定运行;

2、加强投产变更风险控制:在应用系统全生命周期管理过程中,建立投产变更评审技术规范,特别是非功能需求的关键控制点,加强对信创类操作系统、数据库、中间件等技术的评审,识别评审过程中的技术与管理风险,在投产上线前完成风险改进,将风险控制住可接受范围;

3、人工智能技术应用:总结了智能化运维的主要目标场景、关键技术和底层算法,并给出了落地先后顺序和优先级。主要研究内容“自适应异常检测”和“智能多维分析”就是依照此方法论,确定其智能化运维关键技术和底层算法路线,对关键技术进行突破:如异常检测系统中基于深度学习的普适动态基带、基于集成学习的按反馈自我容错和修复、基于迁移学多指标适配、指标巨变适配;智能多维分析中的决策树影响分析法、基于历史数据的AB测试等等,通过智能化运维逐一解决智能报警、根因分析、智能预警、排障预演等传统运维无法解决的运维难题。

4、业务可用性管理:在现有哈尔滨银行基础设备监控基础上,识别重要业务系统及业务的关键路径,采用自动巡检、关键指标监控等方式管控业务风险,在出现重要事件时,通过自动化处置工具进行快速处置,减少对外服务中断时间,有效控制业务风险,确保业务系统持续稳定高效运行。

5、线上服务直通车技术平台应用:建立哈尔滨银行集团公司科技服务目录,将科技服务下沉到总分行业务一线,和客服中心、消保部门业务联动,利用企业微信工具,建立基于ITIL和敏捷开发的科技服务台工具,开发科技服务平台程序,通过线上办公平台,有效提高了业务部门服务请求、故障申请、数据查询、办公支持等科技服务的响应速度,科技服务满意度不断提升;通过对故障进行问题分析,对业务系统存在的架构设计、开发代码、非功能需求、数据治理、安全管控等问题进行根源分析,建立问题管理的闭环流程,持续改进业务系统投产变更管理、配置管理、监控管理、应急管理、科技服务台管理等流程,实现研发运维管理体系化建设的目标。

三、项目技术方案

1.银行业务IT服务全生命周期管理框架

DevOps理论与方法的五位一体化(研发、测试、运维、风险、服务)实践工作指导思想,面向业务的产品经理、面向流程的架构专家、面向应用的项目经理、面向运营的运维专家等多维度视角,对研发运维过程中的风险进行统一管控,科技风险工作可管、可控、可视,领导有抓手、各方面工作有支撑。

2.以客户服务为导向的IT服务工业化体系建设框架

按照监管机构商业银行科技风险管理、数据中心监管、业务操作风险等指引要求,参照ITIL 4管理体系标准,借助DevOps研发运维管理方法论,建立以客户服务为导向的IT服务工业化体系框架,为业务部门提供标准化的服务目录,利用人工智能技术和研发运维管理平台,将管理理念落地实施,将科技服务前移到业务一线。

3.基于spark的分布式计算框架

为了解决大数据分析的效率问题,FOCUS算法可以基于分布式计算框架spark实现,以利用服务器集群高效完成对海量多维数据分析的任务。图中展示了一个FOCUS分布式系统架构概览。

FOCUS核心技术以Apache Spark集群计算框架为基础构建,主要包含了FOCUS Core核心决策树分析和Data Profiler数据侧写两个模块。Apache Spark(后简称Spark)是一个开源的集群计算框架,最初是由加州大学柏克莱分校AMPLab所开发的。Spark同样采纳了Google提出的MapReduce计算架构。而相对于Hadoop的MapReduce实现而言,Spark的特点在于使用了内存计算技术。即,每次对数据进行处理后,产生的中间结果可以根据需要在内存中持久化,而非强制写入磁盘中。这样在数据进行连续处理或是一份数据进行反复处理时,可以明显提升效率。这使得Spark相对于MapReduce来说更加适用于机器学习应用。FOCUS的核心算法是基于决策树的,但与传统的以分类为目的的决策树又有些出入。因此,FOCUS在MLlib实现的决策树模块的基础上进行了修改,实现了FocusDecisionTree、FocusClassifier、FocusRule等一系列以定位不利属性而非分类为主要目的算法和数据概念,以适应FOCUS的应用需求。

4.面向业务和服务的研发运维一体化平台

面向银行业务部门,将业务战略层层分解,通过科技战略和先进技术的落地实施,为业务部门提供优质科技服务,为业务创造价值。参照ITIL 4管理体系标准,借助DevOps研发运维管理方法论,为业务部门提供标准化的服务目录,以研发架构产品目录为中心,将项目管理工具、架构管理工具、IT服务管理工具和监控管理工具进行有机整合,建立研发和运维一体化管理平台,建立以客户服务为导向的IT服务工业化体系框架。

在 DevOps 实施的三个阶段中,第一个阶段,DevOps 交付流水线平台的搭建是最基础也是非常关键的步骤,对于金融企业来说 ,由于其对产品质量、运营风险的严格要求,以及自身产品的复杂性、特殊性,该平台的构建需要考虑如下问题:

该平台一定要与企业目前所具备的基础设施相结合,而不能像一些初创企业,马上就对整个基础环境及设施进行更新。例如,目前大家都已经非常清楚云平台的优势以及对于 DevOps 推进的重要性,但是,对于一个大型金融企业来说,并不是说马上就可以将所有的应用都移到云平台上的。该平台一定要考虑到企业 IT 组织目前的组织结构现状、人才技能现状以及存量产品特点。风险控制和稳定是金融企业 IT 系统需要考虑的首要问题,这些限制导致了他们无法像一些小型的初创企业一样,一夜之间即进行重大的 IT 组织调整,甚至产品更换。他们只能是逐步的稳健的创新,在创新的同时,还需要保持已有组织、人才以及产品的相对稳定。

该平台一定要与企业目前已有的流程控制系统相结合,而不能独立于现有的流程控制系统。现有的开发测试发布流程,是协调整个组织行为的重要工具,也是控制产品发布风险的有力工具,如果自动化交付平台脱离了这些流程的监管,就有可能变成规避现有流程监控的新工具,从而带来更大的风险。

基于以上考虑,本文设计了如图 所示的 DevOps 流水线交付平台架构。在该架构中,我们将整体的流水线交付平台分成了四层:基础架构层、流水线工具平台层、流水线引擎层以及流程管控层。

基础架构层是一个企业最基本的基础设施,既包含了存量的硬件平台,也包含了云计算平台,首先,只有在基础实施上实现弹性可伸缩、消除开发测试环境的差异,才能实现真正的 DevOps。而流水线工具平台则是为企业的代码开发、测试及发布提供了一个端到端的工具平台,通过该工具平台的自动化和相互间的无缝对接,实现了从软件代码配置管理、自动化构建、测试到快速的自动化发布。流水线工具分布在整个开发测试发布过程的各个阶段,需要不同的角色在不同的阶段进行配合操作,而且这个操作过程需要置于企业现有流程管控系统的管控之下,因此,我们还需要流水线引擎层,用于根据整体开发测试发布不同阶段的需要,驱动底层的工具平台进行产品的代码管理、构建及部署,同时对上又与企业的流程管控系统对接,使得整个操作过程置于流程监控之下。

5.智能运维关键技术

按照智能运维的四个主要目标场景,分别阐述它们采用的关键技术。智能运维的每个关键技术都能解决对应目标场景的具体一个方面或步骤,对运维目标能有一定的直接帮助,但是这些方面和步骤组合在一起才能完整的解决智能运维的目标场景。

(1)单KPI异常检测

KPI 异常检测是智能运维的一个核心场景。当 KPI 呈现出异常时(如突增、突降、抖动),往往意味着与其相关的应用发生了一些潜在的故障,比如网络故障、服务器故障、配置错误、缺陷版本上线、网络过载、服务器过载、外部攻击等等。图中展示了某银行一周内的交易量数据,其中标红圈两个部分为异常。

(2)多个KPI报警聚合

如前所述,在故障发生时,其所在的具体位置通常被大量指标同时监控着,因此一个故障会触发大量KPI同时报警,造成所谓的“报警风暴”。智能运维的第二大目标场景是把同一个故障导致的多个KPI的报警归并成一个报警事件。

图中给出多个KPI智能报警的技术依赖关系。它对上支撑“故障根因分析”这一智能运维的场景,对下有五个关键技术。而这些关键技术采用了强化学习(蒙特卡洛树搜索)、随机森林、CUSUM、DiD、奇异谱变换等机器学习方法,同时也依赖于底层算法“KPI分布预测”和“事件-事件关联分析”。

(3)故障根因分析

智能运维的第三个目标场景是故障根因分析,即当业务发生故障时,系统自动直接给出故障的根本原因,这样运维人员就可以直接去解决根因问题,甚至由系统自动解决问题。故障根因分析是运维的两大终极目标之一。由于在当代银行业大规模分布式的IT系统中,存在大量纷繁复杂、无法靠人力说清的故障传播关系,因此故障根因分析也是传统运维所无法完成的任务。

故障根因分析依赖于“单个KPI智能报警”、“多个KPI智能报警”、“故障传播链构建”三个关键技术,如图39所示,参考文献见[49-54]。有了准确的报警、有了报警传播关系,就能相对准确地获得业务故障时的根因,只需要顺着故障传播链搜索各个报警,找到的最后一个报警就是根因。本部分主要描述故障传播链构建。

故障传播链构建。根因分析的一个关键技术是故障传播连构建,即一系列的“A事件发生会导致B事件的发生”的故障传播关系。后如果理清了事件的传播关系,就可以构成故障传播图。

(4)智能预警

智能运维的第四大目标场景是智能预警,即,应用机器学习技术对海量历史数据进行分析,从而预测未来会发生的故障、容量需求、性能瓶颈等。基于预测结果,运维人员可以提前做出相应的处理,如替换设备、适量增加计算和存储资源、切换流量、代码优化等,从而尽可能避免故障的发生,即所谓“上医治未病”,是智能运维两大终极目标之一。这些“预测性分析”的功能也是传统运维所不能提供的。

6.标准化巡检与应急操作技术

(1)标准化巡检及应急处置规划

整合研发运维一体化管理,服务台服务目录发布、业务可用性管理平台(BAM )实施,并重点落实単客户故障的快速问题,提高满意度、降低业务风险。

(2)标准化巡检技术

识别标准化运维场景,通过对工业化标准组件的开发,自动化巡检业务系统当前状态,作为运维监控工具的有效补充,在故障排查、定位上,能够缩短故障排查时间,第一时间发现业务影响及范围,及时发现故障点。

(3)应急操作处置技术

参照标准化运维场景,设计自动化处置流程,将自动化处置工具内嵌到平台,在出现应急处置过程中,能够自动化或者人工授权方式第一时间进行处置,减少故障处置时间,提高业务系统可用率。

四、项目过程管理

项目建设主要包括需求分析、详细设计、代码开发、功能测试、试运行推广及验收收尾过程,项目在2021年立项,2022年8月份开发测试实施完成,在2022年9月份在重要业务系统试运行,截止到2022年底,项目顺利完成,实现了项目既定的管理目标,重要业务系统可用率超预期完成了行里既定的绩效目标,科技服务满意度不断提升,确保了业务系统安全稳定运行。

五、运营情况

1.五位一体化管理理念成功实施,全面提升科技管理能力

借鉴ITIL 4和DEVOPS理论方法,结合商业银行传统IT管理模式,从研发、测试、运维、风险、服务五个主要环节优化科技服务管理能力。探索“开发、测试、运维一体化”在银行金融业的可行性,并整合配套的流程与工具,统一管理调度;管理在开发、测试过程中产生的软件版本,确保测试的有效性和一致性,控制标准件开发与部署;打通配置管理、构建管理、持续集成、环境管理、服务目录发布等,实现全流程可视化控制。投产成功率不断提高,产品自动化部署时间大大缩减。

(1)业务系统可用率不断提升

重要业务系统可用率超预期完成了行里既定的绩效目标,核心业务系统可用率99.99%,重要业务系统可用率超过99.95%。

(2)投产成功率不断提升

按照五位一体的管理理念,有效控制了研发、测试、运维阶段的投产风险发生,特别是非功能需求的风险管控,大幅降低了风险事件发生的概率,投产成功率不断提升,减少了投产引发的事件数量,提高了科技服务管理质量。

(3)产品自动化部署时间大大缩短

以手机银行自动化部署为例,将人工部署时间和自动化部署时间进行了对比,产品自动化部署时间大大缩短了10倍左右,减少了人工投产失误操作,降低了故障发生数量,提升了产品自动化部署效率。

(4)科技服务工单线上化,提供客户满意度

将科技服务下沉到业务一线下沉,将科技服务工单线上化,不断提升线上化上报工单比例,特别是疫情期间,缩短了故障申报时间,提高了服务解决效率,大大提升了科技服务满意度。

(5)基于科技服务目录,建立标准化知识库,提高科技服务解决效率

建立统一的科技服务目录,明确服务级别、服务时间及服务流程,基于研发应用产品目录,将产品、产品子类、模块及功能点进行细分,建立匹配的标准化知识库,大家提高了业务一线的解决率,加强了二线解决疑难问题的能力,激发不同岗位人员解决问题动能,为业务部门提供优质科技服务。

六、项目成效

1.核心业务系统交易量大幅增长

核心业务系统的稳定运行,为业务的发展提供了强有力的支撑。2020年至2023年核心业务系统日均交易量提升了近一倍,有效支撑了业务的快速发展。

2.电商网联业务系统线上交易量大幅增长

历史上三方支付渠道交易的迅速增长、手机银行渠道交易持续增长,近期联合信贷业务的增长迅速等。截止2022年11月11日,电商网联业务交易总量、交易金额较2014年增长约56倍。

3.科技服务满意度不断提升

截止2022年底,科技服务满意度不断提升,超预期完成了行内绩效管理指标要求。提高科技服务满意度,间接支持业务的快速发展。

4.科技服务管理平台在同业的应用

在同业交流过程中,将科技服务下沉到业务一下的管理流程,现有平台管理经验在城商行同业得到了应用。

5.业务连续性真实演练达到监管对于城商行的最高要求标准

自2019年,数据中心以自主规划设计为主,完成了银行重要业务系统的同城容灾架构建设,实现核心业务系统同城容灾实操性快速切换,达到监管对于城商行的最高要求标准。

七、经验总结

1.ITIL和DevOps理论深入应用

依据ITIL和DevOps管理方法论,结合哈尔滨银行的实际工作需求,将理论与实际工作有效融合,将研发、测试、运维管理流程和工具数字化落地实施。

2.IT服务工业化实施

以面向客户提供优质产品及服务为目标,借鉴制造业工业化实践经验,打造研发、测试、风险、运维、服务五位一体模式。

3.业务可用性不断提升

借鉴人工智能和机器学习技术的优势,优化监控管理流程,利用智能监控管理工具,不断提升业务系统可用性和客户科技服务满意度。

更多金融科技案例和金融数据智能优秀解决方案,请登录数字金融创新知识服务平台-金科创新社案例库、选型库查看。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
中国共产党党员总数达9918.5万名

中国共产党党员总数达9918.5万名

界面新闻
2024-06-30 10:37:42
俄美女副防长叛逃法国,绍伊古或被大帝拿来“祭旗”

俄美女副防长叛逃法国,绍伊古或被大帝拿来“祭旗”

冷眼向洋看世界
2024-06-30 17:35:25
“汕头迎宾馆”神秘大火,烧死两名中纪委干部,证据全毁……

“汕头迎宾馆”神秘大火,烧死两名中纪委干部,证据全毁……

极品小牛肉
2024-04-21 21:03:12
大爆冷!中国U17男篮73-70逆转世界第二法国男篮取得首胜!

大爆冷!中国U17男篮73-70逆转世界第二法国男篮取得首胜!

直播吧
2024-06-30 21:42:47
特朗普压过拜登?16位诺奖得主警告:他若当选,对中美都极为不利

特朗普压过拜登?16位诺奖得主警告:他若当选,对中美都极为不利

刚哥说法365
2024-06-30 22:07:44
末节崩盘!中国女篮惨败丢冠,被澳洲新星单点爆破,张子宇难救主

末节崩盘!中国女篮惨败丢冠,被澳洲新星单点爆破,张子宇难救主

环太平洋老正太
2024-06-30 19:43:58
重磅,不愿看到的事发生了?一重要人物抵京,要和中方对对表

重磅,不愿看到的事发生了?一重要人物抵京,要和中方对对表

文章侃娱乐
2024-06-30 21:54:04
反转!亡夫13万存款在银行蒸发:柜员掏2000元和解,银行声称误会

反转!亡夫13万存款在银行蒸发:柜员掏2000元和解,银行声称误会

洛洛女巫
2024-06-30 12:09:28
长城饭店已暂停营业数月

长城饭店已暂停营业数月

北青网-北京青年报
2024-06-30 16:37:04
逆转之夜!欧洲杯刷23纪录:1.8亿巨星绝平救主 16岁天才比肩C罗

逆转之夜!欧洲杯刷23纪录:1.8亿巨星绝平救主 16岁天才比肩C罗

念洲
2024-07-01 05:00:13
在苏州事件上,看清司马南的本色

在苏州事件上,看清司马南的本色

关尔东
2024-06-30 13:50:53
冒着极大风险,他向中国记者展示这张照片!

冒着极大风险,他向中国记者展示这张照片!

环球时报新闻
2024-06-30 16:35:27
西方派人来北京通风报信,事先没传出任何消息,希望中国回心转意

西方派人来北京通风报信,事先没传出任何消息,希望中国回心转意

文章侃娱乐
2024-06-30 21:55:26
5-0!保级大战打出惨案,前中超冠军大爆发,国足归化目标1传1射

5-0!保级大战打出惨案,前中超冠军大爆发,国足归化目标1传1射

环太平洋老正太
2024-06-30 21:32:02
乌克兰F16开始升空,2万朝鲜战斗工兵能否改变战场态势?

乌克兰F16开始升空,2万朝鲜战斗工兵能否改变战场态势?

史政先锋
2024-06-30 18:31:59
凯恩加时赛闪击!54秒头球破门,大赛轰14球,全欧仅次4人

凯恩加时赛闪击!54秒头球破门,大赛轰14球,全欧仅次4人

奥拜尔
2024-07-01 02:12:13
不顾强烈反对,大批科学家集体出走中国,美国:这是最后机会

不顾强烈反对,大批科学家集体出走中国,美国:这是最后机会

星辰故事屋
2024-06-30 18:27:58
CUBAL男篮总决赛:清华拒18分逆转险胜太原理工 夺队史第5冠

CUBAL男篮总决赛:清华拒18分逆转险胜太原理工 夺队史第5冠

醉卧浮生
2024-06-30 21:20:49
7月1日,江苏执行最新分时电价!午时低谷电价已蔓延18省

7月1日,江苏执行最新分时电价!午时低谷电价已蔓延18省

光伏能源圈
2024-06-30 19:33:11
这次,被保安砍杀的夫妻,“底裤”被扒光!网友:两人不值得同情

这次,被保安砍杀的夫妻,“底裤”被扒光!网友:两人不值得同情

文雅笔墨
2024-06-30 19:37:05
2024-07-01 05:42:44
金科创新社
金科创新社
金科创新社
1042文章数 127关注度
往期回顾 全部

财经要闻

A股上半年人均亏损1.2万 你亏了多少?

头条要闻

欧洲杯-西班牙4-1逆转格鲁吉亚 进八强对阵德国

头条要闻

欧洲杯-西班牙4-1逆转格鲁吉亚 进八强对阵德国

体育要闻

“意大利很弱”,不再是错觉了

娱乐要闻

白玉兰明星反应精彩 胡歌获奖唐嫣激动

科技要闻

河南火箭坠落爆炸?商业航天公司回应了

汽车要闻

小鹏MONA M03 7月3日首发 15万紧凑级

态度原创

房产
亲子
艺术
数码
公开课

房产要闻

20亿!又有国企要卖海南资产!

亲子要闻

我要为自己打江山!!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

数码要闻

回应小米空调第一不实后!董明珠:不是我刻意要当网红 格力的产品深入人心

公开课

连中三元是哪三元?

无障碍浏览 进入关怀版