来源:2024年度全国农村金融机构科技创新优秀案例评选
获奖单位:浙江农商联合银行
荣获奖项:运维管理创新优秀案例
一、项目背景
数据中心主要承载各项核心业务数据的运行和管理,是金融业最重要的基础设施。随着企业数字化业务的迅猛发展,数据中心也都急速发展先后历经数据大集中、资源池化、云计算等跨越式发展阶段。面对数字化转型的浪潮,在数据中心IT架构全面云化的情况下,数据中心网络面临着巨大挑战:
1.网络规模急剧扩张,多种网络架构融合,网络变更频繁,无法实时动态的掌握整网拓扑情况;
2.业务创新迭代加速,上线周期缩短到周级、天级,网络变更相关工作占据网络员工大量时间和精力,数据中心网络要提供更加敏捷的网络部署能力;
3.多云异构网络并存,多朵私有云之间、私有云与传统网络之间、软件SDN网络与硬件SDN网络之间存在差异,导致彼此之间互联互通部署效率低且易出错;
4.网络运维手段仍然有限,被动感知故障,更无法提前预测,故障定位仍主要依赖专家经验,逐段定界、逐流分析、抓包定位,效率十分低下。
浙江农商联合银行迫切需要网络运维技术的智能化转型,增强省级网络运维服务能力,以金融科技助力业务数字化转型。
二、项目方案
业务数字化必须要先提供网络数字化底座,建设新一代数据中心网络运维数字化体系。通过对方案领先性、落地可行性、迭代开发周期等多方面分析,组织专家进行研讨,经过详实的技术研究的论证,并组织多轮应用验证,决定采用华为数据中心网络自动驾驶解决方案,基于iMaster NCE-Fabric网络服务化和网络数字地图为底座,叠加专业服务,结合行内已有的运维系统和多年的运维经验,进行网络运维技术的联合创新建设。
下图为我行数据中心网络智能化运维体系的整体架构。
在工单自动化方面,通过自动化平台和可编程驱动平台的南北向接口实现行内ITSM工单系统和网络基础设施的对接,自动化平台用于编排业务流程,可编程驱动平台通过定制驱动包来纳管异构厂商设备。ITSM工单系统将业务意图,通过API接口传递给自动化平台,最终下发至指定网络设备,实现端到端的网络设备自动化。自动化平台具有开放性、拖拽式、低码化开发的特点,新增设备和流程可以做到快速开发,动态加载,即插即用,提升业务敏捷上线效率。
在运维可视化方面,通过数字地图开放运维平台实现南向接口从网络安全设备、网管系统、CMDB、网络流量分析系统等数据源采集数据,再通过数字孪生技术进行数据建模,呈现出网络拓扑、应用拓扑、路径导航、网络路况等信息。数字地图平台的开放性,通过定制采集驱动包兼容第三方设备,做到快速适配,确保网路拓扑的完整性。
在故障定位方面,数字地图平台通过与应用相关数据对接,在全行数据中心网络多维可视的基础上,实现应用与网络关联,即应用间的网络路径可视,从应用直接映射到网络。通过数字地图应用与网络互视能力,应用报障定位从小时级缩短到分钟级,协同效率得到大幅提升。
通过AI人工智能、可编程网络、数字孪生等关键技术手段,重构高效的数据中心网络服务体系;通过AI智能调优、多场景协同联动、一体化管控、运营管理模式转型升级等手段提供更可靠的数据中心网络服务;通过构建运维和管理中台能力,包括自动化中台和数据中台,实现数据治理,跨域数据共享协同,AI仿真演算等关键技术能力的催熟,快速在各个业务领域进行广泛的应用。
三、创新点
以网络监测、管理、控制三个维度为切入点,将应用与网络协同监测、网络管理数字化孪生化、网络控制服务化为目标,建设基于网络数据中台和服务化控制中台的智能化运维系统。
全网一图可视:AI智能拓扑还原,使能“全行一张图”。传统网管的拓扑还原需要基于LLDP/CDP等链路发现协议,由于链路发现协议极易出现安全问题,因此在传统网络运维当中,拓扑图仍然需要大量人工维护工作。在我行网络运维可视化的实现上,数字地图平台除了可以基于链路发现协议进行拓扑还原外,还可以基于端口流量特征、APR/MAC表项、设备配置等数据进行AI推理,真正做到脱离人工维护的网络智能识别和拓扑还原。
全网路径一键导航:直观呈现网络流路径,快速识别问题点。在全网一张图的基础上,通过网络路径一键导航,服务器端到端路径可视,包括支持云服务器内的虚拟网络路径透视。应用报障时,网络路径可以秒级导航,通过导航可以快速定界问题设备节点、分析问题原因,包括路由不通、黑洞路径、ACL阻断等问题。
应用网络一秒定界:应用直接映射到网络,三步查看互访路径。通过与应用相关数据对接,在全行数据中心网络多维可视的基础上,实现应用与网络关联,即应用间的网络路径可视,从应用直接映射到网络。传统应用报障,网络团队与应用团队通过监测事件触发,跨部门人工协同定界定位,效率低下。通过数字地图应用与网络互视能力,一个应用保障定位从小时级缩短到分钟级,协同效率得到大幅提升。
网络工单一键发放:工单系统对接自动化平台,实现网络业务的自助。网络变更标准化和规范化一直以来是网络运维最头痛的问题,异构厂商、命令复杂度等都是网络运维效率难以快速提升的根本问题。通过自动化平台,解决了异构厂商设备命令复杂度问题,标准化配置发放流程,通过北向接口对接工单系统,将网络变更参数表单化,通过自定义场景编排,实现不同业务需求的网络自助申请和开通服务,实现了工单业务的一键发放,极大提升了受控网络资源开通的敏捷性。
四、技术实现特点及优势
采用华为数据中心自动驾驶网络为技术底座,来构建网络运维自动化平台。网络自动驾驶将意图网络、数字孪生、全栈可观测等技术与AI结合,可逐步消除数据中心网络运维的人工断裂点,不仅可以代替人工处理大量重复性、复杂性的操作,还可基于海量数据提升网络预测和预防能力,通过数据更懂客户,基于数据驱动差异化的产品服务,使能高度自动化和智能化的数据中心网络运维。
意图引擎:基于业务意图,通过网络推荐算法,将业务意图自动转换为网络设计。提供IP 地址推荐、网络资源位置推荐、安全方案推荐等智能推荐能力,实现一键式业务网络规划,并将业务意图转化为网络监测指标,持续保障网络连接或功能的SLA。
数字孪生:网络数字孪生通过数字化建模,对物理网络的状态在信息空间进行全要素重建及数字化映射,形成覆盖网络全生命周期的数字化数据池,通过网络数字孪生底座,构建基于网络管理、控制和分析三大能力,将上层业务意图的自动翻译为网络行为,并持续保障网络连接和功能的SLA 承诺,实现网络的自动驾驶。
全栈可观测:基于应网融合、开放的可观测架构,构建以网络为中心的全栈信息数字化,可视化。
五、项目过程管理
2023年4月通过联合创新实验室进行了测试环境的研究工作。6月启动网络智能化运维技术实践项目,10月开始平台部署、网络设备驱动包开发、工单系统、网管系统、CMDB等系统对接工作,2024年2月启动网络工单运维自动化调试和数字地图运维可视化调试,2024年5月进行生产环境试运行,6月份正式投产。
六、运营情况
目前,网络智能化运维技术已落地使用,完成网络信息资产的采集并生成关联关系,覆盖4个数据中心、3000余台设备、37000余台主机、18000余条链路、10万余条应用访问关系,实现网络拓扑动态展示、服务器端到端路径导航及438套系统主机与网络互视。工单自动化方面,建立自动化服务目录,已实现21个交换机、路由器、防火墙、负载均衡的自动化应用场景,试运行阶段网络工单自动化率在50%左右。
七、项目成效
得益于大数据、数字孪生、AI等数字化创新技术的运用,我行的网络智能化运维技术研究和实践最终能够达到业务体验提升、运维效率提升、交付效率提升、风险降低、成本降低的“三升两降”效果。
业务体验提升:通过数字地图的智能路径导航,针对关键业务做到端到端重保,提升业务体验。
运维效率提升:全网360°可视,应用和网络关联,从网络看清应用,在应用报障时能够快速的进行定界定位,提升运维效率。
交付效率提升:通过工单系统对接自动化平台,针对服务器上线扩容、策略开通等高频业务场景,可以进行一键网络配置下发,分钟级完成工单交付。
风险降低:应用和网络路径相结合,网络变更操作可以更直观的展示所能影响的应用,降低全网风险。
成本降低:通过平台数字化、智能化,每年能够节省数千小时的人力投入,大大降低人员投入成本。
八、经验总结
2023年我行联合华为公司建立了联合创新实验室,通过构建数字孪生的数字底座,打造拓扑还原、数据治理、网络检测、可达性推演等业务中心,呈现拓扑可视、资产管理等网络智能运维能力。
下阶段将全面构建领先的新一代金融数据中心网络数智管理体系,推进数据中心网络全面走入“自动驾驶”时代,提升网络智能化,以提供业务到IT基础设施的全息数据和变化趋势、坚持守正创新,实现业务数字化转型进一步深化加速。
更多金融科技案例和金融数据智能优秀解决方案,请在数字金融创新知识服务平台-金科创新社案例库、选型库查看。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.