首页 » 行业声音

【中国工商银行信息科技部总经理 吕仲涛】“多活”模式探路架构转型

时间: 2017-08-23 11:57     浏览次数:118    来源:未知


文 \ 中国工商银行信息科技部总经理 吕仲涛

2016年11月5日,工行核心系统首次在日间业务高峰时段实施同城切换,经2分13秒由上海外高桥园区顺利切换至嘉定园区。罗马不是一天建成的,“两地三中心”建设走过了一条不凡之路。2004年工商银行即在京沪两地建成国内银行业中规模最大的千公里级灾难备份体系。在此基础上,工商银行于2009年启动“两地三中心”工程建设,并于2014年6月正式投入运营“两地三中心”新架构。

 

通过“两地三中心”工程实施,工商银行实现了信息系统从支持异地灾难恢复向全面支持多中心多活模式的转变,切换时业务影响从“小时级”转变为“分钟级”、数据损失从“分钟级”转变为“零丢失”。真正实现了从应对小概率灾难恢复向全面应对各类应急故障场景的转变。实践证明,通过“多活”及分布式架构改造与实施,能够实现系统快速交付、动态调整、弹性部署,保证业务连续性。工行实践为高并发交易系统架构转型提供了借鉴,为“数字央行”建设提供了有益经验。

 

业务连续性管理水平实现质的飞跃
 

1.从架构布局角度来看,工商银行建立了完整的“两地三中心”架构布局,为业务系统提供全方位的业务连续性保障。主机核心系统和重要开放平台应用在上海同城两中心之间实现业务双活,手机银行、网上银行、电话银行等关键渠道应用在北京、上海两地之间实现业务双活,非关键应用则建立同城数据备份保障。差异化的灾备高可用部署策略相比异地灾备恢复有质的提升和飞跃,同城切换接管的业务影响时间控制在“分钟级”,切换后数据“零丢失”,真正实现由“灾备”向“多活”模式的转变。

 

2.从业务连续性保障角度来看,通过同城切换接管机制的运用,工商银行应用系统可用性和连续运作水平显著提升。工商银行因此实现了系统维护的全年零停机,应用版本投产期间能够提供持续业务服务,同时具备重大故障和灾难事件下同城应急接管能力。核心业务日常保持双站点运行,确保高可用系统的健康状态可满足接管要求。同时,通过在同城站点部署查询交易、管理分析型交易及批量,切实提升同城系统的资源使用效率和业务价值。

 

3.从应急处理角度来看,实现“分钟级”切换。在原有模式下,生产中心遭遇基础设施整体故障时只能切换至异地灾备中心。本地在遇到交易堵塞等重大主机系统故障下,往往只能采取应急重启、回退等措施。一方面很难保证恢复时效性,另一方面处置效果难以保证。“两地三中心”架构建成后,在遇到类似重大故障时,可快速“分钟级”切换至同城系统接管。同时,由于核心系统与同城系统之间存在软件版本差异,“两地三中心”架构可有效规避系统重大调整带来的业务运行风险。只有在遭遇上海地区整体灾难性事件时,才需考虑切换至异地灾备中心,真正实现了从应对小概率灾难事件到全面应对各类日常计划内和计划外故障场景的转变。

 

4.从运维管理角度来看,“两地三中心”实现一体化运维管理。同城两中心日常均承载生产业务,并定期切换接管运行。同城两中心和异地灾备中心建立跨地域一体化运维管理团队,分地域轮流接管整体运维,改变了以往异地灾备中心“只备份不接管”的不足,实现了多中心运维一体化管理。

 

通过“两地三中心”工程建设,工行实现了从“传统灾备恢复模式”向“双中心并行运行”的业务连续模式转型,全行业务连续性服务能力有了质的提升,也积累了丰富经验。

 

“两地三中心”实施经验提炼
 

1.目标清晰明确,做好规划和顶层设计。“两地三中心”架构与原“两地二中心”灾备架构相比,不是中心数量的简单增加,也不是资源配置的简单冗余,而是要在中心功能定位、资源集约化使用、灾备恢复时间(RTO)和灾备数据丢失时间(RPO)等核心指标方面取得显著提升。通过实施关键业务系统的双活部署,满足故障出现后的同城切换无缝接管,从而实现从灾备到业务连续性的跨越式发展。同时,“两地三中心”架构不仅要能应对灾难恢复,还要能在日常场景中发挥作用。例如,在系统维护变更和应用版本投产过程中发挥作用,减少对外停机时间,提升关键应用的整体可用率;对于关键系统故障可通过系统切换快速恢复对外服务等。

 

2.实现差异化部署策略,控制整体成本。针对网银、手机银行、电话银行等关键渠道类应用,建设实现北京上海两地之间的业务双活部署,出现故障后可无缝接管服务。针对核心主机系统,建设上海同城间的双活部署,结合主机系统的技术限制和技术架构,实现同城站点运行查询业务,出现故障后可快速接管全量业务服务。针对重要的开放平台系统,应用服务和接入实现同城双站点负载均衡,后台数据库采取主备模式,在后台数据库故障的极端情况下,在30分钟内完成切换接管,其余非关键开放平台应用则实现同城主备模式即可。结合业务重要性和技术实现效果和成本的平衡。

 

3.持续开展技术攻关,最终实现双活目标。在全球尚无成熟解决方案可借鉴的情况下,工商银行以自主创新为主,整合多种技术和解决方案,从模型设计、基础设施规划、系统架构设计、应用架构改造等多个维度,开创性地设计并实现核心主机和开放平台三站点双活架构的解决方案。例如,为突破国际上数据复制产品的性能瓶颈,工商银行对数据库异步复制的端到端全过程展开了抽丝剥茧的分析,定位九大技术瓶颈并逐一攻关,通过多项措施,最终实现了在超高联机交易率及批量负载期间7×24小时不间断的异步数据复制,且复制延迟持续控制在2秒左右。又如,自主设计应用补账机制,解决了数据无法实时同步的问题,最终实现零数据丢失。再如,自主设计一键式自动化调度切换控制系统,对切换调度操作进行归类、打包和封装,实现灵活调度和按需切换,支持主机单业务分区的分步切换,同时支持开放平台数据库切换、应用整体切换、多个应用并行切换等切换模式,确保出现故障后能够一键式自动控制,避免人为操作风险。整体工程创新成果显著,共产生18项技术创新成果,挖掘专利13项,为双活目标实现提供了有力保障。  

 

4.加强工程组织管理,严控生产运行风险。“两地三中心”工程历时5年多,经历了技术调研、规划设计、测试验证、原型试点、模拟部署、投产上线等关键阶段。在测试阶段工行精心制定方案,充分验证产品和整体解决方案的有效性和可靠性。在上线投产中,采取分步实施和投产策略,首先建立基本服务系统作为原型系统,在应用版本投产期间提供业务服务,随后在同一园区的不同机房,模拟同城架构布局进行充分的模拟验证,验证无误后才扩展到同城站点,并通过真实切换接管验证后才正式投入运营。在工程实施中,组织有效,管理得当,未发生影响生产安全运行的生产事件。

 

5.将演练与实战相结合,确保双活接管系统的持续可用性。核心主机系统在上海外高桥站点部署全量业务,在上海嘉定站点部署查询业务。开放平台应用则在上海双站点实现业务接入的负载均衡。首先,由于同城两节点都日常运行业务,这已经对相关系统的可用性进行了充分验证。其次,每季度应用版本投产都进行真实的切换接管,确保应用版本改造后同城切换系统的有效性。再次,针对性地开展同城切换接管运行工作,分别从接管24小时、到接管一周、再到接管三个月,再到同城交替运行,通过真实的全量业务切换接管确保同城系统可用性。最后,加强三中心运维一体化管理,建立配套的管理制度和工作流程,确保同城接管发挥实效。

 

下一阶段,工商银行将在“两地三中心”架构的基础上,继续在同城智能业务负载调度、业务无缝切换接管、主机和开放平台布局调整以及新技术应用等方面开展创新攻关工作,力争未来几年内全行信息系统可用性水平再上新台阶。