首页 » 行业动态

【2018金融科技创新榜参评案例展示】翼支付:甜橙金融金融科技创新应用项目

时间: 2019-01-02 17:25     浏览次数:184    来源:未知

“2018金融科技发展论坛暨第三届中国金融科技创新大会”定于10月12日—13日在北京万寿宾馆召开。论坛以“新科技·新金融·新动能——推动金融科技发展,助力实体经济腾飞”为主题,届时将邀请国内外知名专家学者、金融机构负责人、金融科技企业家等嘉宾到会发表主题演讲,并于现场发布《中国金融科技发展概览》。本次论坛开展的“2018中国金融科技创新榜”案例征集活动,收到了来自金融机构和金融科技服务商提交的136个案例。

 

中国金融科技创新大会已成功举办两届,大会立足国内,放眼全球,聚集行业热点,已成为金融科技业界理论研究、趋势探讨、案例推介、成果分享、应用指导和业务对接的交流平台,对于推动我国金融科技的理论研究和业务创新有着积极意义。

以下为翼支付参评案例展示:

 

案例一:基于移动支付业务的异地双数据中心高可用项目

  案例摘要:

  《基于移动支付业务的异地双数据中心高可用项目》(以下简称“异地双活”)是电信翼支付内部基于支付交易提供的一套高可用服务解决方案,涵盖基础设施、中间件、应用程序各个层次的建设,实现跨地域的容灾能力,并且通过智能业务分流,起到灵活调度的作用,用户可根据地域,就近访问不同的数据中心,提高用户访问体验,同时也能更灵活和合理的利用机房资源。 整个解决方案分三个阶段,最终两个机房达到对等结构,对两个机房的数据、缓存、消息做到实时的双向同步和容错,一旦发生问题,智能监控将速度发现和定位到问题,并且立即将机房流量切换到另外一个机房。

  案例背景:

  甜橙金融是中国电信旗下的运营支付和互联网金融的业务品牌。目前为个人、商户提供综合性的互联网支付、金融服务,同时为政企类客户提供专业性的行业解决方案。然而,在目前气候多变,互联网高度发展的当下,为了避免因受到自然灾害、网络瘫痪等灾难性事件,导致单机房故障而引发业务中断的风险,一小会的故障对于内部管理系统来说,可能只是影响到个别人员的使用,而对支付交易系统来说,这个将影响面和影响程度将大的多,严重的多。

  探索并建设满足生产要求的异地双活架构的计划应运而生。异地双活可保障不受单地域的灾难的影响,实现跨地域的容灾能力,并且通过智能业务分流,起到灵活调度的作用,用户可根据地域,就近访问不同的数据中心,提高用户访问体验,同时也能更灵活和合理的利用机房资源。

  2、需要解决的问题及解决方案

  (1)需要解决的问题

  作为重要的支付应用和金融服务,甜橙金融在高可用服务和安全上下足了功夫,包括对整个体系的微服务建设,应用的治理和限流,各种网络攻击的智能识别等。但集群在单机房的限制下,对于突发的自然灾害或者应用故障,可能会导致服务提供中断。而且因为单机房的承载力必然会达到阈值,当达到阈值后,将给整个服务带来灾难性的风险。

  为避免以上情况的发生,启动了异地双活的建设,异地双活方案在两地拥有相同的数据,可随时利用异地数据进行数据挖掘和操作演练。而且一旦本地发生大面积机房瘫痪,可快速启用异地容灾中所需数据,甚至实现应用切换。

  (2)解决方案

  整个解决方案分为三阶段实现最终目标:

  第一阶段:双活新机房服务器基础环境建设,打通新旧机房网络,建设新旧机房业务网络和数据网络的传输专线,开发数据同步系统,保证老机房向新机房的单向数据同步,保证老机房可以全量读写,新机房提供小范围读能力;

  智能分流系统将作为网关的旁路系统,对访问的用户根据手机号,地域和接口决定机房的走向,同时当有新的分流配置下发时,分流系统将主动推送网关,当用户访问的时候可以智能切换进入新的机房。

  而同步系统的职责将是监听用户写入redis的操作,对所以的操作镜像到新机房,并通过不同种类的请求消息分析归类,最后由同步系统在新机房的redis集群中进行写入或者删除。

  第二阶段:新机房在第一阶段已有的基础能力上,增加部分业务的写能力,配置中心对用户进行智能切片化,把部分用户的写流量打到新机房,通过甜橙金融数据同步系统,对两边的机房数据做同步和容错,新数据同步系统摒弃了之前的DataGuard和Mysql的主从结构,使数据同步过程中,更具主动性,并且对监听到的数据可以做不同的自主化处理,并接入了监控,当监控系统发现有异常时,自启动数据补偿机制;

  消息系统也在原有的集群上,对新机房搭建了新的集群,通过消息复制,在新机房做镜像处理,在老机房消息产生的同时,新机房立刻感知,使两边的消息形成对等和一致。

  第三阶段:在二阶段已经可以用户切片,并且数据同步的情况下,对于写范围的扩大,并且对监控做进一步的完善和改进,通过分流系统反复进行切换实战演练,把切换做到分钟内级别,双机房做到同时提供等同结构的读、写能力,通过用户的账号和地域,智能识别和路由,当单机房达到阈值或者故障时,实时切换到新机房。

  案例应用实践及效果:

  在目前双活方案的实施中和使用过程中,我们积累了大量的双活业务场景,异常场景和数据同步场景。对于在数据传输和支付场景中出现的各种异常场景,我们也做了大量的梳理和监控,让系统自动去发现很多问题,并针对问题让系统进行学习和自动化的调整。根据智能分析结果,自动切换接口或机房。

  另外,我们避免了传统的容灾模式:一个业务只在一个数据中心运行,在备份中心部署了大量的备份服务器,但备份中心仅为该业务提供灾备服务,只有当灾难发生、生产数据中心瘫痪时,灾备中心的业务系统才启动这些服务器,造成了备份中心服务器资源浪费。而且一般传统的容灾模式当真正灾难来临的时候,经常会发生切换意外,数据的不完整,回切困难等问题,甚至很多企业真正遇到问题都不敢切换。

  甜橙金融在异地双活建设中使双中心真的双活,根据用户切片,既保证用户的数据在同一机房上读和写,保证不出现因双机房出现的网络延时,同时,对用户数据做实时同步,两地的机房都时刻拥有等同的数据,并且一直处于“热”状态,一旦有问题,马上可以切换到另外一边机房。充分利用资源,避免了一个数据中心常年处于闲置状态而造成浪费。通过资源整合,双活”数据中心的服务能力是双倍的。

  对用户来说,想要的就是最快的速度访问和支付,而我们恰恰通过智能感应和路由,可以给他们提供这样的服务,并且一旦一个机房发生问题,用户是无感知的可以继续使用我们提供的服务。

  方案前景:

  通过目前的模式,我们应用的扩展能力不再只是纵向的单机房扩大机器容量,不用担心单机房的阈值和网络带宽,不用担心一个机房故障不能提供服务时的尴尬,最大优势是有效利用了资源,服务能力会提高100%,对于不同地域的用户我们的接口响应程度提高了60%-70%,这个方案让我们集团的业务看到更广阔的前景,这将在 “双十一”和电信“五二五”活动中发挥重要的作用,让IT系统有了资源整合的能力,让系统有了充分的弹性,保证了交易的突发需求以及各种突发情况。

  案例二:翼支付门户网站及APP自动化攻击安全防护项目

  案例摘要:

  《翼支付门户网站及APP自动化攻击安全防护项目》是为了抵挡各类促销活动中大量的(灰产)羊毛党利用业务漏洞及黑客工具形成的自动化攻击行为,当下(灰产)羊毛党通过自动化工具发起大量交易,导致正常用户无法进行交易,这严重影响了公司的商业形象;同时,市场促销大部分被羊毛党抢走,导致市场促销效果大打折扣,同时给业务系统造成了极大的性能压力。

  针对薅羊毛这类模拟合法操作的自动化攻击,其没有任何明显特征,传统的安全防御机制已无法有效防御,为降低翼支付面临的经济损失及商誉损害,启动了翼支付门户网站及APP自动化攻击安全防护项目。

  项目基于翼支付多年积累的风控经验与大数据模型,并采用创新的动态验证技术,实现对自动化工具的动态识别,过滤了大量的自动化攻击噪音,让安全团队可以更快速有效的应对撞库及薅羊毛等恶意攻击行为;同时对客户端所有的访问数据进行记录,通过机器学习和大数据分析技术,透视用户的异常访问行为,实现对各种自动化模拟业务操作的交易欺诈行为的防护、防止撞库带来的用户信息泄露、实现网站漏洞隐藏,防止黑产批量注册、批量交易带来的资源消耗。

  案例背景:

  为了提高现有用户的忠诚度、不断发展新用户,翼支付每月的5号、15号和25号都会有促销活动;每年的5月25日,翼支付会进行全年的大促销,促销力度非常大。促销活动吸引了大量的客户,同时也吸引了很多羊毛党,羊毛党通过自动化工具发起大量的自动化交易“薅羊毛”;由于突发请求量巨大,拖累系统性能,导致用户无法进行正常交易,这严重影响了公司的商业形象;同时,市场促销优惠大部分被羊毛党抢走,导致市场促销效果大打折扣,给公司造成巨大的经济损失。

  羊毛党通过自动化工具薅羊毛,给我司正常的业务开展和市场营销活动推广带来了巨大的影响,使公司蒙受了营销损失,商誉也受到严重影响,迫切需要解决。

  需要解决的问题及解决方案:

  翼支付的业务风控系统早已发现有大量的羊毛党利用自动化工具,以非正常手段来完成线上抢促销、套现等恶意行为,从而获取经济利益的行为,但苦于无法实时进行拦截,只能用于事后分析。在促销活动开始时,攻击者会通过自动化工具大量从多点快速登录不同的账号并参与抢促销活动,以极低的代价获取高额利润。而正常用户往往由于服务器过载或者参与速度不及自动化工具,无法享受活动优惠,大幅降低了翼支付市场促销活动的效益。

  1、需要解决的问题

  自动化攻击防护:解决传统安全无法有效防范的各类自动化攻击与交易欺诈行为,如:薅羊毛、撞库、批量注册等;

  攻击实时阻断:针对各种自动化攻击和交易欺诈行为进行实时阻断,将自动化攻击阻绝于客户端,节省服务器资源与带宽带宽,防止对正常业务造成影响;

  降低安全维护成本和风控成本:避免部署大量的安全策略和风控策略,有效提升安全运维效率和风控效率,降低成本;

  攻击溯源:过滤自动化攻击事件,减少日志分析成本与负担,更能快速响应重大安全事件,可以快速追踪溯源。

  2、解决方案

  基于翼支付多年积累的风控经验与大数据模型,并采用创新的动态验证技术,实现对自动化工具的动态识别,过滤了大量的自动化攻击噪音,让安全团队可以更快速有效的应对撞库及薅羊毛等恶意攻击行为。记录所有的用户请求数据,通过机器学习和大数据分析,实现对业务威胁的透视。

  动态验证技术对客户端环境与操作行为进行动态验证,检查运行环境、浏览器指纹、攻击行为等因素,防止恶意终端访问;每次验证都会随机选取检测的项目与数量,动态生成检查代码,增加应用的不可预测性,大幅提高攻击成本。

  浏览器真实性验证

  通过运行特殊的JavaScript属性或语法,交叉验证运行环境浏览器的真实形态,有效防止模拟浏览器行为的攻击手法;

  运行环境监测

  针对包括漏洞扫描器、Web Driver在内的所有流行自动化工具的行为进行检测,阻止自动化扫描和欺诈行为;

  浏览器指纹采集

  针对客户端浏览器的语言、插件、时区和显示屏信息等指纹特征进行追踪,防止攻击者通过不断切换跳板或地址,绕过安全机制。

  用户行为检测

  针对用户的操作行为模式进行分析,包括鼠标的点击、移动、触摸屏点击、按键行为等,从而更有效地防止以录屏回放及模拟操作等自动化攻击手法。

  案例应用实践及效果:

  1、案例应用实践

  2016年4月,中国电信翼支付门户业务安全防护项目正式上线,系统稳定运行了28个月;一期项目实现对翼支付门户的保护;2018年4月,二期项目正式上线,实现对App的保护;针对薅羊毛、自动化交易欺诈、撞库及虚假账号注册等新兴线上欺诈行为进行有效防护。

  业务安全防护系统为全活模式,通过负载均衡设备实现高可用,为了保障系统可以用,采用4节点部署架构,同时配置了4个大数据分析节点。

  从运维的角度看,动态验证虚拟机在实现部署以及部署以后的两个阶段中具有两大优势,即零配置和零管理。换句话说,系统在部署时不需要对应用端进行任何配置改动,在部署后也不需要像传统安全机制那样实施诸如恶意行为特征库升级等操作。

  2、应用效果

  业务安全防护项目,将防护边界从服务器端延伸到客户端,通过客户端指纹追踪、真实性识别和行为分析等技术,快速过滤出具有攻击或欺诈意图的恶意来源终端;系统部署后,已大幅提升我司对欺诈来源的识别及追踪能力,且能全程掌控攻击全貌,建立对抗网络空间威胁的全方位立体作战能力。

  项目应用效果如下:

  让翼支付用户获得更多利益:项目实施完成后,所有针对门户的自动化攻击全部被阻挡,保证每次市场营销活动顺利进行,市场促销优惠真正的被最终用户获得,用户获得更多利益,带来了良好的社会效益。

  上线二个月业务访问和攻击数据图表:

  4月6日上线当天,对翼支付网站的恶意请求占比为85%,由于自动化工具被拦截,恶意流量急剧下降、占比已经不足1%,大大提升了翼支付的市场促销效果,给翼支付带来了巨大的经济效益。

  业务安全防护平台亮相世界移动大会

  2018年6月27日-29日世界移动大会-上海,翼支付携神荼自适应安全防护平台参展本次大会,得到了各方的好评。

  方案前景:

  中国电信翼支付门户业务安全防护案例对金融行业有良好的示范效应,可以在金融行业、支付行业等广发推广。

  1、支付行业示范效应:截至2015年3月26日中国共有270家公司获得了第三方支付牌照,第三方支付已经成为现代金融服务业的重要组成部分,也是中国互联网经济高速发展的底层支撑力量和进一步发展的推动力。

  翼支付在支付领域面临的虚假注册、薅羊毛、虚假交易等问题,其他支付企业也同样遇到;翼支付门户业务安全防护项目的防护效果和获得的收益,对其他支付企业具有很大的借鉴意义,在支付行业具有很大的推广价值,其可以有效解决支付行业面临的业务安全问题。

  2、降低支付企业经济损失:自2009年以来,第三方支付市场的交易规模保持50%以上的年均增速迅速扩大,并在2013年成功突破17万亿元的基础,达到17.2万亿元,同比增长38.71%;2014年交易规模达到23.3万亿元;2015年交易规模达31.2万亿元。

  随着,支付行业年交易规模的不断扩大,支付企业之间为了更多的争取用户,展开了促销大战,大量的羊毛党和自动化工具也随之而来,羊毛党通过自动化工具实现批量注册、进行虚假交易,将支付企业大量的促销投入薅走,给支付企业带来了巨大的经济损失。翼支付在门户业务安全防护项目的成功经验,为支付行业探索了一条全新的抗击黑产的道路,其从黑色产业链的最核心部分“自动化工具”发起,让所有的自动化工具无法运行,从而打破黑色产业链,为所有支付企业抗击黑产树立了成功案例,可以在行业内部大力推广。

  3、跨行业示范效应:撞库、批量注册、薅羊毛、虚假交易等新兴的自动化攻击,已经成为金融、支付、互联网等行业面临的主要业务风险,翼支付门户业务安全防护项目,有效解决了撞库、批量注册、薅羊毛、虚假交易等新兴的业务安全威胁,可以给各行业做一个参考,起到良好的跨行业示范效应。

  4、推广情况:中国电信翼支付门户业务安全防护项目已经在运行商行业广泛推广,目前浙江电信、甘肃电信、上海电信、北京电信、中国联通集团、河北联通、黑龙江联通、内蒙古联通、吉林联通、北京联通、湖北联通、陕西联通已经推广成功,部分已经上线;在金融行业推广也得到了一些推广,目前,江南银行、厦门国际银行、广州银行、东方银谷、泰达宏利基金等已经推广成功,都已经上线运行。

  案例三:分布式百万级秒并发的秒杀营销活动平台研发及应用项目

  案例摘要:

  《分布式百万级秒并发的秒杀营销活动平台研发及应用项目》是甜橙金融顺应市场和时代发展,响应集团内部要求的大数据营销活动,开通信运营企业“真正意义的秒杀营销”之先河,通过“红包雨”方式在重要节假日汇聚大量人气,刺激流量并打响品牌,具有重要的经济意义和品牌露出作用。甜橙金融作为业内第三大支付型企业,紧跟时代步伐,抓住市场机遇,在通信运营企业内率先推出类似的秒杀营销活动,借助春节红包热点,拉动翼支付活跃用户数。吸引大量的用户在规定时间内登录翼支付客户端点击活动页积极参与红包雨活动,赢取流量红包、商户红包、现金红包、理财代金券及优惠购机券等。极大的提升用户体验,增强企业的市场竞争力。

  需要解决的问题及解决方案:

  《分布式百万级秒并发的秒杀营销活动平台研发及应用项目》 是甜橙金融顺应市场和时代发展,响应集团内部要求的大数据营销活动,开通信运营企业“真正意义的秒杀营销”之先河,通过“红包雨”方式在重要节假日汇聚大量人气,刺激流量并打响品牌,具有重要的经济意义和品牌露出作用。

  (一)技术痛点

  1、高吞吐量。秒杀系统瞬时会有大量用户涌入,所以在抢购一开始会有很高的瞬间峰值。高峰值流量将可能压垮系统。

  2、数据库服务器负载高。高并发下的应用、数据库负载用户在秒杀开始前,通过不停刷新浏览器页面以保证不会错过秒杀,以及请求过程中订单表、交易表的创建。这些请求如果按照一般的网站应用架构,访问应用服务器、连接数据库,会对应用服务器和数据库服务器造成负载压力。

  3、超买超卖。当只有一个商品的时候,A和B同时进来,同时抢购。貌似条件都符合,结果却是商品成了-1,出现了超卖现象。在DB层面有多表操作且存在延迟的现象。

  (二)解决思路:

  1、限流。 鉴于只有少部分用户能够秒杀成功,所以要限制大部分流量,只允许少部分流量进入服务后端。

  2、削峰。秒杀系统瞬时会有大量用户涌入,需要把瞬间的高流量变成一段时间平稳的流量,以保证系统的顺利运行。实现削峰的常用方法有利用缓存和消息中间件等技术。

  3、异步处理。秒杀系统是一个高并发系统,采用异步处理模式可以极大地提高系统并发量,其实异步处理就是削峰的一种实现方式。

  4、内存缓存。秒杀系统最大的瓶颈一般都是数据库读写,由于数据库读写属于磁盘IO,性能很低。需通过把部分数据或业务逻辑转移到内存缓存,从而极大地提升数据库读写效率。

  5、可拓展。将系统设计成弹性可拓展的,未来通过拓展机器即可支持更多用户,更大的并发。

  案例应用实践及效果:

  1、解决高吞吐量、数据库服务器负载高、超买超卖等多重性能瓶颈。保障2017年1月27日当天共7场红包雨活动的正常进行,每场红包雨持续30分钟。活动峰值交互人次达到1152万次,流量超2016年“525”峰值2倍。

  2、自主研发建设了基于分布式的百万级秒并发的红包雨活动平台,有效支撑大数据级营销活动的开展,为以后亿万级的秒杀活动开展奠定坚实基础。系统设计成弹性可拓展的,未来只需拓展机器即可支持更多用户,更大的并发,在技术开发与成本上节省更多的人力物力。

  (一)技术创新点

  1、利用内存缓存和消息队列解决高吞吐量问题

  利用缓存可极大提高系统读写速度。秒杀系统最大的瓶颈一般都是数据库读写效率过低,由于数据库读写属于磁盘IO,性能很低,如果能够把部分数据或业务逻辑转移到内存缓存,效率会有极大地提升。

  利用消息队列进行削峰,拦截大量并发请求,后台业务根据自己的处理能力,从消息队列中主动拉取请求消息,再进行业务处理。这也是一个异步处理过程,在高并发的秒杀系统采用异步处理模式可以极大地提高系统并发量。起初由于数据库连接数不满足线上秒杀活动的要求,极易导致系统出现异常,研究后本项目改用kafka异步执行返利操作,大大分担系统压力,提高系统并发量,解决了系统高吞吐和高并发,使活动按照预期进行。

  2、利用消息中间件解决数据库服务器负载高问题

  数据库层是最脆弱的一层,一般在应用设计时在上游就需要把请求拦截掉,数据库层只承担“能力范围内”的访问请求。所以,上面通过在服务层引入队列和缓存,让最底层的数据库高枕无忧。

  消息中间件的主要功能是异步解耦,还有个重要功能是挡住前端的数据洪峰,保证后端系统的稳定性,这就要求消息中间件具有一定的消息堆积能力。其关键逻辑处理和设计在于表格特点,技术组建的选型和组合。

  3、使用redis分布式缓存处理超买超卖问题

  使用redis可以处理超买超卖问题,实现快速存取,减少多次操作DB同时,在数据写入redis的时候,通过库存等其他条件判断。

  目前项目中的REDIS使用哨兵模式,有瓶颈,OPS最高可达16W左右。针对这种情况,本项目借用数据库分库分表的理念,对REDIS进行分片。本项目采用非关系型数据库和redis分布式缓存,利用计数器当成数据库去用,防止错误的现象出现,并实现成本控制。

  平时项目直接操作数据库的设计模式,在大量请求进来时会立马暴露数据库链接、系统线程数等问题,因此技术组利用REDIS缓存和KAFKA中间件的方式,缓解数据库压力,保证请求以较小的比例穿透到后端的数据库中。

  本方法减少数据库交互的同时保证查询的效率,减少了并发操作数据库带来的风险。


图1、消息中间件-应用架构图

 


图2、消息中间件内存图

 


图3、分布式缓存应用

 

  项目效益:

  (一)经济效益

  1、低成本投入带来高用户流量,现时效益可观

  作为运营商内部首次真正意义的秒杀营销活动,活动吸引了大量的人气,拉动了大量新用户的加入,极大的降低了拉新的成本,同时激活了大量沉默用户,带动了用户积极性。

  本次春节红包活动成本大幅度降低,实际使用总成本为538.98万元,同比2016年红包活动下降75.84%。客单价2.62元,同比2016年红包活动下降89.39%。活动峰值交互人次达到1152万次,流量超2016年“525”峰值2倍,创公司单次营销活动历史最高参与人数,参与用户达到205.44万,同比2016年红包活动提高40.71%。其中,1092.1万人次参与红包雨活动,累计中奖用户145.2万;63.12万用户参与红包“发发发”活动,激活35.26万老用户,拉动5.29万新注册用户,现时效益可观。

  2、技术改进提升整体管理水平,长期效益显著

  本项目自主研发的系统主要解决了高吞吐量、数据库服务器负载高以及超买超卖等问题,极大提高了传统模式下的工作效率,使用户顺畅地进行抢红包活动,有效提升用户体验,增强用户粘性。同时,本项目使得公司在技术先进性、产品设计、营销模式、管理水平等方面迈出了巨大一步,为未来大数据营销活动的开展奠定了坚实基础,长期效益显著。

  3、异业合作探索生态圈建设,促进商业变现

  撬动商户资源联合营销,促进异业合作,探索生态圈建设,加强了全社会不同产业部门间的联动合作,为企业未来的商业变现带来更多的可能性。

  (二)社会效益

  1、打响企业品牌,为用户提供更多优惠和便利

  从社会效益来看,提升了广大用户对运营商通信服务水平的感知,广大用户通过参与活动享受到了更多优惠,得到不同金额的各类商户代金券和流量红包,带动用户的消费积极性。

  2、起到表率作用,为运营商提供宝贵经验

  本项目为本公司、其他兄弟公司及运营商内部的类似营销活动提供了技术实现方式及运营方面的宝贵经验,有强大的借鉴意义和表率作用。继本项目之后,苏宁和今日头条等互联网企业也纷纷开展了类似的活动,由此可见本项目的应用推广效果显著。

  案例四:基于国产密码的移动支付安全防护项目

  案例摘要:

  翼支付基于国产密码的移动支付安全防护项目,在2016年1月份开始筹备,正式在2016年中旬上线投产上线,运用于我司互联网金融移动端产品翼支付APP(Android/IOS操作系统皆有)中。在符合央行监管的前提下,为保障用户交易安全、身份识别抗抵赖性,为翼支付实名用户颁发个人CA数字证书。其中,为更好的保障用户信息安全、推广国产密码算法的实际场景,采用国产SM2作为个人CA数字证书的非对称算法。运维至今,已成功颁发量超过5千万张,为翼支付用户的信息安全、数据机密性、交易的不可抵赖性起到了不可或缺的卓有成效的防护作用。

  案例背景:

  央行的对第三方支付机构签发了《非银行支付机构网络支付业务管理办法》,在交易验证方式的安全级别对个人客户使用支付账户余额付款的交易进行限额管理,且立足于翼支付本身的业务场景, 目的就是在以前已有的安全基础上,根据央行监管的新要求,对翼支付个人账户在关键支付交易中增加数字证书的认证方式,安全进一步加强,满足央行监管应用安全的要求,同时,尽可能小的影响用户体验,促进翼支付业务特别是个人账户业务的快速健康有序发展。

  需要解决的问题及解决方案:

  (1)多方系统兼容、磨合和技术改造

  翼支付微服务平台、CA自建证书系统、加密机集群,如何把国密算法有效的融入到翼支付系统中,流程涉及的合理性,流程响应码的融合,,都是成为项目顺利进展的一个难点和痛点。

  【应对策略】梳理现状、调优架构、优化流程,兼容多机验证。梳理清楚目前的使用现状,结合多个前后端8个应用间的系统交互,落实响应码处理机制和前端提示。确保用户的最佳体验的同事,流程得以兼容现有架构。

  (2)CA自建证书系统与加密机型号的对接适配

  选择的CA自建证书平台,并无对接江南科友SJJ1214的历史经验,在对接的过程中,出现接口响应慢、对接无法处理、密钥导入不成功等异常。

  【应对策略】基于JCE统一标准策略,密钥统一协定,综测环境下多伦进行功能测试、性能测试,确保功能的正常使用,性能得到保障。并针对加密机接口,定制化接口测试工具,socket Stream进行加密机设配性能压测,确保符合前端性能要求,合理评估投产加密机数量,确保业务的正常运行。支撑翼支付用户每日的交易。

  (3)手机端的兼容性设配和异常追溯

  为了保障用户翼支付APP端的安全,提供的中间件版本是基于SO动态库、.a静态库的方式,对于市面的格式多样的浏览器,不可避免的存在不兼容性和不适配。投产前如何有效保障投产质量,出现问题,如何追溯和排查。

  【应对策略】统计市面上主流操作系统版本、确定几大手机厂商的品牌和型号,投产前,全量进行回归功能验证,确保交易的正常进行。对于用户反馈的奔溃等异常行为,根据实际情况,进行电话回访等模式,进行有效的解决和解释。

  (4)性能是否有保障,若出现加验签异常,如何追溯处理

  国产加密算法,SM2/SM3/SM4市面上的技术文档和论坛,相比于RSA/ECC的知识和讨论匮乏很多。

  【应对策略】主动学习国密算法技术,确保问题定位的准确性和调优;与厂商建立应急响应策略、出现异常,积极联动响应,3H内无比定位问题根源并得到有效解决,确保问题的不扩散;功能测试、性能测试,需加以保障,确保高并发情况下的有效支撑和运维;加密机集群、虚机集群做好冷备应急,积极做好相关的快速扩容、硬件搭建部署、确保业务的连续性和不间断性,保持交易的持续进行。

  案例应用实践及效果:


图1、 基础业务模型防护图

 


图2、 简易交互图

 

  本项目在以前已有安全防护基础上,对翼支付个人账户在关键支付交易中增加SM2 CA数字证书的认证方式,在翼支付用户支付交易场景下,实现以下实施目标:

  双因素认证,结合移动支付场景,增强防护用户侧信息安全

  双因子同步鉴权,保障用户满足央行监管应用安全的要求,同时,安全进一步加强,尽可能小的影响用户体验,促进翼支付业务特别是个人账户业务的快速健康有序发展。

  CA证书管理系统为构建物理身份和网上身份的桥梁,对互联网和移动互联网用户提供统一的网络身份认证管理服务,是负责签发和管理数字证书的核心系统。主要分为管理功能、服务器对外接口、客户端SDK、数据库四部分,管理功能只要分为:应用管理、手机证书管理、系统管理。服务端接口:信息同步、申请证书、修改PIN、PIN状态更改、注销。客户端:初始化、申请证书、签名。

  符合央行监管,推动国密改造使用

  满足互联网支付、移动电话支付牌照相关监管条例的前提下,推动落实国产密码算法改造、安全防护用户侧本地的信息安全,身份识别等鉴权能力。CA自建证书体系、加密机负载集群的有效结合,

  抗薅羊毛、防盗刷工具、用户身份识别抗抵赖等客户端全防护

  随着翼支付的快速发展,越发猖獗的薅羊毛党、黑客攻击、批量盗刷软件的出现,急需一种新的技术手段对翼支付APP进行安全增强防护。其中,CA自建证书安全防护建设,创新性的结合到翼支付交易流程中,在不损失用户体验的前提下,对用户手机端指纹、身份信息、交易识别,通过SVS(sign & Verify Server)签名验签服务,前后端分离算法,起到了一机一密,一次一密,OTP(One Time Password)防护。在实际的效果中,抵制阻断了现在市场上的各类薅羊毛工具,对真实的用户正常参与营销活动,促进月活,优化用户体验,为翼支付APP交易安全上重要一环。


图3、上线后已成功阻断的批量刷单工具

 

  方案前景:


图4、社会经济效应

 

 透明化、加密平台统一集约化。解决以下问题:密钥靠人工流程把控;密码密文靠文档约束;开发自律准时职业道德;运维自律不查看敏感配置。

  毕竟是互联网金融产品,前端如此多层安全防护,性能效率VS安全VS用户体验,此永恒的难题,项目实现中,我们做到了微突破。友好的用户体验少感知,50ms内全交易链路处理能力。

  防护套件、CA平台、加密平台三板斧的服务协同治理,抽取各层次安全防控,突破以往单点独立防护,叠加增填的防护几何效益,提供支付整个生命周期安全可控可审计

  可供支付行业借鉴。支付环节下整个交易、整条链路的安全保障。确保用户的支付安全、企业数据安全和交易链路安全。

  可形成产品化对话输送能力。快速复制、模板化提供能力。

  跨行业示范效应。相辅相成,模块化服务治理数据服务,内部数据安全防护,外部防盗刷钩子破坏威胁。

  案例五:数据库快速无损切换装置项目

  案例摘要:

  《数据库快速无损切换装置项目》是建立在Oracle数据库的集群+DG的架构基础上。可实现在主库不可用的时候把应用连接快速切换到主库上,且切换过程无数据丢失。Oracle的DG实现了数据库主从结构,当主库挂掉后可以通过Oracle自己的方式切换到从库继续服务。但是这种切换要么切换时间超长,要么切换后会有少部分数据丢失。现有的互联网形态,要求数据可以7*24小时不间断的服务。长时间的停止业务或者数据丢失都会造成资损,这是互联网公司所不愿看到的。为了解决快速切换的问题,开发了一套能够实现无损的快速DG切换装置。当检测到数据库问题时,可以自动实时地进行数据库切换,达到业务的持续高可用的目的。

  案例背景:

  数据库架构的好坏取决于其持续不间断提供服务的时间,但是随着业务的发着以及一些意外的情况,总会遇到各种宕机的情况。此时通过切换数据库来达到业务持续高可用的目的。

  需要解决的问题及解决方案:

  Oracle自带的switchover进行主从切换,主要特点如下:

  数据自带的DG切换方案,利用数据命令进行手工切换。

  能够实现在数据不丢失的情况下进行主从切换。

  切换完成后主备库角色发生转变。

  现有技术缺点如下:

  属于计划内的手工操作,无法处理紧急情况。

  切换时间较长,尤其是大数据库切换需要花费1个小时甚至更久。

  不能自动进行数据库状态检测,需要过多人工介入处理。

  上述以往的方案要么需要长时间的停机时间,要么会有数据损失。这些缺点无法满足现有的业务需求,因此本创新提供了一套装置,能够实现数据库主库宕机后快速无损的切换。实现服务的高可用。

  实现了主机状态检测、自动判断主机失效、自动切换的动能,能够实现快速切换、数据无损的要求。实现了再数据不丢失的情况下快速故障转移,提供更加高效的数据库服务。

  完整方案如下:

  本装置分为三个部分:数据库架构、数据库状态检测程序、数据库切换程序。本装置采用了非传统的Oracle数据库架构,利用此架构可以实现数据无损切换。检测程序用于实时检测主机状态,数据库切换程序实现了自动化主备切换。

  数据库架构

  如下图所示,基于上述DG架构进行的HA设计。上述架构利用oracle提供的DG+集群ASM搭建完成。首先主库和备库的数据文件放到本地磁盘中。日志文件通过集群管理放到共享存储中。日志中放到共享存储可以保证主库发生故障时,备库依然可以访问主库的日志信息,这样就可以在进行数据库切换的过程中读取相应日志文件,保证数据无损恢复,进而实现了无损数据库切换。


数据库状态检测程序

  装置中的数据库状态检测程序,数据库的自动化切换,最重要的是数据库的状态检测。首先我们需要确保数据库真的无法对外提供服务,才能进行数据库切换。以往的过程中,都是通过zabbix监控系统进行告警,然后人工登录机器进行查验。然后进行手工切换。这种方式耗时长,且反馈慢。一般到真正确定要切换已经半个小时过去了。这是的数据库服务不可用的时间极大的拉长。因此进行数据库的状态自动化检测是实现快速切换的首要目标。

  检测流程如下:

  1、检测是否有其他程序在进行切换,避免重复执行。

  2、检测主库是否可连接,已确认主库状态,判断是否可提供服务。

  3、检测网关是否可用,确认主备之间不会出现脑裂。

  4、检测ip是否可用,判断网络连接问题,并尝试进行修复。

  5、备库信息检测,检测备库是否有断档(一般不会出现),有断档说明备库也存在一定问题,此时不能进行切换。

  6、进入切换前检测。

  7、检测带外管理节点是否可用。

  8、对主库进行带外关机处理。

  9、进入切换主流程。

  数据库切换程序

  下面试此装置的核心功能模块,数据库切换流程。数据库切换流程完成了数据无损的情况下把主库切换到读库。此时主库应该处于关闭状态。详细流程如下:

  1、检查切换过程中的必要参数

  2、杀会话,确保切换过程中无业务数据影响

  3、登录本地数据库

  4、检测ASM磁盘组状态,确保ASM磁盘读库可识别

  5、检测备库状态

  6、检测控制文件状态,并备份备库控制文件

  7、关闭备库,并启动备库到nomount状态

  8、从ASM磁盘读取主库控制文件并在备库进行恢复

  9、启动数据库到mount状态

  10、注册所有数据文件和归档日志

  11、正式把备库切换为主库

  12、启动数据库,并处理temp表空间

  13、修改DNS(域名切换到现在主库),确保应用连接到现有主库。

  案例应用实践及效果:

  经在公司内部生产订单数据库使用上,发现切换时间可以控制在10分钟内。相比较于传统的从发现故障到进行手工处理快了不止三倍。实现了数据库高可用高实时的性能要求。

  方案前景:

  本系统能够实时发现数据库状态,并建立了数据库宕机状态的判别机制,在此判别的基础上完成数据库切换。

  在切换过程中通过共享存储完成redo日志的完整应用,保证了数据库切换的零数据丢失。实现了保证数据强一致性的要求。