金融科技创新联盟

首页 » 行业声音

人工智能 | 同盾科技李晓林教授：联邦学习用“小数据”实现“大智能”

时间： 2019-05-29 13:09 浏览次数：182 来源：未知

深度学习的挑战

如果我们追溯历史会发现，当下正值爆发期的人工智能技术，在过去60年间的发展是一个螺旋上升的增长曲线，期间遭遇过质疑，经历过寒冬。直到深度学习的出现，利用多层神经网络模拟人类大脑神经元的信息传递方式，才使得人工智能技术开始大放异彩。

从20世纪50年代引入感知器开始，到80年代多层感知器及反向传播算法，再到2010兴起的深度学习，几乎每三十年技术都会经历一次质的跃迁，与此同时自20世纪80年代以来，全世界的数据总量每三年就会翻一番。大数据促成了深度学习的腾飞，然而其背后的隐忧也随之而来。

数据垄断加剧数据孤岛林立

达维多定律认为在网络经济中，进入市场的第一代产品能够自动获得50%的市场份额。

尽管无数业界人士都发出过警惕数据垄断的呼声，但现实情况正在向少数巨头垄断，小企业获取数据困难，大大小小“数据孤岛”林立的局势滑落。

谁拥有最多数据，谁就拥有最大的话语权

如果没有数百万张图像和其他类型的标签数据，就无法训练真正的大型深度学习网络，换言之那些拥有大数据的公司可以创建各类预测模型来进行“操控”，比如脸书将5000万人的数据卖给剑桥分析公司，从而影响美国总统大选。近年来，欧美各国频繁颁布数据安全、隐私保护相关的政策，未来对于数据的使用将变得更加谨慎。

大数据高能耗

运行人工智能应用的大型网络需要巨大的运算能力，按照摩尔定律，计算机的运算能力每18个月才会翻一番，目前深层神经网络模型有数百万个单元和数十亿的权重，比人类大脑皮层中的神经元和突触的数量少一万倍，人的大脑本身就是一台超级计算机，功耗只有几瓦，而运行一台超级计算机则需要几百万瓦的能耗。高耗能对于深层神经网络的发展，将会是一个非常巨大的挑战。

为什么是联邦学习？

当前，大多数机器学习算法是在20年前开发的，那么现在是否存在一种算法可以把复杂问题变得简单化，既保证系统的复杂性泛化能力，又能求得最优目标函数，又能兼顾数据的安全性呢？

同盾科技副总裁兼人工智能研究院院长李晓林教授正在带领团队，致力于「联邦学习」技术的研发。李晓林是美国公立常春藤名校佛罗里达大学的终身教授，牵头创立了美国国家科学基金首家深度学习中心NSF CBL。

李晓林在某次同盾行业大会上，深度剖析了「联邦学习」所展现出的强大的应用前景。

同盾科技副总裁兼人工智能研究院院长李晓林教授

Q:「联邦学习」是个什么东西？

顾名思义，“联邦”的概念是脱胎于“联邦政府”、“联邦国家”而来，政治术语中联邦是指规定各州自治权保留给州政府，只有外交、军事等权限移交给联邦政府，在这样的框架安排下，各州共同组成一个国家。

「联邦学习」与其非常类似，它是一个采用分布式深度学习技术，参与各方在加密的基础上共建一个公共虚拟模型，训练和交互的全过程各方的数据始终留在本地，不参与交换和合并。

Q:「联邦学习」有什么优势？

李晓林介绍说：“联邦学习的好处是不求所有，但求所用。不管是联合建模或联合学习都不需要传输聚集大量数据，只需要做一些参数上面的交换，用‘小数据’就能实现‘大智能’，整个交互是非常轻量级的。

基于联邦学习去中心化的算法逻辑，使得参与各方没有一方能拥有所有的数据，也没有一方拥有所有的模型，共用开放数据，而不享有数据，能最大化保护数据安全和数据隐私。”

以对信息安全敏感度很高的金融为例。众所周知，银行内存在严重的“数据孤岛”问题。当下很多银行的做法较为“粗糙”，就是纯粹找来尽可能多的大数据，用量来“暴力”求解，但往往收效甚微，而且因为数据合规的限制，这样的模式也不可能长久。

Q:「联邦学习」是怎么另辟蹊径的呢？

李晓林教授说：“在联邦学习的模式下，模型训练的时候每个银行和金融机构，各自的数据不需对外输出，甚至连模型的参数都不用给到对方，只需要将模型梯度的变化告知另一方即可，对方从梯队的变化不一定能反推出你模型的参数情况。

在整个训练、交互过程中，模型尽管碰触了很多数据，但数据却始终没有离开本行和本机构，完全化解数据安全、合规的忧虑。这跟原来集中式的大数据模型，有截然不同的思维逻辑。未来在银行与银行、银行与金融机构、银行与金融机构和科技公司之间的合作，联邦学习必将走上历史舞台，成为主流。”

同时，在联邦学习的模式下，中小企业的话语权被前所未有的提升，前文我们提到谁拥有最多数据，谁就拥有最大的话语权。试想这样一个场景，一家中小企业跟国有大行合作，需要双方同样拿出100万的数据，但这或许已经是小企业所拥有的全部数据，对大行来说连零头可能都算不上。

看似平等的互换，实则不公平。

联邦学习会避免这个情况，银行和中小企业都没有数据流出的忧虑，对于银行来讲只要没有安全问题，拿出一亿和100万的数据对本地模型的意义是一样的。联邦学习就可以使大家都相对比较公平。

当然，基于去中心化、分布式的计算方式，还是存在一定的系统风险，李晓林教授说：“我们可以通过加密的手段，搭配区块链的手段去防范参数泄露的问题，即使攻击的一方技术极为高明，参数泄露其实会非常有限。” 他的团队也在进一步研发更安全的、能抵抗恶意攻击的算法及机制。

联邦学习不仅在泛金融领域展现出灿烂的商业图景，对于人工智能的发展路径也有着深远影响。联邦学习将是同盾科技研发的战略重心，目前已经有诸多创新在智能信贷、小微金融风控、反欺诈、用户分析等领域进行探索，同盾将以人工智能研究院为重要载体，在全球范围内广泛招揽中外顶尖人工智能、机器学习等领域的工程师和科学家，与万千家客户携手智能、开放共赢。

来源：智能风控联盟

特别提醒：如果我们使用了您的图片，或您不希望作品出现在本站，请作者与后台联系