首页 » 行业动态

【金融科技创新大会】金融科技创新联盟副秘书长、上海数据交易中心CEO特别助理兼北方区总经理牛双云:《大数据应用的安全与效

时间: 2019-01-03 17:31     浏览次数:138    来源:未知


2018金融科技发展论坛暨第三届中国金融科技创新大会于2018年10月12日在北京成功举办上海数据交易中心CEO特别助理兼北方区总经理牛双云出席大会并发表主题演讲 ,以下为牛双云的发言实录:

尊敬的陈司长,尊敬的靳区长,各位领导,各位嘉宾,大家上午好!我是上海数据交易中心牛双云。首先感谢主办方给我们这个机会,让我们介绍一下在数据互联领域我们做的一些实践。今天我演讲的题目是《大数据应用的安全与效率》。

上海数据交易中心是一家有官方性质的公司,2016年上海市政府在推动上海市大数据产业发展的过程中,发现大数据产业链上的相关企业,角色各不相同,有数据的供应方,有数据的加工方,还有数据的需求方,而且这些企业相互之间有些还是割裂。在大数据这个产业链上,数据作为生产资料,很难顺畅的合法合规的从产业链的上游向下游来流动,所以上海市人民政府提出大数据产业需要有五位一体的规划,交易机构是作为大数据产业的一个基础设施,我们希望在合法合规的前提下,更好地促进数据在数据的供应方、加工方和需求方之间的流动。

2016年4月份上海数据交易中心成立,我们是一家国有控股的混合所有制企业,同时还成立了上海数据交易中心监管委员会,我们是在上海市公安局、工商局、科委等委办局的联合监管下开展业务的。交易中心成立以来,政府给了我们三个任务:第一个是促进商业数据的流通,第二个是政府数据的共享和开放,第三个是在这个基础上我们开展针对数据流通领域的法律基础和方法的研究。成立两年以来,我们也获得了一些社会影响力,在2017年3月份,我们承接了国家发改委、中国大数据流通与交易技术国家工程实验室的建设工作,在这个过程中,我们作为牵头单位,联合了复旦大学、天津大学、西安交大等16所高校成立了课题组,承接了国家在大数据流通领域的一些相关研究课题。

在数据应用的场景下,所有数据都是有对象的,我们看这个数据是关于人的数据,或者那个数据是关于物的数据,或者这个数据是关于一个企业、一个家庭或者一群人的数据。我们面向所有的这些对象,我们归纳一下,我们把数据分为两类:第一类数据是关于对象本体的描述信息,我们把它叫做属性数据。举个例子,古代描述一个人,他面如重枣,身高八尺,这是他的生理特征,同时也是他的属性数据,或者说一个人担任社会职务,这是他的属性数据。第二类数据是对象本体和其他对象之间的关系,我们把它叫做行为数据,比如说一个人的运行轨迹,这个运行轨迹数据只是和这个人相关吗?不是的,其中还包括了物理位置,包括时间等和其他对象之间的关系,我们把它叫做行为数据,所以一个是属性数据,一个是行为数据,这是我们对数据概念的理解。

金融机构在业务发展过程中会自己产生数据,叫第一方数据,金融机构和上下游企业之间产生的数据,我们叫第二方数据,同时还有一种第三方数据,这个数据和我们的业务没什么关系,但是它的数据可能对我的业务有用,比如说运营商数据可能对金融行业的风控建模有些作用,或者说能丰富我的用户画像的维度。在数据应用的行业中,最难把握的就是第三方数据,而我们上海数据交易中心所聚焦的就是第三方数据的流动。这里面有两个最基础的问题需要解决,第一个就是个人隐私,或者我们说叫做个人的主体权利。我们通过研究各国的法律有一个基本的共同点,个人信息未经同意是不能使用的,这里有两个点:第一个是个人信息,第二是未经同意,这两个条件达不成,是不能使用的。第二个,第三方数据在使用的过程中,第三方数据的持有人总是有些担心,其中一个难点就是第三方数据如何进行流通?我使用你的数据,我们之间的数据互相流通,不是说把数据给到你就完了,我们之间约定有一个数据信息的流通,但是我们要注意,在流通过程中不能泄漏更多的信息。我们交易中心工作围绕以上两点来开展。

我们看一下数据应用中的一些难点。第一个,我们现在很多数据都是通过明文来存储的,我们的业务环节上的各个人员,或者是我们的合作伙伴,都有可能触碰到这些数据,那怎么办呢?我们内部存储的数据需要确权和分级,没有一定的权限你看不到相关的数据。第二个,现在比较热门或者是大家关注比较多的,就是个人信息如何和外界进行交互?现在个人信息在传输过程中泄漏太容易了,如果是非匿名化的个人信息,在数据流通的各个环节都是泄漏的潜在的风险点,如何进行匿名化的传输?后面我们有介绍。第三个,在数据应用的场景下,我们现在还有很多查数留痕的现象存在,我举个例子,比如说一个银行的信用卡中心收到一批信用卡用户的申请,我可能要对这些信息申请人做一些信息的核验,我找一个第三方公司,我提交他的身份证、手机号和姓名,你给我核验一下是否是一致,我拿到了核验结果,但是我的潜在用户信息也留在了第三方公司,这个第三方公司有没有可能拿着这些数据去其他的银行做一些获客的工作呢?所以这里面有个问题对外请求数据的时候要防止商业秘密的泄漏。

刚才说了几个难点,我们如何应对呢?我们有几个观点。

首先我们看一下数据传输的演变过程。最开始的时候是点线的传输,我的数据你来用,你的数据我来用,点对点传输。后来演变到新型分发,像现在的银联,有一个中心,我可以供应很多数据的需求方,演变到现在是网状互联的结构,我也有需求,你也有需求,数据供应方有很多,我们就在一个数联网的环境下获取数据,在这里面我们认为有三点值得关注:第一个,数据的标准,比如说我的性别是男,我可以打一个标签1,我打为1,但你打为2,标签不一致,带来很多不必要的麻烦。第二个,是安全的基础,我刚才也提到了数据流通过程中,有一些风险,比如个人信息的泄漏、商业秘密的泄漏,针对这些问题,如何建立安全的基础?我们的实践来看很难一个企业从头到尾把所有问题全部来解决,但是我们至少可以先做到一点,能不能做到首先先各扫门前雪,把我们之间的责任进行隔离,比如说需求方做好需求方的工作,供应方做好供应方的工作,我们属于流通方,我们把流通方的工作做好,我把双方的责任进行隔离,这样一来可以解决大家一些隐性的安全成本的问题。第三个,是效率的连接,我们对效率的连接的理解,重点是说我具有选择的权利,我现在业务发展很快,有很多新的数据需求,不能说一个数据供应方很大,你就把我绑死了,我也可以来到一个平台上,我的平台上有很多数据供应方,第一家不行找第二家,第二家不行找第三家,找到我所喜欢的数据。

下面我想给大家介绍一下我们对个人信息的理解。在中国的法律上,包括网安法,包括刑法第九条解释,对个人信息的理解,我们可以总结成一句话,关于谁的什么样的或者怎样的数据,这个谁就是这个用户的标识信息,通过这个标识信息我们可以精确地回溯到一个特定的人,比如说这是他的身份证,他的手机号,他的姓名,或者一个保单,我可以回溯到一个特定的人,这是一个标识信息。关于什么样的,就是我刚才提到的属性数据,这个人是不是面如重枣,身高八尺,这是他的属性信息,通过属性信息回溯不到一个特定的人,或者说他是男性,在上海数据交易中心工作,这是他的属性信息,后面怎样的数据就是他的行为信息,比如说他最近去过什么shopping Mall,或者他在网上浏览过什么购物的网站。这里有一个例子,比如标识性信息就是张三是男性,在交易中心工作,他最近浏览了购物车的信息,我们把后面这两项数据,两个数据一般做泛化的处理,比如你的年龄是65岁,我们就把你打的标签是老年人,你的年龄是20岁,我给你打的标签是青年人,经过泛化处理以后,我们形成两个信息,一个是标识信息和标签信息。个人信息就是由标识信息和标签信息两个所组成的,这里面最关键的一点是中间的一个关联性,我如果是把标识信息单独拿出来放在网上的话,是没有价值的,比如说只是张三这个信息,如果是把标签信息单独放在网上的话,这一条标签信息,一个男性在交易中心工作,近期的购物车信息,基于这个认识,我们和公安部第三研究所一起开发了基于xID的匿名化的数据传输交易平台。

这里我有一个案例,比如说一个大数据不正当竞争的法院的判例,就是淘宝起诉另外一家公司,这个案例有几个结论,我想给大家说一下。

第一个,我们如果数据要合法合规传输,首先数据的采集要合法,你数据采集过程中,不管是经过了用户的授权或者说我有一个格式合同,我一定是合法的,这是第一点。

第二个,数据的需求方在请求查询的时候,我要得到授权。我的通话记录和运行轨迹已经被采集下来了,但是没有经过授权别人是不能查询,如果没有经过授权,警察也不能查询的,一头一尾解决处理,中间采用匿名化的传输方式,下面我给大家做一个演示。比如说数据的需方想查询张三后面的标签,通过张三的授权查询张三后面的标签,比如说他是不是经常会坐头等舱,怎么做呢?首先做第一步工作,我们把标识和标签分开,张三经常坐头等舱,我们把这个信息分成两部分,张三一部分,标签他经常坐头等舱,分开以后,我们分别通过xID技术在需方和供方把标识生成两个不同的代码,一个生成101,第二个生成201。第二步我们这两个代码在交易中心进行mapping,如果mapping上了,说明数据的供方有这个需方的数据。Mapping上了之后怎么办呢?我们的数据供方单独把这个标签通过另外一个通道传递给数据的需方,这样一来就实现了数据在传输过程中的匿名化,如果我的数据传递就算在传递过程中,他喜欢坐头等舱这个标签被人看到了,也是没有风险的。

以上就是我们数据传输的匿名化的演示,在这儿我给大家列出了几个法律和法规,包括中国的,包括外国的。大家可以看一下这些法律法规,有一个共同的特点,有一个词出现的频率特别高,就是“标识”(identify)两个字,如果大家拿到的数据没有经过授权,但是可以标识到一个特定的个人,大家都要警惕了。

以上就是我演讲的主要内容。在过去两年的实践中,我们认为在数据流通领域,如果是数据供应方采集合法,数据需求方是授权查询,再加上数据的流通方采用匿名流通的方式,我相信这个路应该可以越走越宽的。谢谢大家!