资源描述
2021-2022数据价值释放与隐 私保护计算应用研究报告 前言2020年10月,中华人民共和国国民经济和社会发展第十四个五年规划和2035年远景目标纲要(以下简称“十四五”规划纲要)提出“加快迎接数字时代,激活数据要素潜能,推进网络强国建设,加快建设数字经济、数字社会、数字政府,以数字化转型整体驱动生产方式、生活方式和治理方式变革”,强调以数字化转型驱动生产方式、生活方式和治理方式的变革,以此来实现加快数字化发展、建设数字中国的远景目标,充分释放数字红利谱写数字中国新篇章。政策红利释放,激活数据流通市场需求。数据作为数字化转型 核心驱动力,其流通共享对打造数字经济新优势、加快数字社会建设步伐、提高数字政府建设水平与营造良好数字生态具有重要意义。着眼数据的高效共享与协同应用,我国密集出台中共中央国务院关于新时代加快完善社会主义市场经济体制的意见中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见全国一体化大数据中心协同创新体系算力枢纽实施方案网络安全产业高质量发展三年行动计划(2021-2023)(征求意见稿)等多项政策,充分体现了国家对数据生产价值以及市场贡献的高度肯定。持续释放的政策红利有效激活了数据开放共享与利用的市场需求。 合规监管助力,拓展数据流通市场空间。立足于数字化转型发展实践中数据安全以及个人信息保护的迫切需求,我国陆续发布了中华人民共和国民法典中华人民共和国数据安全法(以下简称数据安全法)中华人民共和国个人信息保护法(以下 简称个人信息保护法)等法律,充分体现了数字时代国家对于维护数据安全及个人信息保护的信心、雄心和决心。各领域法律法规相互衔接补充纵深发展、逐步细化,构建了以中华人民共和国网络安全法数据安全法个人信息保护法为核心的数字安全法律体系,着重强调了在兼顾数据安全和个人信息保护,保护个人、组织的合法权益,维护国家主权、安全和发展利益的同时,促进数据的开发利用。日趋完善的数据安全合规监管框架进一步拓展了数据安全流通的市场空间。多重部署加码,隐私保护计算前景可期。在日趋严格的合规监 管、日渐强化的政策引导以及日益旺盛的市场需求等多重背景下,为有效打破数据流通壁垒、促进数据价值释放,隐私保护计算因从技术角度实现了数据价值的共享流通和协同应用,有效促进了数据这一新型生产要素经济价值最大程度地发挥而备受关注。当前,隐私保护计算技术在金融、医疗、政务等领域已具有初步的应用探索。但受制于隐私保护计算前沿技术了解不详、数据安全和个人信息保护政策法规理解不足、产业落地缺乏参考等诸多因素,使得隐私保护计算技术尚未实现规模化的应用。在前期隐私保护计算技术研究报告隐私保护计算与合规 应用研究报告研究基础上,本报告聚焦隐私保护计算技术产业落地缺乏参考的问题,对数据、数据价值、隐私保护计算如何助力数据价值释放以及在金融、医疗、政务领域场景的应用价值进行探讨与探索,为隐私保护计算技术的应用落地及数据价值释放提供参考。 目录一、数据概念内涵及价值.1(一)数据定义.1(二)数据的特征.2(三)数据的价值.3(四)隐私保护计算助力数据价值释放.5二、隐私保护计算技术概述.8(一)隐私保护计算及其关键技术.8(二)基于隐私保护计算技术的数据流通模式.10(三)基于隐私保护计算技术的数据流通场景.13 三、隐私保护计算技术落地应用案例.14(一)金融行业应用案例.14(二)医疗行业应用案例.36(三)政务行业应用案例.46四、隐私保护计算技术应用困境及建议.52 图目录图1 DIKW模型.4图3数据价值释放路径模型.8图2基于隐私保护计算技术的数据流通模式.11图4银行与外部数据源对接示意图.17图5横向联邦反欺诈模型指标对比.23图6基于匿踪查询技术提供银行间隐私黑名单查询服务.24图7匿踪查询业务流程.25图8隐匿查询双盲方案.28图9数据流与管控流分离.28 图10基于区块链隐私保护计算的大数据智能风控产品技术架构.33图11联合建模前后不良贷款率对比.35图12融合外部数据的建模效果.35图13全基因组关联分析结果的曼哈顿图.40图14传统方案和隐私保护计算平台技术方案架构对比.40图15基于隐私保护计算服务平台的联合DRG建模的流程. 44图16 PHEV与BEV充电负荷曲线. 50图17电动汽车充电总负荷曲线.50 表目录表1 DIKW模型解释.5表2基于数据流通的场景分类.13表3传统计算方案与隐私保护计算反欺诈方案对比.18表4传统计算方案与隐匿查询双盲方案对比.29表5传统解决方案与隐私保护计算解决方案对比.34表6 P值最高的单核苷酸多态性列表.39表7传统方案和隐私保护计算平台技术方案性能对比.41表8传统技术方案与安全计算平台创新方案对比.51 数据价值释放与隐私保护计算应用研究报告(2021年) 1 一、数据概念内涵及价值数据并非新生事物,但是数据的价值释放需以明确数据、数据价值、数据特征等相关概念为前提。本章尝试对数据、数据特征和数据价值进行定义,抛砖引玉,以供社会各界参考及讨论。(一)数据定义根据数据安全法定义,“数据,是指任何以电子或者其他方式对信息的记录。”该定义在法律层面明确了数据的记录方式,并将“数据”和“信息”进行区分。国际数据管理协会(DAMA)认为, “数据是以文本、数字、图形、图像、声音和视频等格式对事实进行的表现”,对“数据”存在的不同形态进行了列举,且指出“数据”是对事实的表现1。标准ISO/IEC 11179-1:20152将“数据”定义为“以适合于交流、解释或处理的形式化方式对信息进行可重新解释的表示”,该定义强调了“数据”的电子性质,其认为“数据”是对它代表的对象(信息)的解释;且该解释方式必须是权威、标准、通用的,只有这样才可以达到通信、解释和处理的目的。统计学将“数据”定义为“用于表示和解释而收集、分析和总结后的客观事实和数字符号”,并将“数据”分为定性数据和定量数据。根据我国权威科学技术名词 审定机构全国科学技术名词审定委员会审定,在计算机科学技术中,“数据”是客观事物的符号表示,指所有可输入到计算机中并可被计 数据价值释放与隐私保护计算应用研究报告(2021年) 2 算机程序处理的符号的总称;在管理科学技术中,“数据”是描述事件或事物的属性、过程及其关系的符号序列,比如自然语言符号、科学符号、数字以及图形图像等。“数据”的定义虽未实现完全的统一,但结合上述定义分析,我们认为“数据”的定义包含了两个核心内涵:一是描述客观事实。数据是对感知到的客观事实进行描述或记录的结果,是对现实世界中的时间、地点、事件、其他对象或概念的描述。二是须符号化表达。数据须被符号化表达,方能被有效识别。如数字、文字、字母、声音、图片、视频等。综上,我们认为数据是对感知到的客观事实进行描述 或记录的符号或符号集合,如数字、文字、字母、声音、图片和视频等,是未经处理的原始素材。(二)数据的特征事实相关性:数据是对客观事实的描述,是与客观事实相关的、无序的、未经加工处理的原始材料。须符号化表达:数据本身是对事实的记录和描述,且必须以某种符号或符号集的形式进行表达。可比特化记录:无论表达数据的符号是数字、文字、声音、图片 或视频等,都可用二进制的比特符号统一记录。任何数据都可以被编码为一系列0和1组成的二进制序列。蕴含价值性:数据本身并没有任何意义,其所蕴含的意义与价值是从数据本身当中“挖掘”“创造”而来的。因此,数据必须是可计算、可推理演绎、可解释、可分析、可挖掘的。 数据价值释放与隐私保护计算应用研究报告(2021年) 3 (三)数据的价值数据通常是一个不言自明的概念,但数据的价值究竟应该如何体现,目前却少有研究。多数场景下,数据的价值往往被从数据资产的角度进行解释,但数据资产化仅仅表达了数据的经济价值,对数据助力社会服务、国家治理等公共价值的表达极为有限。知识管理体系中的“数据-信息-知识-智慧”(Data-Information-Knowledge-Wisdom,DIKW)模型对于数据价值的描述和理解为我们提供了参考(如图1所示)。基于该模型,我们认为“数据的价值”可以被直接理解为是由“数据”提炼的“信息”、由“信息”归纳出的“知识”、由“知 识”通悟的“智慧”,并可用以指导我们的决策。通过决策来驱动生产方式、生活方式和治理方式的变革,进而间接实现数据的经济价值、社会价值、国家治理和安全价值的公共价值。虽然目前关于DIKW模型的起源尚未得到严谨的说明,但对于DIKW模型的理解(如表1所示),目前相关领域已达到初步共识,且被广泛应用在信息管理、信息系统和知识管理等领域。 数据价值释放与隐私保护计算应用研究报告(2021年) 4 来源:中国信息通信研究院图1 DIKW模型数据:数据是对感知到的客观事实进行描述或记录的符号或符号集合,如数字、字母、声音、图片和视频等,是未经处理的原始素材,解决“知有无”的问题。信息:信息是对无序数据进行加工、提炼获得的有意义的、有逻辑的、有关联性的数据。信息比数据更“紧凑”,更“有用”,通常描述何人、何时、何处、何事等,解决“知是何”(Who,When, Where,What)的问题。知识:知识是从积累的相关信息中通过过滤、总结等方式得到的,被用来解释和指导行动的信息,是经验所得的判断。知识可用来了解“为什么”以及“怎样做”,解决“知为何”(Why)和“知何为”(How-to)的问题。 数据价值释放与隐私保护计算应用研究报告(2021年) 5 智慧:智慧是在知识的基础上,通过经验、阅历累积,试图理解过去未曾理解或未尝试过的事物,形成对事物的深刻洞察以及对事物的未来发展具有启示性、前瞻性的看法,体现为一种卓越的判断力,解决“知最优”(What is best)的问题。而智慧的应用又可以指导产生新的数据。表1 DIKW模型解释数据信息知识智慧核心内涵陈述Representation描述Descriptions解释和指导Explanations &Instructions预测和判断Prediction 特征事实依赖/无意义有意义/逻辑性本质性/原则性/经验性/指导性启示性/前瞻性解决问题知有无知是何what,when,who,where知为何、知何为why,how to知最优what is thebest时间维度过去和现在未来意义指导“正确”做事规划做“正确”的事来源:中国信息通信研究院数据、信息、知识和智慧同时兼具经济价值、社会价值、国家治理和安全价值等多重价值,其价值可以体现在由数据处理的信息、由信息升华的知识、以及由知识理解的智慧上。数据、信息、知识、智 慧皆能够指导做出科学的决策,以此带来新的价值增值。值得注意的是,数据、信息、知识、智慧依赖于语境等背景知识,彼此之间并非割裂。在进行数据、信息、知识和智慧的研究与应用时,要结合相应的具体背景知识,不能简单、片面、割裂的理解。(四)隐私保护计算助力数据价值释放立足国家“十四五”规划纲要的“数字中国”远景目标,隐私保 数据价值释放与隐私保护计算应用研究报告(2021年) 6 护计算技术助力加快驱动生产、生活、治理方式的变革,以及营造良好数字生态。1.打造数字经济竞争优势,驱动生产方式变革在数字经济建设方面,数据凭借其可复制、可共享、可无限供给的特点,助力产业实现精细管理、精益生产、精准营销、精确规划等提升,以此降低经济运行成本、提高经济运行效率、赋能传统产业转型升级,催生大量新产业、新模式、新业态。依托数字经济中的海量数据规模和丰富应用场景优势,隐私保护计算技术助力打破“数据壁 垒”,推动数据赋能全产业链协同转型,助力形成高质量供给创造新需求、需求牵引供给的动态平衡,促进国民经济良性循环。2.加快数字社会建设步伐,驱动生活方式变革在数字社会建设方面,隐私保护计算在助力推进学校、医院、养老院等公共服务机构实现资源数字化的基础之上,有助于进一步加大开放共享和应用力度,推动线上线下公共服务协同发展、深度融合,提高公共服务能力的便捷性,以及数字服务应用的普惠性。此外,对于基层、边远和欠发达地区,通过隐私保护计算技术,可在保护数据 安全和隐私的情况下,助力扩大公共服务资源辐射覆盖范围,有效缓解“数字鸿沟”,提高“数字弱势群体”及人民群众对公共服务的获得感和满足感,促进社会运行方式变革,构建全民畅享数字红利的数字生活。3.提高数字政府建设水平,驱动治理方式变革 数据价值释放与隐私保护计算应用研究报告(2021年) 7 在数字政府建设方面,隐私保护计算在助力确保公共安全的前提下,有助于提高数字化政府工作效能,实现数据跨部门、跨层级、跨地区汇聚融合、深度利用和高质量协作。具体体现在三方面,一是有效推动公共数据资源开放,以增强公共数据资源开放的透明度、增加政府公信力;二是有序推进政务数据资源共享,以提升协同治理能力;三是全面深化公共数据资源利用,以提高政府决策制定的科学性、专业性和时效性,助力政府精准施策。4.激发安全技术创新活力,营造良好数字生态 隐私保护计算在提供数据安全和个人信息保护能力的基础上,一是从技术角度实现“数据”向“数据价值”流通的升维,破除既有数据壁垒;二是凭借其坚实的理论基础和安全性证明,加强数据应用透明度,增进数据价值利用下的安全保护信任,有效缓解数字经济发展中的数据安全和个人信息保护的信任危机,弥合信任鸿沟;三是助力实现数据合规应用中的数据最小化、数据分类分级和数据匿名化,促进数据应用的合规化发展。如隐私保护计算技术通过联邦学习的控制用法用量、安全多方计算实现目的受限,机密计算的授权代码运行等实现数据最小化。 综上,“十四五”规划纲要强调以数字化转型驱动生产方式、生活方式和治理方式的变革,而隐私保护计算技术的出现,为充分发挥海量数据和丰富应用场景优势,有力促进数字技术与经济社会发展各领域融合发展,加快实现数字化发展、建设数字中国的远景目标提供了重要的基础(如图3所示)。 数据价值释放与隐私保护计算应用研究报告(2021年) 8 来源:中国信息通信研究院图3数据价值释放路径模型二、隐私保护计算技术概述(一)隐私保护计算及其关键技术隐私保护计算(Privacy-Preserving Computation)是一套包含人工智能、密码学、数据科学等众多领域交叉融合的跨学科技术体系3。它能够在不泄露原始数据的前提下,对数据进行加工、分析处理、分析验证,其重点提供了数据计算过程和数据计算结果的隐私安全保护 能力。随着数字技术的发展,隐私保护计算的内涵及主流技术不断演进。主流的技术研究焦点从早期的数据扰动和数据匿名化等演进至今,已经能够实现数据计算过程和数据计算结果的保护,形成一套包含众多领域的跨学科安全技术体系。隐私保护计算具体涵盖了安全多方计算、联邦学习、同态加密、差分隐私和机密计算等技术。安全多方计算(Secure Multi-Party Computation,SMPC),由中国科学院院士姚期智于1982年通过“百万富翁问题”提出,旨在解 3中国信通院隐私保护计算技术研究报告 数据价值释放与隐私保护计算应用研究报告(2021年) 9 决“一组相互独立且互不信任的参与方各自持有秘密数据,协同计算一个既定函数”的问题。安全多方计算保证了各参与方在获得正确计算结果的同时,无法获得计算结果之外的任何信息。联邦学习(Federated Learning,FL),可被理解为是由两个或两个以上数据方共同参与,在保证数据方各自原始数据不出其定义的安全控制范围的前提下,协作构建并使用机器学习模型的技术架构。通常情况下,联邦学习需与其它隐私保护计算技术联合使用,才可在计算过程中实现数据保护。同态加密(Homomorphic Encryption,HE),是一种允许在加密 之后的密文上直接进行计算,且计算结果解密后与基于明文的计算结果一致的加密算法,可在不解密以实现数据机密性保护的同时完成计算。根据支持密文运算的程度,同态加密方案可以分为部分同态加密方案和全同态加密方案两类。部分同态加密方案能够支持有限的密文计算深度,常作为其他方案的组成部分之一进行使用。而全同态加密理论虽支持无限次任意给定函数的运算,但由于计算开销较大,目前尚未形成规模化的商用。差分隐私(Differential Privacy,DP),是Dwork在2006年针对数据库的隐私问题提出的一种严格的、可量化的隐私定义和技术。差 分隐私在保留统计学特征的前提下,去除个体特征以保护用户隐私。差分隐私具有两个重要的优点:一是提出与背景知识无关的隐私保护模型,实现攻击者背景知识最大化的假设;二是为隐私保护水平提供严格的定义和量化评估方法。 数据价值释放与隐私保护计算应用研究报告(2021年) 10 机密计算(Confidential Computing,CC),机密计算是指通过在基于硬件的可信执行环境中执行计算来保护数据应用中的隐私安全的技术之一。其中可信执行环境定义为可在数据机密性、数据完整性和代码完整性三方面提供一定保护水平的环境4。其基本原理是将需要保护的数据和代码存储在可信执行环境中,对这些数据和代码的任何访问都必须经过基于硬件的访问控制,防止他们在使用中未经授权被访问或修改,从而提高机构管理敏感数据的安全水平 5。除上述技术外,隐私保护计算技术还包含了秘密共享、不经意传输、混淆电路、零知识证明等诸多技术方向,在此暂不一一赘述。(二)基于隐私保护计算技术的数据流通模式在实际应用中,根据数据流通方式、数据集中程度、模型复杂度等差异化的业务场景,从技术角度来说,基于隐私保护计算技术的数据流通方式可分为可信环境模式、可证模式和可度量模式三类(如图2所示): 数据价值释放与隐私保护计算应用研究报告(2021年) 11 来源:中国信息通信研究院图2基于隐私保护计算技术的数据流通模式1.可信环境模式可信环境模式,是以机密计算技术为核心,在基于硬件的可信执行环境中执行计算,保护数据应用中的隐私安全的集中式计算模式。该模式本质上是一种集中式的数据计算模式,需以各参与方的强信任关系为前提,将各参与方的数据进行集中式汇总,并利用集中汇总的数据进行模型训练。 因该模式将数据进行了集中汇总,故可进行非常复杂的计算,具有效率高、网络延迟低等优势,但难点在于如何构建各参与方的强信任关系。该模式通过基于硬件的可信执行环境构建参与方的信任关系,其信任的基础是对可信执行环境的信任。目前市场上技术成熟的厂商主要有Intel SGX,ARM TrustZone等,较容易产生供应商锁定等供应链安全问题。该模式的核心技术包括机密计算的可信执行环境等,辅助技术包括差分隐私等。 数据价值释放与隐私保护计算应用研究报告(2021年) 12 2.可证模式可证模式,是以安全多方计算和同态加密等密码技术为核心,支持在无可信第三方的情况下,各参与方协同计算一个既定函数的分布式计算模式。在该计算模式下,中间数据均以密态呈现。所谓“可证”是指数据的运算态或结果态的安全性可由其使用的密码算法的理论安全性来证明提供。该模式的优势是其采用基于密码学的安全多方计算和同态加密等技术,凭借其坚实的理论基础和可证明的安全性,获得了较强的安全性保障。但是由于该模式包含复杂的密码学操作,实现相关技术需 要付出较大的性能代价,对性能提出了严峻的挑战。对于一些计算复杂度较低的场景,该模式已取得良好的应用效果。该模式的核心技术包括安全多方计算、同态加密等,辅助技术包括可信执行环境、差分隐私等。3.可度量模式可度量模式,是以差分隐私技术为核心,可对数据计算过程中的隐私泄露风险进行量化评估的数据流通模式,该技术通常与联邦学习等其他技术结合使用。例如,在联邦学习中,中心节点需对各方模型 更新的中间结果进行聚合,但此过程中存在数据重构时的攻击风险。差分隐私可在各方数据出域前,通过施加随机噪声的方式保护中间结果,并度量这些噪声带来的隐私保护效果。该技术的优势是能够实现隐私风险的量化评估,但是会对数据的精度形成不可忽略的影响,因此对精度要求较高的场景需酌情使用。 数据价值释放与隐私保护计算应用研究报告(2021年) 13 该模式的核心技术包括差分隐私、联邦学习等,辅助技术包括可信执行环境、安全多方计算、同态加密等。(三)基于隐私保护计算技术的数据流通场景基于当前隐私保护计算技术的应用场景,其数据的流通场景主要包含单数据方的主动开放、无数据方的申请使用以及多数据方间的联合计算(如表2所示)。表2基于数据流通的场景分类序 号特点介绍参与方式需要保护的数据隐私保护相关技术典型应用场景1单数据方主动开放数据拥有方主动发起(单方)。发布数据的个人信息和敏感内容。差分隐私等公共管理和服务机构开放符合开放条件的公共数据等。2无数据方申请使用无数据方提供查询条件、并申请查询;数据方根据查询条件进行查询并反馈查询结果。无数据方查询条件中的隐私信息;数据拥有方的数据PSI、PIR等征信查询、订单查询、敏感疾病查询等。3多数据方联 合计算双方或多方各数据方的数据安全多方计算、联邦学习、可信执行环境联合风控、联合营销等。来源:中国信息通信研究院一是单数据拥有方主动开放数据。通常为公共管理和服务机构对符合开放条件的公共数据进行开放。为保障数据安全及个人隐私,在对数据进行脱敏处理或使用差分隐私等技术时往往会给数据加入噪声。如美国人口普查局会在发布人口数据时使用差分隐私技术进行保护处理,在保证数据的统计信息的基础上,避免泄露详细的个人信息, 数据价值释放与隐私保护计算应用研究报告(2021年) 14 保障了数据和个人隐私的安全。二是无数据方申请使用数据拥有方的数据。在此场景下,无数据方需向数据拥有方提供查询条件,数据拥有方根据查询条件进行查询并反馈相关结果。借助隐私保护计算技术能够实现数据库数据及查询条件的“双盲”,以此保护数据和个人隐私的安全。相关的支撑技术包括隐私集合求交PSI和隐私信息检索PIR等。三是多数据拥有方联合计算。两个或多个机构之间基于某种业务需求,将各方数据进行联合计算和分析。该类跨机构进行数据联合计算的场景是当前业界研究和应用最多的场景。三、隐私保护计算技术落地应用案例 (一)金融行业应用案例1.基于隐私保护计算纵向联邦的银行交易反欺诈案例(1)业务背景以云计算、区块链、大数据等为代表的新一代信息通信技术,正在加速金融业与信息科技的创新融合。金融科技(FinTech)在使支付、借贷、投资、保险等金融服务变得高效便捷的同时,也为银行业带来了申请欺诈、交易欺诈和营销欺诈等欺诈风险。申请欺诈是指在信贷申请阶段存在的恶意逾期、中介代办、内外勾结、团伙欺诈等行 为;交易欺诈指第三方在客户不知情的情况下,非法利用他人账户进行的账户盗用、伪卡盗刷等行为,以及内部员工在支付和交易过程中的违规操作、骗取客户或行内资金等行为;营销欺诈是指黑产利用金 数据价值释放与隐私保护计算应用研究报告(2021年) 15 融机构发放新用户红利时的推广活动漏洞,进行非正常参与、非法获取营销红利,致使金融机构遭受损失的行为。欺诈行为攻击对象不确定、犯罪主体难追踪、外部欺诈风险涵盖范围广、防控难度大等原因使得金融欺诈成为导致银行业受损最严重的风险之一。据国外研究机构统计,欺诈风险每年导致的银行业受损金额高达近千亿美元,国内银行每年因欺诈风险损失的金额也高达上百亿元。(2)传统方案 近年来,基于机器学习和大数据的反欺诈风控技术迅猛发展,银行业在反欺诈风控领域取得一定的进步,大部分银行均构建了实时交易反欺诈系统,基于银行已有的业务数据,结合专家规则与机器学习模型来甄别交易欺诈行为。然而,在巨大的经济利益驱使下,金融交易欺诈黑色产业链愈发成熟,其技术和手段不断升级迭代,传统的基于机器学习和业务数据的反欺诈风控技术捉襟见肘,为金融行业的交易反欺诈工作带来了巨大的挑战。(3)业务痛点 特征维度不足:对于绝大多数银行机构,反欺诈的最大难题是反欺诈模型建立过程中数据来源单一,单纯依靠自身业务数据构建出的反欺诈模型识别准确度极低。随着黑色产业链智能化与集团化发展,各类欺诈手段的特征越发隐蔽、难以察觉,且跨行业欺诈逐渐成为常态,单次欺诈行为贯穿社交媒体、银行APP等多个工具,各机构的单方数据无法应对。例如,在利用社交网络进行金融欺诈的场景中, 数据价值释放与隐私保护计算应用研究报告(2021年) 16 社交网络服务提供商掌握黑客针对用户的广撒网、常以中老年人群为目标等行为的特征;银行则掌握受害者在被欺诈后,向黑客转账以及后续资金转移时间、流向等特征;双方数据的特征割裂,均不足以独立实现对欺诈行为的有效识别。数据安全与共享利用的矛盾:数据作为企业的核心竞争力之一,各企业不断加强对数据处理和利用的重视程度,但同时,日益频发的个人信息泄露和数据安全事件引发大众广泛关注,数据使用与隐私保护之间的矛盾日益突出。随着近几年国内外一系列数据安全与隐私保护相关政策法规的出台,以往的粗放式数据收集、使用与交易模式将 被严格规范和限制,如何在数据安全框架内促进数据的共享利用成为下一阶段的重要议题。解决方案碎片化:为优化反欺诈效果,银行采取了诸多措施,例如,采购外部反欺诈评分类产品、构建全域反欺诈关联网络等。但各类措施大都聚焦于业务流程的单个环节(如身份识别认证、欺诈行为识别、信用等级识别等),无法覆盖业务全流程的欺诈风险。业务流程各环节的反欺诈解决方案部署割裂,整体协同配合困难,致使银行机构反欺诈能力发挥受限,业务反欺诈效果不佳。综上,如何在有效保护数据安全的前提下,合法合规地利用内外 部数据,丰富样本数据特征维度,构建更加精准的反欺诈风控模型,提升反欺诈能力,是当前各类银行的当务之急。(4)实践案例 数据价值释放与隐私保护计算应用研究报告(2021年) 17 针对银行当前反欺诈管理中遇到的特征维度不足、安全与利用矛盾、解决方案碎片化等困境,基于联邦学习等隐私保护计算技术的“数据+平台+模型”一体化解决方案,通过实现银行与外部机构在反欺诈场景下的跨行业数据链接,联合了金融交易特征、社交行为特征和相关人员特征等多维度特征信息构建反欺诈模型,实现更精准有效的交易欺诈甄别,提升银行机构交易反欺诈能力。在整体方案实施中,需在银行机构部署隐私保护计算节点,通过隐私保护计算节点与数据源生态完成对接(如图4所示)。 来源:隐私保护计算服务提供商图4银行与外部数据源对接示意图首先通过隐私保护计算平台的PSI功能6,以纵向联邦的方式,将银行机构准备的反欺诈样本数据与外部数据源进行隐私求交,获取多方的交集客户信息,在银行客户三要素信息(姓名、身份证号、手机号)不出库的前提下,完成银行与外部数据源之间的数据样本对齐。 6PSI功能:允许持有各自集合的两方共同计算两个集合的交集。在协议交互的最后,一方或是两方应该得到正确的交集,而且不会得到交集以外另一方集合中的任何信息。(崔泓睿,刘天怡,郁昱等:多方安全计算热点:隐私保护集合求交技术(PSI)分析研究报告,2019.) 数据价值释放与隐私保护计算应用研究报告(2021年) 18 然后,运用隐私保护计算平台的特征工程与模型训练模块,完成反欺诈模型训练与调优工作。从效果上看(如表3所示),该隐私保护计算反欺诈解决方案帮助银行安全引入客户的支付行为、设备信息、社交习惯等数据,提升了反欺诈模型的准确性和效率,通过隐私保护计算技术构建的反欺诈模型的模型评估指标AUC7可以达到0.82,模型风险区分能力指标KS8达到0.51,模型效果有较大提升。表3传统计算方案与隐私保护计算反欺诈方案对比 方案反欺诈模型准确性反欺诈效率是否引入同行业标签是否引入其他行业数据源实时性传统方案低低否否低隐私保护计算反欺诈方案高高是是高来源:隐私保护计算服务提供商(5)实践价值隐私安全:此实践中隐私保护计算方案使用的秘密分享、全同态、半同态加密等技术,确保了每个计算节点在整个计算过程中都无法看到其他参与方的任何隐私信息,最终结果输出只有发起方有权限查看, 其他计算节点无法获取,从而确保了应用过程的隐私性。同时,在产品逻辑上,半诚实模型与恶意模型的实现,也保证了各方隐私信息的安全不泄露,不会在通信层面或者非数据方节点有任何隐私数据留存。 7AUC:机器学习领域中的一种模型评估指标:其值越接近1则代表模型效果越好。8KS:机器学习领域中的一种模型风险区分能力评估指标:其值越大则模型的风险区分能力越强。 数据价值释放与隐私保护计算应用研究报告(2021年) 19 自动化编译引擎:首先,隐私保护AI编译器以底层数据流图9的视角揭示了机器学习算法和对应的分布式联邦学习算法的联系,可通过数据流图变换完成两者间的自动转换。其次,数据流图变换具有通用性,可以适配上层多种机器学习算法,如逻辑回归、贝叶斯分类、神经网络等。从数据流图的视角,分布式联邦学习变换可以理解为将整体数据流图切分为若干子图分布到各隐私保护计算参与方,并保证子图交互的部分(通信部分)以隐私保护的方式进行。简而言之,该引擎将隐私保护计算各参与方使用的不同算法“格式化”为统一算法,避免了各方分别转换算法所需的定制化改造带来的巨大工作量和时 间成本。安全可验证:受限于密码学证明方式与联邦学习领域的结合不够深入,传统模式无法做到安全性的自动化验证。隐私保护计算方案可全方位实现事前、事中、事后的安全评估验证。同时,以底层数据流图的视角揭示算法和对应的分布式联邦学习算法的联系,使得运算流程透明可见、可审计。高度适配产业需求:相比人工编译模式,隐私保护算法的构造速度指数级提升,系统整体运行速度是典型架构模式的20-40倍,能够在实施难度、系统效率、安全可视等方面满足工程、业务、运维、安 全等各方面综合需求,具备成熟的商用推广模式。2.中小银行间横向反欺诈建模和黑名单共享案例9数据流图(Data Flow Diagram):简称DFD,它从数据传递和加工角度,以图形方式来表达系统的逻辑功能、数据在系统内部的逻辑流向和逻辑变换过程,是结构化系统分析方法的主要表达工具及用于表示软件模型的一种图示方法。 数据价值释放与隐私保护计算应用研究报告(2021年) 20 (1)业务背景风控能力一直被视为银行机构的核心能力,但目前行业内各梯队风控能力悬殊。大型银行在风控技术和经验上的优势极为明显,尤其在互联网平台的流量加持下,吸引了更多客户,从而积累了更丰富的数据,使得依托于客户数据规模的风控优势进一步扩大。与大型银行优势地位形成鲜明对比的是,中小银行的风控处境比外界所见的更加困难。一方面,大型国有商业银行或股份制商业银行的地方分行依托相对较低的利率和资金成本,更易吸引信用记录良好、资产结构良好、资产负债率较低等资质较优的客户,留给地域经营的中小银行的客户 群体相对更容易存在征信不良、固定资产少、多头借贷等问题。另一方面,中小银行的服务客群更集中在不发达地区,这类客群很容易受到电信诈骗、钓鱼网站、木马病毒、黑客勒索等黑灰产影响,给中小银行的风控工作带来更复杂严峻的挑战。这些问题迫使中小银行必须持续完善自身风控体系,当前较为迫切的需求体现在反欺诈和识别不良客户两类风控业务上。(2)传统方案在反欺诈业务的传统解决方案中,两家或多家中小银行各有一批 欺诈样本,分别构建反欺诈模型,拟合出客户特征和反欺诈样本之间的关系,但在样本和观察数据规模有限的前提下,本地建模学习的模型效果并不理想。若各行的客户分类、客户偏好、地理位置等分布差异较大,银行间共享样本并基于共享的样本合集构建模型,可显著的 数据价值释放与隐私保护计算应用研究报告(2021年) 21 提升模型效果,但出于对数据安全及个人信息保护的考虑,银行之间无法直接共享样本数据。不良客户识别业务的风控处境更为严峻。传统条件下,数据分享只能通过明文方式,且被查询方能够获取查询方的记录,因此,不良客户识别业务在机构间的安全合作甚至无法在传统条件下实现。直至隐私保护计算技术出现后,银行机构间的数据融合才有了安全的实现方式。(3)业务痛点 不良客户识别方面,各银行在开展业务过程都会积累业务黑名单,以此在前置风控环节识别并剔除不良客户。对于中小银行来说,因为其业务开展的时长及覆盖的客户有限,积累的黑名单无论在客户体量、客户地域分布上都较为局限,无法帮助银行精准高效地识别不良客户。反欺诈方面,交易实时反欺诈系统对交易欺诈行为的甄别,很大程度上需要依靠专家规则与机器学习模型。对中小银行而言,一个棘手的问题是,积累的欺诈样本数量较少,不足以构建高准确度的交易反欺诈模型,导致反欺诈工作开展效果不理想。政策合规方面,针对上述两个业务风控样本不足的共通性问题, 中小银行迫切希望获得其他金融机构,尤其是同类银行的风控样本数据,作为自身风控样本数据的补充,以提升自身的风控能力。近年来,国内外出台的一系列数据安全与隐私保护相关政策法规,在数据收集、使用与交易模式等方面进行了规范,银行间的数据共享与流通将面临严格的合规限制。 数据价值释放与隐私保护计算应用研究报告(2021年) 22 (4)实践案例针对黑名单局限、建模所需数据样本不足、数据安全保护趋严等业务痛点,隐私保护计算技术为中小银行提供了解决方案。在隐私保护计算平台实践案例中,通过在各银行部署隐私保护计算节点,实现了银行间的数据互联对接,在满足数据不出库、客户隐私不泄露的安全合规要求的同时,横向联邦功能为银行提供了反欺诈模型共建能力,匿踪查询功能实现了银行间的黑名单共享,帮助中小银行化解了上述的业务痛点。以下分别展开说明:1)反欺诈模型共建 以银行A和银行B的反欺诈模型共建试点项目为例,在该反欺诈模型共建案例中,银行A和银行B分别提供欺诈样本数据,包括欺诈用户标签以及该用户的特征(如信用记录、消费习惯、常用手机设备等),并上传至隐私保护计算节点。隐私保护计算平台通过横向联邦的方式,对两银行的欺诈样本数据进行数据特征对齐及建模,在数据可用不可见的情况下,构建一个双方共用且效果更优的反欺诈模型。 数据价值释放与隐私保护计算应用研究报告(2021年) 23 来源:隐私保护计算服务提供商图5横向联邦反欺诈模型指标对比在模型效果方面(如图5所示),传统方案中银行A和银行B分别在本地构建反欺诈模型,模型评估指标AUC值分别为0.71和0.72,风险区分能力评估指标KS值分别为0.231和0.322;隐私保护计算平台构建横向联邦学习得到的模型,AUC值和KS值分别是0.74和0.355。由此可见,基于隐私保护计算技术的横向联邦应用为金融反欺诈业务带来了一定程度的指标提升。 2)黑名单共享除了反欺诈模型共建,隐私保护计算平台也可为金融机构提供金融黑名单共享的能力,打破金融机构间的“数据孤岛”。如某大型股份制商业银行牵头,与多家银行共同搭建了隐私保护计算平台。银行间基于匿踪查询技术为彼此提供隐私黑名单查询服务,各行在保护隐私安全的前提下实现了黑名单共享(如图6所示)。 数据价值释放与隐私保护计算应用研究报告(2021年) 24 来源:隐私保护计算服务提供商图6基于匿踪查询技术提供银行间隐私黑名单查询服务匿踪查询技术能够保证查询发起方在不暴露被查询客户ID的前提下,获得该客户ID是否在其他机构的信息。在黑名单共享场景中,客户ID为客户身份三要素信息(姓名、身份证号、手机号),待查询的信息为是否在黑名单中,通过同态加密技术对客户ID和各维度金融信息进行加密,并对外提供黑名单服务。查询方即可知晓该用户是否在虚拟黑名单数据池中,并且仅能解密所请求客户ID的黑名单 标签值。在实际匿踪查询业务中(如图7所示),银行X要判断一个客户是否是黑名单客户,首先会在本地查询该客户ID是否存在于本行黑名单内,若命中黑名单,则业务流程结束;若未命中,则通过匿踪查询技术,向银行A、银行B、银行C分别查询客户ID是否在其黑名单内,并得到返回结果。 数据价值释放与隐私保护计算应用研究报告(2021年) 25 来源:隐私保护计算服务提供商图7匿踪查询业务流程(5)实践价值在本案例中,银行通过部署隐私保护计算平台完善了自身的风控体系,一方面通过横向联邦实现了欺诈样本的安全共享与模型共建,另一方面通过匿踪查询实现了银行间的黑名单安全共享。隐私保护计算方案在性能上也有较优的表现。在反欺诈模型横向联邦建模场景中,银行A和银行B分别提供百万级别的训练样本, 平台每进行一次联邦建模的总耗时仅在分钟级别内,接近模型本地训练的性
展开阅读全文