资源描述
隐私计算推动 金融业数据生态建设 白皮书 中国工商银行股份有限公司金融科技研究院 华控清交信息科技(北京)有限公司 2021 年 11 月 版权声明 本白皮书版权属中国工商银行股份有限公司、华控清交信息科技(北京)有限公司所有,并受法律保护。转载、编撰或其他方式使用本白皮书文字或观点,应注明来源。 违反上述声明者,将追究其相关法律责任。 编 写 组 参编单位 中国工商银行股份有限公司金融科技研究院 华控清交信息科技(北京)有限公司 参编人员 陈满才、罗毅、龚光庆、鲁金彪、秦国、赵小建、吴蕃 、陈雅峰、史大鹏、王辉、强锋、曾凯、张锦元、姚冕、周建平、伍宏卫、穆凯、夏琼、张闯、相妹、魏博言、薛雨杉、陈晓蕊、陈法山、许冠、李平 徐葳、吕亚振、黄斌、杨祖艳、王云河、庄媛媛、刘斌、时代、高瑞、隗樊、王祥、张嘉熙、贾士轩、李艺、王国赛、陈琨、郝天一、何昊青、商涛、徐皓、万莉莉、朱礼 前 言 “百年变局,大道不孤。” 习近平总书记多次作出重要论述,当前我国处于近代以来最好的发展时期,世界处于百年未有之大变局,两者同步交织,相互激荡。中国是经济全球化的受益者,更是贡献者。如今百年变局和世纪疫情叠加,国际和地 区形势复杂深刻演变,信息技术和人类生产生活交汇融合,对经济发展、社会治理、国家管理、人民生活产生重大影响。 “欲粟者务时,欲治者因势。” 随着大数据、物联网、人工智能、云计算等新兴技术的不断发展,数字经济站上世界经济发展的主舞台,我国从全球数字经济跟跑者变为领跑者。党的十九届四中全会将数据列为新的生产要素,为金融加快数字化转型带来新的机遇。金融业作为数据密集型行业和创新 先行者,势必成为国家数据要素市场化的最佳实践阵地。 “天下一家,万物互联。” 随着数据安全法个人信息保护法相继颁布实施,“如何实现数据开 发利用与安全保护、如何建设安全金融数据生态”是新时代赋予我们的新命题,也是金融行业亟待解决的共性问题。为此,中国工商银行金融科技研究院协同华控清交编写隐私计算推动金融业数据生态建设白皮书,紧密落实国家战略,结合工商银 行实践经验,探索如何基于隐私计算技术建设数据生态基础设施,打造行业全新安全的数据生态,以期为业界同仁提供有益参考。 “适变谋新,行稳致远。” 数字经济大潮浩荡,大数据技术发展日新月异,金融业生态建设非朝夕之功,既要顺应数字经济转型之“天时”,又要结合我国金融行业发展之“地利”,更要凝聚各方互联 互通之“人和”。这既是挑战,也是机遇。作为新时代金融业的践行者,唯有凝聚共识,把握机遇,铭记使命担当,才能乘风破浪,“蹄疾而步稳,勇毅而笃行”。 本书参考案例大都取自工商银行、华控清交自身实践,囿于时间和经验,难免思虑不周。抛砖引玉,恳请专家、同仁斧正。 目 录 一、数据要素全面流通,赋能金融生态建设 . 1 ( 一) 谋篇:数字经济战略布局,金融行业因势转型 . 1 1.国家推出数据要素战略,打造数字经济优势 . 1 2.科技创新推动数据融合,数据要素全面流通 . 3 ( 二) 驱动:数据流通需求迫切,隐私计算蓬勃发展 . 4 1.传统隐私保护技术潜藏安全隐患 . 5 2.新兴隐私计算技术破解流通难题 . 5 ( 三) 破局:金融业先行试水,开启数据生态新篇章 . 7 1.隐私计算顶层设计 ,相关探索领先国际 . 8 2.金融科技全栈赋能,数据生态先行示范 . 11 二、隐私计算有机组合,夯实生态建设基础 . 13 ( 一) 多主体协同发力,共建金融数据生态 . 13 1.数据方提供数据计算价值 . 13 2.算法方赋能数据金融价值 . 14 3.计算方提供密文算力服务 . 14 4.调度方确保任务高效执行 . 14 5.监管方保障他人利益无损 . 15 6.使用方享受数据应用成果 . 15 ( 二) 技术方法差异化,赋能数据生态安全 . 15 1.基于密码学的隐私计算方法 . 16 2.基于统计学的隐私计算方法 . 17 3.基于硬件安全的隐私计算方法 . 18 4.其它传统技术 . 19 ( 三) 多技术 有机 组合, 构建多样生态平台 . 19 1.高敏感数据处理,确保保密性 . 20 2.高价值数据处理,突出准确性 . 20 3.高时效数据处理,侧重高性能 . 21 4.跨应用 数据处理,谋求高适配 . 21 5.大规模商业应用,考察成熟度 . 22 6.技术各有优劣,融合大势所趋 . 23 ( 四) 双模式架构实现,灵活满足部署需求 . 24 1.无代理计算架构:数据方担任计算方 . 24 2.代理计算架构:数据方和计算方解耦 . 26 3.架构差异分析与选择 . 28 ( 五) “隐私计算 +”打造数据生态“新基建” . 29 1.“隐私计算 +计算合约”,实现“使用可控可计量” . 29 2.“隐私计算 +人工智能”,加快推动智能应用落地 . 30 3.“隐私计算 +区块链”,让数据要素在阳光下流通 . 30 三、加强规划体系建设,推动生态全面赋能 . 31 ( 一) 五脉一体: 制定金融业数据生态规划 . 31 1.基:形成开放可靠的数据源 . 32 2.行:选择灵活适用的技术路线 . 32 3.规:构建全面完善的规范流程 . 33 4.术:探索有效合理的运行模式 . 33 5.融:打造协同促进的保障机制 . 34 ( 二) 三级平台:体系性布局数据生态建设 . 34 1.企业级隐私 计算 平台:高效协同生态 . 35 2.行业级隐私计算平台:共荣共生生态 . 41 3.跨行业隐私计算平台:开放共赢生态 . 42 ( 三) 多方共赢:生态赋能典型场景应用 . 44 1.客户营销:丰富客户画像,实现集团生态协同 . 45 2.风险管理:多方数据融合,提升金融风控水平 . 51 3.监管合规:数据驱动变革,提高监管科技效能 . 59 四、产学研用协同创新,数据生态有机生长 . 66 ( 一) 立足长远、凝聚共识:建设数据基础设施 . 66 ( 二) 产用协同、共同攻坚:推动技术加快应用 . 68 ( 三) 完善政策、有序引导:支撑生态合规应用 . 70 图目录 图 1 中国历年数字经济规模测算及占 GDP 比重 . 1 图 2 我国数字经济顶层设计与发展路径 . 2 图 3 数据要素化过程 . 3 图 4 数据要素化推动金融发展迈向新阶段 . 4 图 5 1988-2020 年全球隐私计算专利申请数量 . 6 图 6 隐私计算推动数据要素使用权流通 . 7 图 7 国外隐私计算金融应用总体情况 . 8 图 8 国内隐私计算金融应用总体情况 . 9 图 9 银行业领先国内隐私计算应用探索 . 10 图 10 隐 私计算技术分类 . 16 图 11 隐私计算技术组合使用示意 . 23 图 12 隐私计算产品的对等网络架构 . 24 图 13 隐私计算产品的客户端 -服务器架构 . 25 图 14 隐私计算产品的代理计算架构 . 27 图 15 多参与方的代理计算和无代理计算架构实现 . 28 图 16 多层级金融业数据生态 . 35 图 17 工商银行多方安全计算平台技术架构 . 37 图 18 工商银行联邦学习平台技术架构 . 38 图 19 工商银行可信计算平台技术架构 . 39 图 20 光大银行多方安全计算平台架构 . 41 图 21 中国互联网金融协会行业级隐私计算平台架构 . 42 图 22 北京国际大数据交易所的数据交易模式 . 43 图 23 基于多方安全计算的联合营销 . 47 图 24 基于多方安全计算的商户营销技术流程 . 48 图 25 基于联邦学习的健康险营销 . 50 图 26 基于联邦学习的企业贷中监测 . 53 图 27 基于多方安全计算的资金流向跨行穿透 . 55 图 28 基于多方安全计算的信贷审批业务流程 . 57 图 29 基于多方安全计算的“惠民贷”联合风控 . 58 图 30 基于联邦学习的涉赌洗钱账户客群识别 . 61 图 31 教培资金托管业务流程 . 62 图 32 基于多方安全计算的资金监管技术流程 . 63 图 33 基于多方安全计算的个人合格投资者认证 . 64 图 34 金融行业引领建设数据基础设施 . 67 1 一、数据要素全面流通,赋能金融生态建设 当前新一轮科技革命、产业革命加速演进,数据要素全面融入经济价值创造,对生产力发展、生产关系变化产生深远影响。近年来,国家深入布局数字经济战略,加快培育数据要素市场,铸就数据生态建设“绿色通道”。金融业作为先行者,势必成为国家数据要素市场化配置改革的最佳实践基地。 (一) 谋篇:数字经济战略布局,金融行业因势转型 1. 国家推出数据要素战略,打造数字经济优势 随着互联网、大数 据及人工智能等技术的发展和普及,我国生产、积累、利用数据的速度跃居世界前列。在此背景下,我国数字经济规模逐年增加。中国信息通信研究院数据显示, 2020 年我国数字经济规模已达 39.2 万亿元,占 GDP比重约 38.6%,成为国民经济关键组成部分(如图 1 所示)。 图 1 中国历年数字经济规模测算及占 GDP 比重 2 稳定增长的数据背后是国家围绕数字经济的一系列战略布局。 如图 2 所示, 早在 2017 年,习近平总书记 就在中共中央政治局第二次集体学习中提出“构建以数据为关键要素的数字经济”; 2019 年 10 月,党的十九届四中全会首 次将数据纳入生产要素,提出按市场评价其贡献、按贡献决定其报酬; 2020 年 3 月,中共中央国务院提出加快培育数据要素市场;同年 5 月,中共中央国务院再次强调加快培育数据要素市场,完善数据权属界定、开放共享、交易流通等标准和措施。 图 2 我国数字经济顶层设计与发展路径 为推动数字经济发展战略稳步实施, 十三届全国人大四次会 议 于 2021 年 3 月 通 过 中华人民共和国国民经济和社会发展第十四个五年规划和 2035 年远景目标纲要 ,数字经济单独成篇,其重要性可见一斑。 2021 年 6 月, 中华人民共和国数据安全法正式颁布,构建了自上而下的数据 管理规范,提出利用数据要素促进经济发展的工作要求,明确建设数据强国的工作目标。 3 2.科技创新推动数据融合,数据要素全面流通 顶层设计离不开市场基础。 数据主要通过人类自身活动产生,数据要素化的实质是数据流通,目的是数据通过流通进入社会化大生产。只有流通或进入市场形成可投入生产的要素,数据才能真正融入社会生产过程,成为数字经济核心生产要素(如图 3 所示)。 图 3 数据要素化过程 数据要素流通为金融数字化转型带来全新机遇。 金融业具有天然的数字 化基因,更是科 技创新的积极参与者、推动者。同时, 科技创新多次助推我国金 融智慧变革(如图 4 所示)。然而,由于数据尚未成为广泛流通的社会化生产要素,金融机构仍然面临着数据壁垒等问题,数字化转型发展进入深水区。数据要素化时代,金融机构既要建好自身技术平台,又要共同搭建数据流通基础设施,更要协力打造金融数据新生态,充分发挥数据要素倍增作用,更好服务民生需求、国4 家经济战略发展布局。 图 4 数据要素化推动金融发展迈向新阶段 (二) 驱动:数据流通需求迫切,隐私计算蓬勃发展 数据融合需求日益迫切,保障数据要素持有者权益是实现 数据要素有效开 发利用的关键。然而,传统隐私保护技术无法保护数据在计算过 程中的隐私安全,难以保障数据要素持有者权益不受损害。隐私计算技术 1因能在保护数据隐私同时开发利用数据价值,备受各界广泛关注。当前,行业重点探索的隐私计算技术包括多方安全计算( Secure Multi-Party Computation, MPC)、联邦学习( Federated Learning , FL )、 可 信 执 行 环 境 ( Trusted Execution Environment, TEE)等。 1隐私计算( Privacy Computation)也被称作隐 私增强技术 (Privacy Enhancing Technologies, PET)或隐私保护计算( Privacy-Preserving Computation) 。但此处隐私( Privacy)一词指某方不愿公开的信息,如个人隐私信息或机构商业秘 密,并 非局限于法律意义上的个人隐私范畴。 5 1.传统隐私保护技术潜藏安全隐患 传统隐私保护技术无 法有效规避数据 泄露与滥用问题 。诸如数据加解密、身份认证、访问控制等传统 隐私保护技术主要在数据存储、传输和结果展现环节中保障原始信息不外露,防范未经授权的数据获取行为,但在计算过程中仍需暴露原始数据。因此,在数据融合计算需求日益增长趋势下,仅使用传统加密手段无法规避数据计算环节的安全隐患。特别是在巨大利益驱动下,数据在计算环节的信息泄露及滥用事件频频发生。对此,全球已有 100 多个国家及地区相继出台数据保护政策及法律,以督促各界合法合规使用数据,保护个人及企业信息安全 2。 2.新兴隐私计算技术破解流通难题 数据 融合 趋势日盛, 安全保护呼声渐涨。 作为有效解决计算过程中数据隐私保护问题 的技术手段之一,隐私计算技术受到市场广泛青睐并蓬勃发展。其中,数据脱敏和差分隐私的应用虽相对成熟,但在使用过程中,数据安全与计算价值此消彼长,并不能完全满足数据价值利用需求。在此背景下,基于密码学、统计学及硬件方法等不同流派的新兴隐私计算技术由于能够确保数据价值不流失而受到业界广泛关 2 edps.europa.eu/data-protection_en, 2020-07-19. 6 注,并已相继实现工程化突破,其大规模商业化应用未来可期。其中,多方安全计算、联邦学习和可信执行环境等最具代表性的新兴隐私计算技术 3在全球范围内迅速兴起。 2018年前后,随着 欧洲、美国、澳大利亚、新加坡等地相继出台数 据保护法律,上 述技术相关专利申请数量大幅增加(如图5 所示)。 图 5 1988-2020 年全球隐私计算专利申请数量 隐私计算核心优势是分离数据所有权和使用权,开创“数据特定用途使用权流通”新范式。 由于明文数据可被无限复制、传播,明文数据的归属权、使用权难以清晰界定,交易主体让渡数据使用权便让渡了控制权,数据用途、用量 3 2021 年 10 月, Gartner在其发布的 2022年重要科技战略趋势报告中将包括多方安全计算、联邦学习及可 信执行环境等隐私计算技术列为 2022年重要战略科技 Gartner. Top Strategic Technology Trends for 2022R. 2021-10-19. 。该报告预计 2025 年全球 约 60%大型机构将应用隐私计 算技术 ,实现数据融合应用和隐私保护并重。 7 无法得到有效控制。隐私计算技术可把“数据可见的信息部分”和“无需看见就可计算的使用 价值”分开,实 现“数据可用不可见”,甚至可通过计算合约把数据使用价值精 确限制到具体的用途和使用次数,实现数据“使用可控可计量”。 在防止数据信息泄露和杜绝滥用的前提下,隐私计算可把数据“使用权”从“所有权”中分离出来,并通过对“使用目的和方法控制”,使“数据特定使用权”成为有限供应和有限需求 , 即通过技术手段创造数据要素供需“唯一性” ,实现数据特定使用权通过市场供需进行定价并大规模地交易流通。 基于此,数据流通主体可以不再是明文数据本身,而是数据特定使用价值( 如图 6 所示 )。 图 6 隐私计算推动数据要素使用权流通 (三) 破局:金融 业先行试水,开启数据生态新篇章 金融业数据是指金融机构开展金融业务、提供金融服务8 以及日常经营管理所需或产生的各类数据。金融业数据要素流通将助力金融机构获得更为海量、多维的数据,从而灵活创新业务场景,广泛支撑精细化运营,构建新的行业发展引擎。 1.隐私计算顶层设计,相关探索领先国际 国外隐私计算金融应用目前尚处于试点阶段。 长期以来,北美、欧洲金融监管严格,金融机构对新技术引进尤为审慎。同时,相关行业标准及监管规则尚不明晰,导致隐私计算技术在 当地金融领域落 地相对滞缓。当前,相关应用多用于信贷风控、反欺诈、反洗钱 等试点场景,暂未形成规模化应用,且成熟产品较少(见图 7 所示)。 图 7 国外隐私计算金融应用总体情况 9 我国在金融领域率先谋划隐私计算顶层设计。 2020 年11 月,中国人民银行正式发布首个隐私计算技术标准多方安全计算金融应用技术规范( JR/T 0196 2020),并于 2021年启动联邦学习等其它隐私计算技术金融应用类标准的研制工作。在顶层设计指导下, 2021 年 5 月,国家金融科技 测评中心 公布华 控清交 、矩阵元、蚂蚁集团、微众银行、富数科技等五家公司的 六款产品首批通过其 多方安全计算金融应用技术测评 ,为金融业选择隐私计算技术产品提供支持。 图 8 国内隐私计算金融应用总体情况 10 国内隐私计算金融应用领先国际。 在顶层设计推动下,我国互联网企业、科技公司及金融机构近年来相继研发多款成型隐私计算产品,相关产品呈现平台化发展趋势,技术组合应用日益明显。国内示范场景已包含授信风控、产品营销、移动支付人脸识别、跨境结算、反洗钱等,其应用范围较 国外更加广泛、 多元(见图 8)。 图 9 银行业领先国内隐私计算应用探索 金融科技创新监管试点推动相关应用如火如荼。 2020年,中国人民银行启动金融科技创新监管试点项目,为国内银行、保险及证券等行业开展隐私计算应用提供了创新环境,其中银行业探索最为突出(见图 9),占比高达 87%,涵盖信贷风控、产品营销、移动支付人脸识别、反洗钱、反欺诈等丰富场景。 2021 年月,中国人民银行组织开展金融业数据综合应用试点, 必将撬动金融业更广范围、更深层次数据融合应用,为行业数据生态建设打造良好基础。 11 2.金融科技全栈赋能,数据 生态先行示范 金融业对数据要素流通的探索已较为领先,但数据生态不足仍限 制行业发展 。金融业是数据经营行业,掌握大量身份、财产等诸多重要数据信息。这些数据信息在金融机构经营发展中一直发挥着基础、全局、引领作用。目前,诸多金融机构已在内部数据价值挖掘方面取得丰硕成果,但受自身数据维度单一、实时性不足等影响,迫需开展跨机构、跨行业数据融合应用。因此,下阶段抢抓数据要素依法有序流动的战略机遇,构建符合金融行业创新发展的数据生态,是金融业数字化转型发展、有效防范化解金融风险的关键手段。 以个性化数据生态为突破口,实现差 异化定位发展。 金融机构简单将线下业务迁移到线上所带来的红利正逐渐消失, 竞争悄然从互联网时代“流量之争”转变为以数据要素作为差异化发展的“数据之争”。金融创新也必将从前端销售、产品创新延伸到风险防控、内部运营、商业模式等全渠道、全客户、全场景的业务领域,差异化激发数据要素价值,从而全面提高服务覆盖率、创新服务模式、降低服务成本。 金融引领国家数据要素化探索。 展望未来,数据要素流通必将带来互联网数据、政务数据、司法数据、电信数据等广泛进入金融业,通过跨界无缝融合,支撑金融业数据生态建设。各参与方通过共建平台,充 分发挥各自优势 资源,形12 成相生相伴、相互融合、相互循环的生态体系,共同实 现整体价值最大化。有机生长的数据生态将进一步激发数据要素创新潜能,支撑金融业成为国家数据要素化的最佳实践阵地。 13 二、隐私计算有机组合,夯实生态建设基础 伴随着保障数据安全、开发利用数据价值并重的迫切需求以及法律法规不断完善、隐私计算行业标准陆续发布等顶层因素驱动,隐私计算金融应用迎来广泛前景。从技术发展看,多方安全计算、联邦学习、可信执行环境等新兴隐私计算技术主要经过密码学算法、安全协议、分布式计算、编译优化和硬件加速等全方位优化,技 术性能大幅提升 ,工程化落地速度显著提振。在此背景下,金融业依托先进技术 推进建设全新数据生态,既是落实国家数据要素市场化配置要求的有益举措,也是深化金融供给侧结构性改革的内在要求。 (一) 多主体协同发力,共建金融数据生态 数据信息安全是金融业数据生态建设的关键所在。因此,金融机构需在保证使用目的与方式可控前提下传递数据使用价值。隐私计算技术能够实现数据生态建设中隐私安全、管控数据使用目的与方式,促进数据生态建设。一般而言,基于隐私计算的数据生态包括数据方、算法方、计算方、调度方、监管方和使用方等,各参与方需秉承开放 合作理念,充分 发挥各自职能,协力构建开放、协作、共赢的生态关系。 1.数据方提供数据计算价值 数据方为金融业数据生态建设提供数据源。在此生态14 中,提供方可以是金融机构,也可以是非金融机构,如政府部门、企业集团等。数据方一般对外提供经信息处理技术转换后的非原始数据,以充分保障自身数据权益不受共享影响。由于隐私计算技术具备数据“可用不可见”特性,正逐步成为数据方参与生态建设的首选技术方案。 2.算法方赋能数据金融价值 算法方为金融业数据融合计算提供算法或模型。算法约定了一组规则,数据在这组规则下运行,最后得到可用 于金融业务的模 型。因此,算法实际上规定了数据使用目的和方式。当前算法正 逐渐演变为核心商业秘密,因此在数据生态建设过程中,可将算法参数作为隐私数据处理,以“可用不可见”方式对外提供使用。 3.计算方提供密文算力服务 计算方为数据生态提供算力支持,其角色如同数据生态的基础设施承建方。实践中,一个计算方会部署一个计算集群,通过增加集群内机器节点数量提高其算力水平。在某些密文计算协议中,需多个计算方相互监督才能实现计算协议安全,如基于秘密分享的协议。 4.调度方确保任务高效执行 调度方为金融数据生态建设的“总指挥” ,综合管理参15 与 方、数据和算法资源及隐私计算任务,确保系统经济、高效运行 。一是统筹管理参与方,构建参与方准入、注册机制等;二是数据和算法管理,即上架、下架数据和算法等;三是管控计算过程、统筹调度多计算任务并行等。 5.监管方保障他人利益无损 数据要素使用在特定情形下可能存在一定负外部性 4,可能损害无关第三方利益,监管方参与数据生态建设,可有效保护个人、组织的合法权益,维护国家主权、安全和发展利益。随着数据安全法个人信息保护法相继颁布实施,监管方角色将愈发重要,监管方全面核查、审计数据使用关键环节,确保 数据要素使用不 会对他人利益造成损害。 6.使用方享受数据应用成果 作为 数据生态直接用户,使用方将数据融合计算结果用于金融业务,享受数据生态建设成果。实际应用中,隐私计算任务通常由使用方发起。使用方根据自身需求选择数据源、算法,经各方确认后发起建立计算合约,获得计算结果。 (二) 技术方法差异化,赋能数据生态安全 目前,业界对隐私计算技术的归类方法各有不同 5。安全 4 数据使用的负外部性及数据要素监管 N.金融时报 .2021-3-29( 11) 5 读者可参考金融业数据要素融合应用研究隐私计算白皮书。 16 性是隐私计算的第一属性,本文以安全信任基础为切入点对隐私计算技术进行归类,将其划分为基于密码学的隐私计算方法、基于统计学的隐私计算方法、基于硬件安全的隐私计算方法、其它传 统技术等四类(如图 10 所示 6)。 图 10 隐私计算技术分类 1.基于 密码学的隐私计算 方法 该类技术的安全性基于对密码学的信任,具有密码学领域的严格证明。 此类技术可细分为密码算法技术和密码协议技术,前者典型代表为同态加密算法,后者典型代表为多方安全计算。多方安全计算一般采用一系列基础密码技术,包括秘密分享、混淆电路、不经意传输及零知识证明等。在学术上也有使用同态加密算法构造多方安全计算协议的研究,但产业界尚未出现典型应用。 基于密码学的隐 私计算方法能够 真正实现金融业数据 6 该图仅是一种简单列示,存在其他技术子类或分类。 17 要素流通“ 可用不可见”。 “可用”体现在 数据要素计算价值的无损性方面,即具有与原始明文数据相同的计算价值和效果;“不可见”体现在其具有严格的密码学安全证明,保证原始数据不被泄露和复制。同时,此类技术在数据“可用不可见”基础上,还可辅以计算合约精确控制数据的具体用途和用量。 2.基于 统计学的隐私计算 方法 此类技术的安全性基于对统计学的信任 ,即通过统计学方法将原始数据进行转化,仅流通转化后的数据达到保护原始数据隐私的目的。 此类 代表性技术为差分隐私和分布式安全机器学习。前者通过增加噪 音隐藏原始数据 ,因此使用时需权衡隐私保护程度与融合计 算 结果准确度。后者 的典型应用为联邦学习,即各参与方在本地将原始数据转化为基于统计信息的中间参数,并交换该中间参数迭代模型实现多方联合建模。 在实际应用中,基于统计学的方法面临准确性和安全性等挑战。 基于对统计信息学转化不可逆的信任,该类方法打造了直觉上的安全性。差分隐私的噪音降低了数据准确性,另添加噪音后的明文数据需交付接收方,后续数据处理不受控制,存在一定安全隐患。联邦学习等分布式安全机器学习技术存在利用中间参数逆推原始数据的可能性,其安全性面18 临一定挑战。 因此,基于统 计学的隐私计 算技术一般与其它技术组合使用。 实践中,参与方 仅将这类技术用于数据流通某一环节,通过整体流程控制数据用途,增强数据要素流通的安全性。例如,分布式安全机器学习的参数传递采用差分隐私或密码学隐私计算技术,辅以人工智能算法控制数据的具体用途。 3.基于硬件安全的隐私计算方法 此类技术的安全性基于对硬件提供方及其工程实现的信任。 此类技术的典型代表是可信执行环境( TEE),其基于软硬件方法构建一个安全区域,由主处理器来保护区域访问权限。在可信执行环境中,得到安全验证的程序代码是受信任的应用程序 ( Trusted Application, TA),可被执行。这类技术能 保证 数据 在 加载到处理器时 才被 解密 ,因此实现了敏感数据在隔离和可信 的 环境中存储、处理和保护, 兼顾了保密性和完整性。 基于硬件安全的隐私计算技术运行在芯片层级,可有效抵御恶意软件攻击。 目前,代表性的可信执行环境有 Intel SGX 和 ARM TrustZone。由于在可信执行环境中运行的受信任的应用程序都是可信应用,该类技术能确保数据授权使用,即数据用途可控。 19 4.其它传统技术 其它常用传统隐私计算技术包括数据脱敏、个人信息匿名化处理等内容。 数 据 脱敏技术,通 过一定规则对原始 数据进行变形、屏蔽或仿真处理,消除其在原 始环境中的敏感信息后交付数据接收方使用。匿名化技术通过将特定个人“埋没”于群体中达到保障个人隐私的目的,一般指个人信息经过处理无法识别特定自然人且不能复原的技术,主要使得数据使用方无法重新识别到个人主体,保证主体隐私安全。 传统隐私计算技术面临数据安全挑战。 数据脱敏技术易受侧信道或撞库攻击,存在脱敏信息被恢复的风险。匿名化技术需将处理后的数据直接交付给对方,无法从技术上规避接收方的其他操作。特别是对于关系到国家安全、国民经济命脉、重要民生 、重大公共利益 等国家核心数据,传统隐私保护技术无法精准控制数据的用途、 用量,其不当使用可能危害公众利益或影响国家安全。 (三) 多技术 有机 组合, 构建多样生态平台 不同隐私计算技术的性能优劣各有不同,金融业数据生态建设中应结合数据流通体量、安全性要求、使用场景等因素,灵活组合各技术,实现技术资源优势互补。本文聚焦多方安全计算、联邦学习、可信执行环境、差分隐私、数据脱20 敏等五类常用隐私计算技术,立足保密性、准确性、高效性、适用性、技术成熟度,全面剖析技术特点,研提技术选取原则,组合构建最优技术解决方案。 1.高敏感数据处 理,确保保密 性 保密性是指利用技术手段确保原始数据“不可见”的属性。 在 实际应用中,敏感数据的处理应重点考虑保密性。多方安全计算技术具有密码学理论证明,保密性较高。联邦学习中间参数的变换机制目前尚未形成严格的安全定义标准,使用该类技术时应重点评估模型算法的通讯及计算安全性。可信执行环境的保密性取决于硬件厂商的工程实现,近年来陆续 曝 出多起可信执行环境安全漏洞事件,其工程化安全能力尚需提升。差分隐私的安全基于统计学构建,保密性一般。数据脱敏技术无法阻止给出数据被持续使用,存在敏感信息关联泄露风险,保密性较低。 2.高价值数据处 理,突出准确 性 准确性指隐私计算结果与明文计算结果相似的 属性。 计算结果准确度高代表隐私计算引起的数据价值损失度小,因此处理高价值数据适用准确性高的隐私计算技术。多方安全计算结果和明文计算一致,可信执行环境将数据解密后进行明文运算,两者准确性高。联邦学习准确性通过与数据集中式训练的误差来衡量,目前业内 成熟的联邦建模算法能使最21 终模型效果与数据集中式训练模型一致 ,准确性较高。差分隐私对原始信息增加噪音,准确性较低。数据脱敏处理后信息已不完整,准确性也较低。 3.高时效数据处理,侧重高性能 性能主要用 于衡量技术 的单 位时间计算量。 技术方案选择时,应重点考量数据体量、数据处 理时效等性能指标要求。多方安全计算涉及用密文转换、密文计算、密文交换等技术环节,算力需求大、处理耗时长,但近年来其计算性能已大幅度提升,达到明文计算性能的 1/100-1/10。联邦学习 在 采用不同方法训练模型、保护中间参数时 , 性能存在差异,目前业内普遍采用的同态加密等密码学方法交换参数会引起性能下降。可信执行环境将密文在硬件环境内解密后计算,性能相比纯密文计算更快,但逊于明文计算,性能主要受限于存储空间的算力支持水平。差分隐私和数据脱敏技术 一般由单个参与 方完成数据处理,当前性能相对最高。 4.跨应用数据处理, 谋求高适配 适用性指技术支持各种应用类型的能力 。金融业务场景目标需由具体 算法来 实现,实践中不同技术支持的算法存在差异。多方安全计算具有通用可组合性,其从底层基础运算组合逐层构建上层应用算法,基于加减、乘除、比较等基础运算可构建广泛的应用算法类型。联邦学习主要应用于多方22 数据联合建模场景,一般需根据实际需求对现有机器学习算法进行适用性改造。可信执行环境中的受信任程序可执行不同应用算法,可适配多种应用类型。差分隐私技术需根据数据库统计特征和分析 函数选择适当噪 声机制,数据脱敏需根据需求定制脱敏规则,上述两项技术适用 范围存在局限性。 5.大规模商业应用,考察成熟度 技术成熟度衡量维度较多,产业应用情况及自主可控程度是金融业衡量的关键所在。 总体而言,多方安全计算、联邦学习、可信执行环境等新兴隐私计算应用尚处于探索阶段,差分隐私、数据脱敏等传统隐私计算技术应用较为成熟。自主可控是指我国相关技术的掌控能力,涵盖软硬件的自主研发、生产、升级、维护等方面。我国姚期智院士于上世纪80 年代提出多方安全计算理论,成为该技术理论奠基人。目前该领域国内领头企业技术工程化 水平与国际相当 ,从基础理论、协议设计、技术实现、解决方案等多角度打造自 主可控、且能适配现有信创体系的产品。因此,该技术具有自主知识产权,可控性高。谷歌于 2016 年最早提出联邦学习,目前国内不少产品仍沿用谷歌底层技术框架。但一些国内厂商已将自主开发的联邦学习技术框架开源,提升了该技术可控性,助力打开其产业应用局面。目前,可信执行环境方面已有一些国产化尝试,但大多数应用产品仍依赖境外英特尔23 ( Intel)、安谋( ARM)等厂商,自主可控性相对较弱,国产化替代需一定时间积累。差分隐私、数据脱敏技术门槛低、实现难度小 、可控性高,产 业界应用广泛,成熟度高。 6.技术各有优劣,融合大势所趋 目前市场尚未形成统一的技术选型标准。但如上所述,各技术特点鲜明、各有优劣,单一技术难以解决所有场景需求。 融合应用多项技术,组合构建隐私计算平台是一种明显技术趋势,较好满足多样化业务需求。 图 11 隐私计算技术组合使用示意 为保障联合建模安全性,业界普遍将联邦学习与基于秘密分享、不经意传输及混淆电路等协议的多方安全计算技术结合,或结合使用差分隐私、可信执行环境等技术(如图 11左侧所示)。同时,业界也普遍将多方安全计算技术和联邦学习、差 分隐私等技术组 合使用,构建明密文混合运算机制,提升整体计算性能(如图 11 右侧所示)。随着技术应用领域不断拓展,可预见未来将出现更 灵活多样的 组合方式 ,打造24 互补互利互通 的“技术组合拳” 。 (四) 双模式架构实现,灵活满足部署需求 金融业数据生态具有高敏感性、高价值性、高开放性,金融业应重点关注隐私计算架构的 可扩展性、可监管性 。 架构中是否存在独立计算节点会对上述两个特性带来深刻影响。因此,本文根据是否存在独立的计算节点,将隐私计算分为无代理计算架构和代理计算架构两类。这也是目前业界最常见的两种架构模式。 1.无代理计算架 构:数据方担 任 计算方 在无代理计算架构下,数据方直接参与隐私计算过程,即数据方兼任计算方角色。 该架构常见形式包括对等网络模式、客户端 -服务器模式。 图 12 隐私计算产品的对等网络架构 在对等网络架构中, 各 参与方完全对等 ,合作完成一次25 隐私计算任务,典型架构如图 12 所示。 以 两个计算参与方为例, A 和 B 分别部署计算节点,彼此通过网络连接,在隐私计算过程中直接进行数据交互,共同参与完成计算过程。 客户端 -服务器架构常用于三方隐私计算或特定场景的两方隐私计算 ,如两方隐私集合求交计算、隐私信息检索计算、同态加密计算和 部分联邦学习场 景等。其中典型的三方客户端 -服务器架构示意如图 13 所示。 图 13 隐私计算产品的客户端 -服务器架构 总体来说,无代理计算架构适用于参与方较少的场景 ,其在应用时能快速部署,具有“短平快”效应,利于隐私计算技术快速推广应用。例如,当前国内部分大型互联网平台为安全共享自身高价值数据开发了大量对等架构产品,金融机构部署与平台对等的隐私计算节点,即可融合使用平台数据,促进金融业务发展。 无代理计算架构存在可监管性的挑战。 在无代理计算架26 构下,参与方间在完全封闭的管道中实现数据互通,生态中的数据类型、数 据敏感度、数据 融合使用目的和方法等重要信息仅被参与方知悉,独立第三方较 难监管。可行的监管手段是引入监管方作为参与方,或在数据方部署监测探针,利用计算存证保障隐私计算过程可追溯,但此类监管的有效性取决于探针所获得数据的真实性。因此, 无代理计算架构适用于构建参与方数量少、且有可信方参与数据融合计算过程的数据生态建设。 2.代理计算架构:数据方和计算方解耦 在代理计算架构下,计算方独立于数据方存在, 即数据、计算解耦,如图 14 所示 7。从图中可见,代理计算架构可扩展性较强,因为隐私计算平台无需定制设计协议,就可接入任 意多方的数据源 构建数据生态。 采用基于秘密分享的多节点代理计算架构时, 参与机构需保证其安全假设,即多节点间不串谋。 在实际应用中,参与方应明确部署要求、管理方法,确保应用符合安全假设。可让数据方持有某计算节点的安全策略,或让监管机构等权威第三方管理计算节点的安全功能,确保节点间无法串谋。当计算节点以平台方式部署在大型机构,可由不同部门分别控制计算节点,在互相监督中保障安全策略。 7 在基于 TEE 技术的代理计 算架构中,代理计算节点可简化为单一节点。 27 图 14 隐私计算产品的代理计算架构 代理计算架构支持参与方无限扩展,在一定阶段后具有规模经济效应。 代理计算架构部署时涉及面广、参 与方多,对于小 范围应用显得有点“过重”。特别是当仅有两方参 与隐私计算时 ,需要额外部署第三方计算节点承载算力,额外增加协调成本。但对于大规模数据生态建设而言,代理计算架构可扩展性强,达到一定规模后可 有效 降低 边际 成本, 因此更 适 合 基础设施建设,提高生态建设的 综合 效率。 代理计算架构具备监管友好性。 代理计算架构的计算方和数据方解耦,监管方可借助独立于数据方的“虚拟中心计算节点”,综合应用计算合约等技术手段,对数据融合计算目的和方法进行事前审核、事中控制和事后监管。软件实现28 上, 代理计算架构可兼容对等计算架构, 可将计算 节点作为软模块 部署到数据方,代理计算 架构蜕变成无代理模式。 参与机构可 根据需求灵活部署上述两种架构的混合模式 。例如,一部分数
展开阅读全文