资源描述
白皮书世界经济论坛与德勤联合呈现2019年9月金融服务业新一代数据共享:利用隐私增强技术解锁全新价值世界经济论坛91-93 route de la Capite CH-1223 Cologny/GenevaSwitzerland电话:+41 (0)22 869 1212传真:+41 (0)22 786 2744电邮:contactweforum网址:weforum2019世界经济论坛 版权所有 保留一切权利。严禁以任何方式(包括复印和刻录)或通过任何信息存储和检索系统复制或传播本出版物的任何内容。本白皮书由世界经济论坛出版,致力于推动某一项目、领域洞察或某种互动的发展。本报告所述调查结果、诠释和结论均在世界经济论坛的推动和支持下完成,但并不一定代表世界经济论坛或其成员、合作伙伴及其他利益相关者的观点。3金融服务新一代数据共享:利用隐私增强技术解锁全新价值 目录序言 4前言 5第一章:金融行业隐私现状 6数据共享的收益数据共享的潜在弊端 6改变数据共享现状 7第二章:隐私增强技术 8第一项技术:差分隐私 9第二项技术:联合分析 11第三项技术:同态加密13第四项技术:零知识证明15第五项技术:安全多方计算 17第三章:金融服务业应用 20为金融机构解锁新价值20为客户解锁新价值22为监管部门解锁新价值 24结语 25附录 26技术优势和限制26相关阅读资料 29鸣谢 30尾注 324金融服务新一代数据共享:利用隐私增强技术解锁全新价值 序言Matthew Blake世界经济论坛未来金融和货币体系部门负责人现今,数据之于第四次工业革命转型的重要意义不言而喻,数据被喻为新一代的石油、黄金,炙手可热。毫无疑问,在数据变得日益重要的同时,企业的工作重点也在转变。然而,媒体竞相报道各企业积累海量数据的竞赛,却甚少关注企业对发掘机构间数据共享潜能的兴趣。尤其在金融服务行业,企业对机构间协作的需求大大增加,涵盖了从改进欺诈检测手段到赋能新型个人理财咨询服务的各种应用场景。当然,数据共享存在风险。企业在发掘数据潜在价值时,须妥善降低对客户隐私的影响、保障数据安全,并对竞争性敏感信息加以管控。从过往经验来看,金融服务行业在隐私保护与数据应用上的目标往往是矛盾的,需要在数据共享价值与潜在的隐私风险间进行权衡,这也直接导致许多原本似乎很有希望落地的数据共享项目被束之高阁。新兴的“隐私增强技术”或将通过消除(或降低)过往的相关协作风险,从根本上推动数据共享领域的变革。随着隐私增强技术的成熟,企业会期望利用这些技术重新审核许多搁置的数据共享项目,借此探索此前难以实现的项目机会。隐私增强技术可以为金融业带来巨大价值 前提是行业高管和监管部门能够了解这些需要应用到复杂数学和计算的技术以及具体应用。本文旨在概述当前最有前景的一些技术,帮助读者理解有关理论概念,并展示如何在金融体系中应用这些技术。我们希望通过这种方式助力打造高效协作的金融环境,期望金融机构、消费者和更广泛的金融体系都能从数据共享中受益。Jesse McWaters世界经济论坛金融业创新项目主管Rob Galaski德勤管理咨询银行业及资本市场全球领导人5金融服务新一代数据共享:利用隐私增强技术解锁全新价值 前言古有盲人摸象的故事,形容不窥得事物全貌无法得出正确的结论。如今,金融服务业面临着同样的问题。在“消费者(客户)是否值得信赖”、“交易商是否互相串通”或“某项交易是否是欺诈性交易”等重要问题上,每个机构都仅握有一块拼图(即数据),但因为各自手上的数据有限,金融机构就像故事中的盲人一样,都存在得出错误结论的风险。而信息分享是解锁事物全貌、全面了解事物的关键,可惜金融机构间数据共享并不容易。由于面临数据存储、管理和共享方面的诸多限制,因此,金融机构至今仍无法对客户和运营环境有全面的了解。完整的数据才能发挥最大的价值,但获取最大价值的过程却十分复杂,其间还伴随目标冲突:例如,金融机构通过数据共享将能更好地识别隐藏的交易欺诈模式,减少金融犯罪检测误报。但是金融机构对于披露与自身客户有关的竞争信息相当谨慎,通常尽量避免违反隐私监管规定。值得一提的是,数据共享不仅能使金融机构受益,还能让客户得到更加个性化、更为具体和细致的建议,但客户可能担心自身信息被误用、滥用或在未经本人同意的情况下被共享。这些都说明了数据共享的矛盾:数据共享可以创造价值,但对于信息被共享的个体而言,其隐私信息不再是秘密,对于开展数据共享的机构而言,其机密性也会受到影响。各方已投入大量精力希望以一种机构、客户、行业协会和监管机构都能够接受的方式平衡目标之间的冲突,保障金融体系的运营。“隐私增强技术”能够使机构、客户和监管部门在不损害“数据所有者”(客户)隐私和“数据管理者”(金融机构)机密性的情况下发掘共享金融数据的价值。这些技术并不新鲜,但近年来的巨大发展已使其从单纯的探索性研究转变为可服务于生产实践的技术,或将为数据共享带来根本性的改变。本文就隐私增强技术的工作原理及其可能为金融机构带来的价值作简要概述,供各金融子行业(如保险、银行、投资管理)高管使用。我们将围绕下述议题进行分析和论述:第一章:金融行业隐私问题现状概览第二章:隐私增强技术工作原理介绍第三章:隐私增强技术如何应用于数据共享本文包含三个章节:第一章:金融行业隐私现状第6页第二章:隐私增强技术第8页第三章:金融服务中的应用第20页6金融服务新一代数据共享:利用隐私增强技术解锁全新价值 第一章:金融行业隐私现状因在数据使用上相互竞争,金融机构往往难以就如何存储、管理和共享数据达成一致。金融机构、监管部门和消费者间的矛盾冲突也由来已久。我们将在下文探讨这三个领域的目标冲突(数据共享的益处与弊端)。金融机构监管部门消费者(客户)数据共享的益处金融机构可从以下三种数据共享方式中受益:输入式数据共享(从第三方获取数据)输出式数据共享(向第三方提供数据)协作式数据共享(与第三方就形式相近的数据互通有无)首先,输入式数据共享使机构可借助更多信息来丰富其决策系统,获得更高质量的输出结果,助力精准运营。例如,贸易公司可使用汤森路透的MarketPsych Indices1 等第三方服务,基于社交媒体数据的分析支撑采购/销售相关决策,或更准确地了解市场行情;其次,输出式数据共享使机构可在自身缺乏相关能力的情况下,借他山之石攻玉(并最终使客户受益)。例如,智能投资顾问Wealthsimple可通过安全链接将客户投资组合信息导入Mint,2 使客户可同时查看日常支出和投资余额,进而全面了解自身的财务状况;最后,协作式数据共享使机构能够获得单靠自身之力所无法得到的海量数据,从而收获更深、更广的洞察。例如,六家北欧银行近期宣布合作开发共享的“了解客户”(KYC)实用程序3,以强化其金融犯罪防御系统的能力。对于监管部门而言,数据共享提供了将金融数据的控制权和所有权交还客户的机会,进而促进创新和竞争,这在监管法规中均有体现:如英国的开放银行标准(Open Banking Standard)、欧盟的欧盟支付服务修订法案第二版(PSD2)、澳大利亚的消费者数据权利法案(Consumer Data Right)以及新加坡、中国香港和日本所采取的其他形式的开放应用程序接口(API)监管条例。这些法规中均有相应条文规定机构应按客户要求将其拥有的客户数据(如交易数据)提供给经认可的第三方,使市场的新参与者得以访问这些数据并制定新的价值主张,监管部门认为这将最终改善公民的财务状况。4对于客户而言,数据共享使其可获得更高质量的产品和更高效的服务。例如,Lenddo通过分析客户的社交媒体数据、通信数据和交易数据为其提供更高质(即准确性可能更高)的信用评分。5 客户正逐步认识到个人信息的价值,愈发倾向于仅在交换中获得实际利益时才会共享其个人信息(直接向金融机构提供更多信息或授权其作为代表与第三方共享数据)。6数据共享的潜在弊端一些因素会阻碍金融服务中的数据共享。对于金融机构而言,任何输出式数据共享都使其面临可能被第三方滥用竞争性信息(如客户身份及特征)的风险;此外,数据共享还可能违反诸如通用数据保护条例(GDPR)等隐私监管法规,或因必需流程(如建立新机制以确保知情同意)过于复杂而导致投入超出数据共享所能带来的益处。随着人工智能和其他高级分析技术应用的不断增加,大型金融机构的高管已经开始担忧因掌握过多客户数据而使其感到不安进而对金融机构心生恐惧。监管部门长期以来通过限制数据共享的方式达成其一项重要职责,即保持消费者金融和非金融信息的机密性。7 例如,美国1999年金融服务现代化法案(Gramm-Leach-Bliley Act of 1999)要求金融机构了解其客户敏感信息是如何被共享的,并允许金融机构选择退出数据共享或采取特定措施保护共享内容。8 近年来,全球监管部门还推出了新的更为严格的客户隐私保护要求:例如,欧盟的GDPR规定机构应让客户能够更便捷的查阅保存在机构处的个人信息;其他法规则禁止公司跨国共享个人身份信息(PII)以保护本国客户隐私,这或将阻止跨国机构分析其整个组织所拥有的内部数据。这些要求意味着无法共享某些类型的数据,或因共享变得过于昂贵、复杂且耗时而使机构不愿更多开展数据共享。7金融服务新一代数据共享:利用隐私增强技术解锁全新价值 数据共享的潜在益处数据共享的潜在弊端金融机构监管部门消费者(客户)改变数据共享现状如图所示,金融服务业中的每个利益相关者都面临隐私相关冲突,而这些冲突一直阻碍着数据共享巨大价值的实现。新兴的隐私增强技术能够使金融机构、消费者和监管部门能够在竞争机会与保护义务之间取得平衡,实现既符合监管原则,又保护消费者隐私,并保持金融机构业务流程机密性的数据共享。这些技术或将扩大金融服务中数据共享范围,从而使金融机构掌握全局信息,进而为自身、消费者、监管部门乃至全社会创造全新价值。丰富决策系统促进创新和竞争获得更高质的产品和服务滥用个人信息泄露竞争性信息利用第三方能力提供有效的系统监察获得更高效的产品和服务泄露敏感信息侵犯客户隐私违反隐私监管法规形成更大规模的数据因“了解过多”而吓退客户虽然客户寻求从自身数据共享中获得更多利益,但他们也愈发警惕其数据可能被滥用:Harris Poll的一项调查显示,只有20%的美国消费者“完全信任”与其打交道的公司会妥善保护其信息隐私。92018年发生的几起备受关注的安全和隐私泄露事件(包括Cambridge Analytica10、Capital One11、Google +12 和Aadhaar13 等)无疑加剧了客户的担忧。客户担心其数据可能被用于会损害自身权益的情形(如身份盗用),更有可能被未经授权的第三方得知自己的隐私信息(如敏感的购买记录)。148金融服务新一代数据共享:利用隐私增强技术解锁全新价值 第二章:隐私增强技术数据作为第四次工业革命的动力,推动了人工智能和互联设备等新技术的发展。为了真正从这些新技术中受益,机构要充分利用内外部所能获取的数据。管理数据隐私的技术能够帮助机构发掘新价值。我们将在下文介绍五类关键技术15。我们将探索各隐私增强技术的潜在益处,以假设的案例演示技术运用,通过既往隐私泄露实例展示相应隐私增强技术的用处,并评估其在金融服务中的可行性。随后,我们将探讨如何结合这些技术在金融行业打开数据共享协作的新局面。差分隐私在数据集(DataSet)中添加噪声,防止通过逆向工程分析还原个人数据零知识证明用户能够在不透露自身有价值信息的情况下证明自己的合法权益联合分析各方仅共享分析数据所得洞察而不共享数据本身安全多方计算各参与方对数据进行分析,输出计算结果,并保证任何一方均无法得到除应得的计算结果之外的其他任何信息同态加密在不解密的条件下对加密数据进行分析并共享9金融服务新一代数据共享:利用隐私增强技术解锁全新价值 第一项技术:差分隐私原理揭示:假设一组10名从事相同工作的个人想要共享薪资信息,以了解自己的薪资是偏高还是偏低,但又不想向其他任何人透露自己的实际薪资。为此,他们找到一个独立且受信任的第三方充当中介,中介会将所有人输入的信息匿名化,同时根据汇总数据得出有用洞察。中介对他们的数据取平均值,并告知10人的平均薪资为50K。这对于个人是很有用的信息,因为他们可以确定自己的薪水是偏高还是偏低。一旦知道了房间里众人的平均薪资,此人就可推断出第十人的确切薪资为45K,并可公开或使用该私人信息。为防止这种侵犯隐私的行为,中介可在他/她的平均值计算中添加噪声。例如,调查员可删除十人中某一人的答案,并用一个在收到的答案范围内(即39K和58K之间)的随机数进行代替。概述:当机构想要与第三方共享数据时,删除或匿名化个人身份信息的方式并非总能充分保护数据库中个体的隐私。例如,将数据与其他数据集相结合就可重新识别数据库中的特定个体。对此,一种行之有效的解决方法是在流程中(输入、计算或输出)添加噪声,确保特定数据“行”的保密性,但仍可通过查询汇总数据获得有意义的洞察。例如,人口普查数据通常采用添加噪声的方式实现匿名化处理,以保护受访个体的隐私;美国也将在2020年的联邦人口普查中应用差分隐私技术。162006年,Cynthia Dwork等人17 发表了有关“差分隐私”的标志性论文,提出了一种普遍适用的方法来计算为保护数据库中每一个体的隐私所需添加的噪声量,18 后经大量深入研究提升其效率和可扩展性后,该方法目前已投入各种实际应用。目前,差分隐私已在苹果等公司的大规模生产中得以运用(如自动完成网上搜索19),并已嵌入各种广泛运用的分析和机器学习库中(如PyTorch20 和TensorFlow21)。注:差分隐私本身并非一种技术或机制,而是对添加噪声的各种技术和方法的一种度量,这些添加噪声的技术和方法可限制各不相关方试图从分析结果中推断出输入数据的能力。45K“房间里10人的平均薪资为50K”“房间里10人的平均薪资为51K”该人知道自己和其他八人的薪资受信任的中介将删除其中一个答案,并将其替换为随机数:55K但是,如果某人已经知道房间中其他八人的薪资,只剩一人的信息未知。随后照常计算平均薪资,中介提供了51K这一带有轻微噪声的答案,同时任何第三方都无法逆向分析得出输入数据。55K 39K 50K 54K 45K58K 50K47K 57K55K 39K 50K 54K 58K 50K47K 57K45K 45K45K 55K55K39K 50K 54K 45K58K 50K47K 57K45K 47K 39K 50K 54K 55K58K 50K47K 57K10金融服务新一代数据共享:利用隐私增强技术解锁全新价值 知道其他八人薪资的那个人无法推断出房间里最后一人的确切薪资,因为添加噪声会带来两个不确定性:八个已知薪资的任何一个都可能被一个未知数所代替,当得知平均数为51K时,只能推定未知薪水范围为36K-74K。而这个范围太大,没有任何价值。如删除的刚好是未知薪资,甚至无法逆推出薪资范围。想要窥探他人隐私的人不知道发生了以上两种情况中的哪一种,因此无法逆推出房间中最后一人的薪资信息。同时,其他人仍然可以定向确定自身薪资高低。如果不信任中介能够对个人信息保密,那么他们也可在与中介共享之前即在个人输入数据中添加噪声。例如,每人都可在提供给中介的薪资数上增加或减少一定的数额(如2K),输出数据的大方向仍将是正确的,每个人既可确定自己的薪水高低,同时又能保护其输入的隐私信息。隐私泄露实例探讨:二十世纪九十年代中期,美国某州政府保险机构公开了经匿名处理的健康记录,以鼓励医疗保健领域的公共研究,其间使用了多种技术对数据进行匿名处理,例如删除地址、将姓名替换为随机字符串等。但是,研究人员仍然能够将该信息与可从公开渠道获取的选民登记数据进行比较和关联,进而重新识别数据库中的特定个体,22 甚至此前向公众保证患者隐私受保护的州官员亦被识别出。与其直接公开数据库,不如仅提供数据集查询功能,再应用差分隐私系统在反馈结果中添加噪声,从而防止患者个人信息泄露。例如,研究人员可以查询“邮政编码为ABCDE的人中有多少人患有糖尿病?”,差分隐私系统则会回复“邮政编码为ABCDE的人中有12,045人患有糖尿病”,这是围绕真实值的“模糊”响应。如果查询过于具体,例如“邮政编码为ABCDE的人中有多少人患有菲尔德病(一种极为罕见的疾病)?”,回复可能是只有一两个人患有这种疾病,这可能泄露私人信息。为了保护这部分人的隐私,差分隐私系统会添加噪声,返回诸如“邮政编码为ABCDE的人中有五人患Fields症”之类的回复,而这与现实情况大不相同。金融服务业的应用:该技术已足够成熟,可应用于金融机构;其益处显而易见,并且将其整合到现有数据系统中不会增加过多成本。添加噪声在数据精度和隐私保护之间作取舍,因此该技术最适合评估总体趋势,而不适用于异常检测(如欺诈分析)或精确的模式匹配(如光学字符识别)。目前Immuta等多家公司已开发出差分隐私解决方案,为金融机构提供服务。
展开阅读全文