2022-2023年中国隐私计算技术与市场发展研究报告.pdf

返回 相关 举报
2022-2023年中国隐私计算技术与市场发展研究报告.pdf_第1页
第1页 / 共53页
2022-2023年中国隐私计算技术与市场发展研究报告.pdf_第2页
第2页 / 共53页
2022-2023年中国隐私计算技术与市场发展研究报告.pdf_第3页
第3页 / 共53页
2022-2023年中国隐私计算技术与市场发展研究报告.pdf_第4页
第4页 / 共53页
2022-2023年中国隐私计算技术与市场发展研究报告.pdf_第5页
第5页 / 共53页
点击查看更多>>
资源描述
2022-2023年中国隐私计算技术与市场发展研究报告掘金:新型生产要素数据迎来政策红利,隐私计算顺势而为利器:隐私计算三类技术路线,六个技术子项索骥:四类玩家,各据禀赋、共拓市场乘势:隐私计算乘数字化大势,数据服务市场建设掀起热潮0516284252目录结语54 版权说明2数字时代的智慧应用与数据密不可分 , 数据作为底层资源喂养了庞杂算力体系下的各类智能算法 。 然而近年来数据利用面临越来越多挑战 , 也因挑战逐渐生变 。首当其冲的是数据隐私问题 , 数据隐私日渐从社会讨论 、 传媒声势中落地 。 在顶层设计方面 ,事关数据隐私的法律法规逐步完善;在技术上 , 诸如同态加密这类隐私计算技术已经深入人们日常生活 , 在手机等智能设备中以难以察觉的方式落地应用 。其次 , 数据智能的逻辑为数据喂养算法 , 应用的智能程度与数据的量和质有着莫大因果关联 。而随着智能应用的发展阶段不断推进 、 综合智能程度提升 , 智慧应用更需要开辟新渠道拓展数据类型 , 利用优质多维度的丰富数据全面提升智能程度 。隐私计算行业的勃兴正是在此背景下涌现的一波技术商业化浪潮 。 在技术方面 , 隐私计算实质上并不指实际的单个技术 , 而是囊括了多个技术类别的一揽子技术合集 。 “ 隐私 ” 为目的项 ,指明了技术本身功用乃是达成隐私保护 。 而 “ 计算 ” 则说明了该技术在本质上是对信息 、 数据的加工 , 即应用在数据的使用流程中 。隐私计算以 “ 数据可用不可见 ” 切入数据使用过程 , 最终达到打通 “ 数据孤岛 ” 的目的 。 这带来了两方面的益处 。 其一 , “ 可用不可见 ” 某种程度上绕开了数据权属争议 , 通过技术手段保证了原始数据归属于某一方 , 与此同时将使用权分离出来 , 通过平台及技术进行交易 、 释放数据 。 其二 , 数据孤岛的根源在于数据权属问题 、 数据隐私问题等多重因素交织 。 因数据有易复制 、 易篡改特质 , 所有权难以界定 。 隐私计算保证数据归属清晰的同时挖掘数据价值 , 与此同时有效保障了数据内容中包含的隐私信息不被泄露 , 在涉及个人身份信息及某些特殊场景下具有重要意义 。3导语4随着中国的 数据安全法 、 个人信息保护法 等数据监管法律相继在 2021 年落地 , 数据利用面临更多制约因素 , 数据合规成为行业数据利用大考 。 与数据监管相伴的仍旧是数据赋能数字经济的逻辑 , 只有持续挖掘海量数据才能不断升级应用智慧程度 , 从而促进数字经济和智能经济发展 , 最终变革社会 、 惠及社会 。以此为背景 , 近年来围绕数据要素涌现了一个全新的数据服务市场 , 在政策鼓舞下有着清晰的发展持续性 , 大数据中心在中国各地分级有序建设 , 数据交易所不断涌现 。 而隐私计算作为赋能数据利用流程的核心技术之一 , 将成为数据服务市场的底层基础设施 , 为数据交易创造条件并守护数据隐私 。 简言之 , 隐私计算在近两年迎来了风口 , 并将会在眼下数据服务市场中占据牢固位置 , 以技术赋能市场要素市场建设 。通过文献研究与产业调研 , 本报告理解掌握行业重点问题 、 呈现行业全景:阐明行业发展背景 、追索技术发展历程 、 描绘行业玩家图谱 、 研判未来发展趋势:第 1 章 “ 掘金 ” :从价值落实 、 监管加强 、 技术进展等维度出发得出结论 , 隐私计算在本质上是数字经济发展到一定阶段必然需求 , 该技术能响应价值 、 顺应监管 、 赋能技术;第 2 章 “ 利器 ” :从技术属性出发 , 追溯隐私计算技术的发展脉络与特征;第 3 章 “ 索骥 ” :描画现有隐私计算公司图谱 , 依据各自资源与特征 , 概括为四种主要玩家 , 并进一步探究相关玩家的主流商业案例;第 4 章 “ 乘势 ” 聚焦商业化现状及研判市场机会点 , 指出当下正在积极建设中的数据要素服务市场是隐私计算面临的持续机遇 。导语5Chapter 1掘金:新型生产要素数据迎来政策红利,隐私计算顺势而为 底层价值:应对长期潜伏的数据隐私与安全挑战 强化监管:促进数据合规利用,守护基本价值 技术增益:隐私计算技术蓬勃发展,为数据合规提供技术支持 市场回响:隐私计算赛道投融资势头强劲6底层价值:应对长期潜伏的数据隐私与安全挑战数据价值开始深入政策层面 , 由此传导到业界愈加彰显 , 同时合规的数据流通程序也将为数字经济生产赋予更明晰 、 更广阔的发展空间 。在 2021 年 4 月公布的 中共中央国务院关于构建更加完善的要素市场化配置体制机制的意见 中 , 数据被定义为生产要素且与 “ 土地 、 劳动力 、 资本 、 技术 ” 并列 , 数据对于国民生产的重要价值得到了官方层面肯定 , 且重要程度一举提升到了与其他基本要素同等地位 。数据的生态全流程大致可分为存储 、 传输 、 使用三大环节 , 在数据的传输和使用过程中 , 由于数据主体的差异 , 往往涉及到事关个体的隐私问题以及事关企业主体的数据安全问题 。1.数据隐私:避免侵蚀个人权益 , 有效保全经济和人身利益究其本质 , 基本隐私权利在于不被观察 、 监视的权力 。 保障个人隐私 , 即是保障了个人自如行动的基本前提 。 在隐私得以保全的前提下 , 人可以相对自如地按照自身需求 、 兴趣和利益作出相应的行动 , 达成相应目的 。 在具体形式上 , 人们拉窗帘 、 戴墨镜 、 避人耳目私底下交谈都在为自如活动创造了机会 。在大数据时代 , 个人更需要免于被商业机构的 “ 数据监控 ” , 免于被追踪 、 分析 , 进而免除经济甚至人身安全侵犯 。 在此背景下 , “ 大数据杀熟 ” 案例层出不穷 , 部分商家利用各类渠道搜集用户信息 , 侵害用户隐私 。 在典型案例中不法商家获取到消费者全面画像 , 依照个体收入水平等特征提供 “ 水涨船高 ” 的价格 , 由此获取了额外利润 。7在商家侧 , 所取得的额外利益建立在侵害隐私 、 获取数据的前提上 。 在用户侧 , 客户隐私被侵害后便丧失了部分自主行动权 , 失去了本可依照价格做出符合利益兴趣的合理决策 , 但在获取到量身定制的混淆信息后 , 无法维护自身利益 。根据 IBM 报告 Cost of a Data Breach Report 2021 , 个人可识别信息 ( PII, 指的是可用来辨识某人身份的信息 ) 在所有数据泄露中占比高达 44%, 单个信息泄露会给相关企业造成高达 180 美元的成本 。 在宏观层面 , 报告所涉企业案例中 , 当泄露信息量在 5000 万 6500 万条区间时 , 单个企业平均处理成本达到了约 4 亿美元 。 从数字不难看出 , 隐私泄露每年实际造成了大量经济损失 1。当下的数据已经呈现了如下特征:数据总量与维度愈加丰富: 数据已经从模糊化 、 碎片化 , 逐渐变得清晰化 、 完整化 。 在金融服务 、 出行 、 政务 、 娱乐等诸多维度各方面信息的汇聚下 , 数据关涉的个人画像越来越清晰 。数据触角深探个人生活: 数据可描绘的个人画像逐步深入 , 从无关痛痒的外在场景化消费信息 ,变为直指个人身份的关键依据 。 以医疗数据为例 , 随着医疗系统的数字化以及数字化医疗渐成大势 , 个人外在身份 、 既往疾病信息 、 体内指标等数据足够勾勒出细微信息 , 数据深入了更为隐秘的角落 。在现今的数据维度下 , 一旦有企业个体出于特定目的汇集金融 、 出行 、 医疗等多维数据 , 牵涉的数据主体的隐私将暴露无疑 。 对于大数据时代的数据主体而言 , 隐私问题早已是重大风险项 。底层价值:应对长期潜伏的数据隐私与安全挑战1 IBM. Cost of a Data Breach Report 2021. 、 盗用行为 , 及自然灾害 、 技术问题带来的个人和机构的兴趣利益受侵犯的安全 。 根据 2021 年 6 月通过的 中华人民共和国数据安全法 : “ 数据安全 , 是指通过采取必要措施 , 确保数据处于有效保护和合法利用的状态 ,以及具备保障持续安全状态的能力 。 ”在数据安全实践上 , 据著名数据安全商 RBS 统计 , 2020 年据公开渠道统计共有近 4000 起相关信息泄露事件使个人处于受威胁的状态中 。 此外海量商业机密也将使机构蒙受可能损失 3。8底层价值:应对长期潜伏的数据隐私与安全挑战2020 年 , 芬兰心理健康服务平台 Vastaamo发生大规模数据泄露事件 。由于该公司系统安全漏洞 , 4 万多个客户的基本信息和医生诊疗的手账全部落到黑客手中 。其后 , 多达 300 多个客户的资料被黑客分批泄露到暗网中 , 黑客直接在网络上要挟分批次释放客户信息 , 名单上的客户若不及时满足他们索要的金额便将之公之于众 。其后黑客分批次将其完全暴露在网上 , 包含客户诊疗时真实记录等信息曝光 , 部分客户隐秘角落被迫公之于众 。 泄露信息囊括了医生详细案例的问诊手记 , 如实记录病人病理情况诸多细节 。作为医疗数据 , 事件影响直抵个人 , 并对平台造成了决定性的破坏影响 。泄露开始于 2020 年 10 月 , 仅仅数月之后的来年 2 月 , 历经两轮融资 、 有近 400 人团队的 Vastaamo 宣告破产 。对用户而言这起事件无疑是一场灾难 , 个人名誉收到严重侵害 , 而同时对其他公司也敲了一记响亮的警钟 , 提醒业界公司重视客户隐私和数据安全 2。Vastaamo 公司数据泄露事件2 Ralston, W. They Told Their Therapists Everything. Hackers Leaked It All. WIRED. RiskBased Security. (2020). 2020 Year End Report Data Breach QuickView. 3.数据隐私与数据安全:相互交织 , 共同构成数字经济价值底座数据安全是数据存储 、 传输 、 使用三大环节中最重要底层安全之一 。 数据隐私则是在数据安全之上发展性价值 。 两者的在概念上具有交叉部分 、 实践过程中也常常关联在一起 。 如果数据安全缺乏保障 , 在国家层面数据主权将无从建立 , 在机构和个人方面则基本利益将受到侵害 。数据安全是数据的基础性需求 , 只有数据安全得以保障 , 数据存储 、 传输 、 使用的任一流程 、任一主体才能自如参与全链路 , 以数据达成自己的利益兴趣 。 而数据隐私则是建立在数据安全基础之上的数据价值理念 , 在层级上比数据安全更高 , 在时间发展先后性上 , 往往只有当基层建设 ( 也即数据安全 ) 达成一定程度的成功后 , 才逐渐浮现 。两者关系密不可分 , 主要表现在数据隐私的前提是数据安全 。 只有数据无法被非法第三方截取 、篡改 、 非法持有 , 数据的隐私才得以保障 。 根据数据安全伦理研究学者意见 , 数据的基础价值有数据安全 、 数据隐私 、 数据平等和数据可问责四项基本内容 。 与数据安全相比 , 数据隐私往往体现为发展性需求 。隐私问题在近几十年重视程度不断加深 , 从宏观的法律法规导向到社会舆论兴起 , 最后才是推动了商业机构的拓展落地 。 与之类似 , 中国的隐私问题在近年来在多方的注视下从理论上落地现实 , 相关话题从懵懂的意识 、 社会讨论 、 共识逐渐生成 , 最终到立法机构推动 、 行业标准形成 、 约束机制等方面落地 。9底层价值:应对长期潜伏的数据隐私与安全挑战10强化监管:促进数据合规利用 , 守护基本价值1.以欧洲 GDPR 法规为代表 , 世界范围内数据监管力度加强欧洲作为隐私保护先驱 , 制定具有开创性的指令与法律: 在世界范围内 , 数据隐私相关法律法规最早可追溯至以 通用数据保护条例 ( GDPR) 为线索的欧盟系列规定 。早在 1995 年 , 欧盟就通过了 数据保护指令 ( Data Protection Directive) , 明确规定了最低的数据隐私与数据安全底线标准 。 该指令为法律框架而非主权国家法律 , 需要转为欧盟成员国的法律从而生效 , 为各个国家自行落实 。 因此在约束力层面与法律难以相提并论 。随着以互联网为代表的新兴数据载体崛起 , 数据隐私与数据安全迎来新的挑战 。 在 2011 年 ,谷歌公司为精准推送广告擅自扫描用户的邮箱内容 , 因侵犯用户隐私被告上法庭 。 由该案延伸出的数据隐私 、 数据确权问题引起了广泛讨论 。 自此欧盟逐渐意识到 “ 需要全面深刻的保护个人隐私方式 ” , 于是开启了对 数据保护指令 更新工作 。 到 2016 年 , 欧洲议会正式通过 通用数据保护条例 并生效 。 从 1995 年的 “ 指令 ” 升级为 2016 年的 “ 条例 ” 以法规形式对欧盟成员国产生直接约束作用 。 到 2018 年 5 月 , 该法规正式全面落地欧盟所有机构 4。 通用数据保护条例 规定了包括 “ 目的限定 ” ( 数据搜集仅出自特定目的 ) 、 “ 数据最小化 ”( 严格限定搜集的数据量 ) 、 “ 正当与负责 ” ( 确保数据安全 、 正当 、 保密 , 可动用加密机制 )的基本原则 , 在数据隐私方面法规中具有领先的指导意义 。 而在 2018 年 , 美国加州通过了 加利福尼亚州消费者隐私保护法案 ( CCPA) , 该法案一定程度上承接了欧洲 GDPR 的部分精神 , 规范企业如何处理消费者的个人信息 。4 GDPR.EU. What is GDPR, the EUs new data protection law? gdpr.eu/what-is-gdpr/中国近年来陆续出台重要法律 , 逐步完善框架 、 守护隐私: 在中国 , 与数据隐私 、 数据安全相关的法律法规主要有三部:分别为 2017 年生效的 网络安全法 、 2021 年 9 月生效的 数据安全法 和 2021 年 11 月生效的 个人信息保护法 。 三 部法律共同确立了中国数据隐私 、数据安全的法律框架主体 , 分别在网络安全管理 、 数据安全与发展 、 个人信息处理权利义务等领域做了界定与规定 , 使得数据流转的安全 、 隐私有法可依 。其中 , 个人信息保护法 被部分媒体称为最为严格的个人信息保护法律法规 。 在基本的内容上 , 该法承接了上述几个法律法规文档部分精神 , 限定了目的的正当性 , 搜集个人信息目的的明确性 , 以及搜集的数据量限定于能直接服务于目的的最小范围 。强化监管:促进数据合规利用 , 守护基本价值国家 /地区 法律法规 生效时间中国 网络安全法 2017.06 数据安全法 2021.06 个人信息保护法 2021.11欧洲 关于个人数据处理保护与自由流动指令 1998.10 数据保护通用条例 2018.05美国 加州消费者隐私法案 2018.06加拿大 个人信息保护和电子文件法 2001.01日本 个人信息保护法 修改法案 2020.06表 | 主要国家 /地区的隐私相关法律法规( 来源: CB Insights 中国)强化监管:促进数据合规利用 , 守护基本价值2.监管精神:厘清合规条例 , 促进数据经济要素的自由流转作为重要性日益凸显的经济要素 , 数据只有在合理地流动中才能产生相应的价值 。 因此 , 对数据隐私的加强保护并不等同于弱化数据流动 。 相反 , 从各国的法律法规中 , 都能见到促进数据在合规前提下 , 强化数据价值的相关精神体现 。在欧洲的 通用数据保护条例 中 , 序言第 26 条指出:数据保护原则不适用于匿名化的信息 ,也即不适用于非身份数据 。 同时 , 若个人信息数据已匿名化处理且不再可识别身份 , 同样不适用该原则 、 法律 。 因此 , 出于统计或研究目的并经过匿名化处理的信息 , 该法并不适用 5。而 中华人民共和国个人信息保护法 明确规定 “ 个人信息是以电子或者其他方式记录的与已识别或者可识别的自然人有关的各种信息 , 不包括匿名化处理后的信息 。 ” 其中 , “ 匿名化处理后的信息 ” 不属于匿名信息 , 在保护隐私的前提下 , 为各种数据应用打开了窗口 。 在该法的第五十一条中 , 明确了可以 “ 采取相应的加密 、 去标识化等安全技术措施 ” 从而使得个人信息处理过程合法合规 , 防止个人信息的泄露 、 篡改和丢失 6。由上述法律法规的精神与细则可以看到 , 数据隐私方面的相关顶层设计无不在隐私与利用两者间周旋 。 基本精神是在倡导保障隐私前提下 , 合规利用数据 。 不难看出为促进数据有效利用 ,以欧洲和中国为代表的监管主体都在为数据确权做出相应努力 , 从而使得数据在合规前提下自由流转 , 最终使得数据要素转变为经济要素 , 得以促进数字经济的发展 。技术增益:隐私计算技术蓬勃发展 , 为数据合规提供技术支持原本为了保护用户隐私的监管措施 , 在世界范围内不断延伸落地 、 在不同领域掀起了数字经济变革 。 从结果来看 , 不仅没有阻碍数据流通 , 反而首先为数据确权 、 消费者权益保护 、 企业数据利用边界等诸多领域做出了应用的界定 , 由此促进数据合法合规利用 , 为数字经济规范化发展铺垫基础 。而早在政策 、 立法等动作之前 , 早有业界案例回响着数据滥用 、 隐私侵犯等问题 。 Netflix 在2010 年的算法大赛可以看作是早期大企业在隐私问题上犯错的一个浓缩案例 。 Netflix 虽在技术上使用传统手段删去用户个人信息 , 但随着数字深入社会生活底层 , 多维数据可交叉验证成为新常态 , 旧有技术失去效力 。类似的 , 以推荐算法为部分核心底层技术的互联网内容提供商都面临同样的境地 。 传统的隐私保护方案不再持续有效 , 亟待业界的更多技术进展弥补缺漏 。 而随着时间发展 , 部分国内外互联网大厂在 2C 场景应用差分隐私技术做出了成熟的实践案例 , 差分隐私技术核心在于本地对2010 年 , Netflix( 网飞 ) 为了得到更好的影视 剧 推 荐 算 法 , 举 办 了 第 二 届 “ NetflixPrize” 。 Netflix 计划向有能力提升将算法精度提升 10% 的选手授予 100 万美元 。为了喂养算法 , Netflix 主动向参赛者释放了 1亿条信息 , 主要是用户电影观看记录 、 偏好类型及评分 。 数据中的用户个人身份信息已被Netflix 提前删除 , 理论上无法定位到具体个人 。案例赛事最后吸引了超过 5 万名研究者参与 , 在机器学习研究领域中引发巨大反响 。然而这些数据在释出后遭到 UT-Austin( 得克萨斯大学奥斯汀分校 ) 两位研究者攻破 , 研究者利用 IMDB 数据库联合对比分析 , 还原了部分用户真实身份 。 随后 Netflix 因隐私问题引起了美国商务部注意及被提起诉讼 , 不久赛事宣告终结 5。Netlix 数据泄露事件5 Taylor Buley. Netflix Settles Privacy Lawsuit, Cancels Prize Sequel. Forbes. “ 噪音 ” , 随后上传至云端完成大规模统计等操作 。 这一技术使得原始个人信息数据不离本地 , 出库后的数据处于无法被还原 、 无法定位到个人的状态 。技术增益:隐私计算技术蓬勃发展 , 为数据合规提供技术支持厂商 应用 功能APPLE 输入法、应用耗电量检测 获取词语联想、 app 耗电量情况GOOGLE 谷歌地图 搜集地图的用户数量,计算出相应区域拥挤程度小米 MIUI 手机系统地图应用 模糊定位,应用仅能获得用户大致位置表 | 已投入成熟运用的差分隐私科技公司使用案例( 来源: CB Insights 中国)差分隐私科技公司使用案例 2 : GOOGLE最早在 2014 年前后便将其拆分隐私技术应用于旗下应用:在谷歌浏览器中 、 使用拆分隐私技术 , 谷歌搜集用户脱敏后的信息用于提升产品 。 在地图中 , 谷歌利用拆分隐私技术汇集脱敏后的数据 , 勾勒交通流量 。 在 2019 年 , 谷歌宣布将旗下拆分隐私技术库开源 , 为开发人员提供技术及交互界面 。 在新冠肆虐的 2020 年 , 谷歌在地图中搜集了脱敏之后的数据 , 掌握区域的拥挤程度 , 并提供报告 , 帮助相关公共健康部门采取相应措施 、 防控疫情 7。差分隐私科技公司使用案例 1 : APPLE响应用户忧虑与需求 , 2016 年前后苹果公司推出了 “ 拆分隐私 ” 技术 , 意图在保护用户私人隐私前提下搜集数据 , 开拓数据获取渠道 、 喂养和迭代推荐算法 , 为用户提供更为精准的服务 。 苹果利用拆分隐私技术搜集匿名用户信息 , 提供词汇联想 、 表情推荐 、耗电量应用检测等服务 6。6 Differential Privacy Team. Learning with Privacy at ScaleApple Machine Learning Research. APPLE. Lily Hay Newman. Google Wants to Help Tech Companies Know Less About You. WIRED. , 在实际社会实践中往往体现为一个动态的认知过程 , 并且受社会文化 、 经济发展情况等不同维度因素所影响 。 随着中国监管加强 , 尤其在 2021 年随着 数据安全法 、 个人信息保护法 两部法律出台 , 数据流通和使用面临了更严格 、 更明确的合规要求 。以此为背景 , 隐私计算赛道在近年来掀起了投融资高潮 , 投融资趋势与近年来用户端的隐私意识崛起 、 政策端的监管加强有着高度相关性 。 目前 , 中国专注于隐私计算技术方案的公司融资阶段多集中在 A-B 轮 , 企业尚处成长性较大的早期阶段 。表 | 2021H2 中国隐私计算行业部分投融资事件( 来源: CB Insights 中国)公司 融资时间 融资轮次 融资金额(元) 投资机构洞见科技 2021-12-30 战略投资 数千万 中国电科、 元起资本融数智联 2021-12-15 A 轮 未披露 英诺天使基金、 AC加速器、泰有投资、启迪之星华控清交 2021-10-12 B 轮 5 亿 联想创投、中关村科学城、 华兴资本数牍科技 2021-09-27 A 轮 超 3 亿GGV纪源资本、上海人工智能产业基金、深创投、红杉中国等同态科技 2021-09-23 Pre-A 轮 数千万 东方富海、中南资本锘崴科技 2021-08-09 B 轮 1 亿东翰派富、致远互联、海南然格、黎刚资本、启明创投等翼方健数 2021-07-29 B+ 轮 超 3 亿 未披露冲量在线 2021-07-19 Pre-A 轮 数千万 元禾原点、 IDG资本富数科技 2021-07-15 C 轮 数亿 中网投、同创伟业16Chapter 2利器:隐私计算三类技术路线,六个技术子项 隐私计算技术综述 隐私计算技术子项 安全多方计算( MPC) 同态加密( HE) 差分隐私( DP) 零知识证明( ZK) 联邦学习( FL) 可信任执行环境( TEE)在技术基本定义层面 , 需要指出的是 “ 隐私计算 ” 并不单指一项具体的可以落实的技术项目 ,而是以实现数据隐私和数据合规目的为驱动的多个路线的一箩筐技术项 。在中文语境下 , 保护隐私的相关技术合集最常被称为 “ 隐私计算 “ 。 在英文语境中常见有两种称谓:例如英国皇家学会研究称之为 Privacy Enhancing Technologies( PET, 隐私增强科技 )8 , 而 在 联 合 国 大 数 据 工 作 组 的 研 究 中 则 被 称 为 Privacy-Preserving ComputationTechniques( PPT, 隐私保护计算技术 ) 9。在这些不同的研究中 , 命名的语义上各有侧重 , 所涵盖的技术子项则不尽相同 。 在主流英文产业研究中 , 且除了咨询研报面向产业 、 以数据价值为导向 , 常见的 PET 和 PPT 公开研究许多由公共机构推动 、 以数据治理为导向 , 侧重于宣扬技术宏观社会价值 , 这一点与中国或偏向技术或以商业为导向的研究有所区别 。根据目前中国业界普遍认可的技术范畴取概念共识 , 隐私计算指的是包含了安全多方计算 、 同态加密 、 差分隐私 、 零知识证明 、 联邦学习以及可执行环境等主流技术子项的相关技术合集及产品方案 。本报告将上述技术分为三大路径:以安全多方计算为代表的密码学路径 、 以可信任执行环境为代表的硬件路径和以联邦学习为代表的人工智能路径 。 在法律法规 、 产业落地多维趋势之前 ,三大路径的隐私计算研究应用早已开启 , 并且按照各自技术路径呈现了各自发展脉络:隐私计算技术综述8 Royal Society (Great Britain). (2019). Protecting privacy in practice: The current use, development and limits of privacy enhancing technologies in data analysis.9 The Privacy Preserving Techniques Task Team (PPTTT). (2018). UN Handbook on Privacy-Preserving Computation Techniques. 安全多方计算 ( MPC) : 早在 1986 年 , 著名计算机科学家 、 图灵奖得主姚期智教授提出了两方之间的安全计算设想方案 , 以会议论文 How to Generate and Exchange Secrets为标志开启了安全多方计算 ( Secure Multi-party Computation) 的研究路径 10。 可信执行环境 ( TEE) : 在 2003 年 , 由 Ben Pfaff 等人讨论了可信执行环境 , 并将其定义为 “ 专用的封闭虚拟机 , 并与平台的其他部分相隔离 。 并通过硬件内存保护和储存加密保护 ,使其内容免于未授权方的探查和篡改 。 ” 在 2009 年则有移动终端行业论坛 OMTP( 开放式移动终端平台组织 ) 提出了 “ 高级信任环境 ” 的设想 11 。 联邦学习 ( FL) : 在 2016 年 , 以 Brendan McMahan 为代表的一组谷歌研究者提出了一种深度网络的联邦学习 , 以解决大数据训练过程中的隐私难题 。 该方案通过将数据训练工作从中心节点下放至分布式本地手机设备 , 利用分散的本地化算力本地提取模型 , 其次二次汇集模型 、 中心化训练这些模型从而完成训练流程 , 由此开启了联邦学习研究与应用 12。在早期 , 不论是中国的研究亦或是欧美以政府 、 研究机构主导的相关研究都将 “ 隐私计算 ” 放置于数据安全 、 数据隐私领域全链路主题下 , 从维护民众和用户的隐私权利出发 , 使其免于商业乃至其他利益侵害 , 相关技术合集 “ 隐私计算 ” 往往是一个泛化的概念 , 并不被视为整一 、独立且严格定义的技术范畴 。18隐私计算技术综述10 Domingo-Ferrer, J., & Blanco-Justicia, A. (2020). Privacy-Preserving Technologies. In The Ethics of Cybersecurity (pp. 279-297). Springer, Cham.11 Sabt, M., Achemlal, M., & Bouabdallah, A. (2015, August). Trusted execution environment: what it is, and what it is not. In 2015 IEEE Trustcom/BigDataSE/ISPA (Vol. 1, pp. 57-64). IEEE.12 刘俊旭 , & 孟小峰 . (2020). 机器学习的隐私保护研究综述 . 计算机研究与发展 , 57(2), 346.针对上述研究和业界现状 , 2016 年中国科学院信息工程研究所李凤华等人发表了 隐私计算研究范畴及发展趋势 , 初步定义了严格的 “ 隐私计算 ” 范畴 13。 随后在 2019 年发表了 隐私计算 概念 、 计算框架及其未来发展趋势 的论文 , 明确了隐私计算的理论体系 , 从而将这一概念正式落地 14。 今日业界所讨论的 “ 隐私计算 ” 概念和技术基本与文中的研究相印证 ,系列论文和讨论内容可以看作是隐私计算范畴凝练的开启与总结 。同样需要指出的是 , 尽管 “ 隐私计算 ” 是新的技术概念和范畴 , 在商业端呈现了所有新兴技术产业化落地的特征 , 但隐私计算所涵括的多数技术子项在纯研究与方案设想方面已经发展成熟( 譬如安全多方计算可追溯至上世纪 70、 80 年代 ) 。 与技术导向性较强的商业应用类似 , 隐私计算业界基本是将成熟的技术研究产品化落地在不同场景进行调试并在终端探索更好的产品 。因此行业总体呈现出研究先行 、 商业落地则在工程化 、 产品化上发力的特点 。图 | 2019 年李凤华等人对隐私计算的总结性研究 (来源: CB Insights 中国整理 )提出解决方案 针 对 体 系 化 需 求场景 , 提出隐私计算理论 关 键 技 术 体 系 包含 框 架 、 形式化定义 、 原则 、 算法 设 计 准 则 、 效果 评 估 、 计算语言隐私保护方案问题 仅 针 对 局 部 的 孤立场景 仅动用特定技术 、算法框架 缺 乏 复 杂 应 用 场景隐私保护方案研究价值 确 定 了 体 系 化 隐私计算理论体系 引 入 多 场 景 数 据集 普 适 性 算 法 框架 、 倡导多种技术路线组合 为 隐 私 计 算 理 论标准 、 行业标准提供理论支持隐私计算技术综述13 李凤华 , 李晖 , 贾焰 , 俞能海 , & 翁健 . (2016). 隐私计算研究范畴及发展趋势 . 通信学报 , 37(4), 1-11.14 李凤华 , 李晖 , 牛犇 & 陈金俊 . (2019). 隐私计算 概念、计算框架及其未来发展趋势 . Engineering(06).20隐私计算技术子项 安全多方计算 ( MPC)技术简述: 安全多方计算 ( Secure Multi-party Computation, MPC) 是一种密码学领域的隐私保护分布式计算技术 。 安全多方计算能够使多方在互相不知晓对方内容的情况下 , 参与协同计算 , 最终产生有价值的分析内容 。安全多方计算适用于有多方联合计算需求 、 同时不想暴露己方信息的情境 , 尤其在法律禁止多方数据共享的某些情境下 , 具有较强应用意义 。 安全多方计算过程并不需要可信第三方的参与 ,因此理论上安全等级较高 。技术局限: 由于安全多方计算采用的是密码学路径 , 相比于明文数据计算消耗更大算力 。 同时 ,分布式计算架构致使其具有延迟 , 因此总耗时也延长 。 此外安全多方计算还面临密钥可能泄露带来的安全 、 隐私挑战 。研究开端姚期智首先提出两方的安全计算方案设想 151986研究进展Goldreich 等人将姚期智最早设想推进至多方情境 161987研究进展Ben-Or 等人及Chaum 等人开发了首个无条件安全多方计算协议 171988最初产品化耶路撒冷大学的Dahlia Malkhi 等人开发了第一个多方安全计算原型(实际为两方的安全计算) 182004实际应用第一例安全多方计算实用案例出现:在丹麦 Danisco集团与农户的交易中 , 使用安全多方计算为糖用生菜定价 , 同时不泄露农户各自的经济状况192010图 | 安全多方计算的研究、产品化历程 (来源: CB Insights 中国 )151617 Domingo-Ferrer, J., & Blanco-Justicia, A. (2020). Privacy-Preserving Technologies. In The Ethics of Cybersecurity (pp. 279-297). Springer, Cham.18 Malkhi, D., Nisan, N., Pinkas, B., & Sella, Y. (2004, August). Fairplay-Secure Two-Party Computation System. In USENIX Security Symposium(Vol. 4, p. 9).19 Damgard, I., & Toft, T. (2008). Trading sugar beet quotas: secure multiparty computation in practice. Ercim News, (73), 32-33.技术简述: 同态加密 ( Homomorphic Encryption, HE) 指的是能够直接使用密文进行特定运算的加密技术 。 在同态加密计算过程中 , 无需密钥即可实现操作 , 而结果仍需密钥解密从而变为明文 , 在解密后 , 得到与明文计算相同的结果 。同态加密可直接对密文进行分析 、 检索 。 因此在达成保护隐私的前提下 , 还能实现某些数据操作 。 同态加密实现了数据使用过程 ( Data in use) 中的加密 , 适用于部分诚信和恶意环境中 ,以保护数据安全与隐私 。 目前适用场景有医疗数据加密 、 顾客数据分析 、 多个机构间客户的交叉分析等 。技术局限: 技术仍旧处于早期成熟阶段 。 相比于明文计算 , 同态加密后的计算流程算力消耗巨大同时数据吞吐量较低 。 此外 , 由于同态加密后的数据体积增大 、 将会挤占网络带宽 。 因此 ,诸如全同态加密在运行速度随着数据量增多 、 计算耗时急剧增多等问题仍有待研究持续推进 。研究开端支持单一加法或乘法的部分同态加密方案开始为人熟知;Rivest 和 Adleman 等人开始对“同态性质”实用价值进行探索 201970年代研究进展Craig Gentry 等人设想了第一个“全同态加密方案” 212009研究进展随着领域进展不断累积, IBM 实验室发布了同态加库“ HElib”,将同态加密的运算表现先提升了几个数量级2013商业化部分同态加密开始实际商用化,同时标准化过程逐步开始2017图 | 同态加密的研究、产品化历程 (来源: CB Insights 中国 )隐私计算技术子项 同态加密 ( HE)20 Rivest, R. L., Adleman, L., & Dertouzos, M. L. (1978). On data banks and privacy homomorphisms. Foundations of secure computation, 4(11), 169-180. 21 Gentry, C. (2009, May). Fully homomorphic encryption using ideal lattices. In Proceedings of the forty-first annual ACM symposium on Theory of computing (pp. 169-178).22技术简述: 差分隐私 ( Differential Privacy, DP) 是通过添加额外的随机数据 “ 噪音 ” 使真实信息淹没于其中 , 从而保护隐私的一种技术手段 。 在增加 “ 噪音 ” 的同时 , 差分隐私还允许汇合数据时进行精确计算 。 其优势在于 , 即使有恶意用户使用结果数据集反推原始数据 , 由于数据集中存在数据 “ 噪音 ” , 无法辨识数据真假 , 因此难以还原原始数据 。 与密码学其他相关协议相比 , 其优点在于无须加密 、 解密过程中的巨大算力消耗 , 可处理相对大型的数据量 ,
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642