2021年隐私计算白皮书.pdf

返回 相关 举报
2021年隐私计算白皮书.pdf_第1页
第1页 / 共57页
2021年隐私计算白皮书.pdf_第2页
第2页 / 共57页
2021年隐私计算白皮书.pdf_第3页
第3页 / 共57页
2021年隐私计算白皮书.pdf_第4页
第4页 / 共57页
2021年隐私计算白皮书.pdf_第5页
第5页 / 共57页
亲,该文档总共57页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
隐私计算白皮书 (2021 年) 隐私计算联盟 中国信息通信研究院云计算与大数据研究所 2021 年 7 月版 权 声 明 本报告 版 权 属 于 隐 私 计 算 联 盟 及 中 国 信 息 通 信 研 究 院 云计算与大数据研究所 , 并受法律 保护 。 转载、 摘编或利用 其它方式使用 本报告文字或者观点 的, 应 注明 “ 来源: 隐私 计算联盟、 中国信通院云大所 ” 。 违 反上述声明者, 本 院将追 究其相关法律责任。编写委员 会 主 要 编 写单 位 (排名不分先后) : 中国信息 通信研 究院云 计算与 大数据 研 究所、 上海富 数科技 有限 公司、蚂 蚁科技 集团股 份有限公 司、华 控清交信 息科技( 北京) 有限 公 司、 北京 数牍科 技有限 公司、 零知识 科 技 (北京 ) 有限 公司、 深圳市 腾讯计算 机系统 有限公 司、联 易融数 字 科技集团 有限公 司 参 与 编 写单 位 (排名不分先后) : 洞见 智 慧科 技 有限 公 司、 北 京 冲量 在 线 科技 有 限公 司 、天 翼 电子 商务 有 限公 司 (电 信 翼支 付) 、 天翼 云 科技 有 限公 司 、交 通 银行 股份 有限公司 、 上 海阵方 科技有 限公司 、 京 东科技控 股股份 有限公 司、 北 京瑞莱智 慧科技 有限公 司、 华为云 计算 技术有限 公司 、 蓝象 智联 (杭 州) 科 技有 限 公司 、 北京 融 数联 智科 技 有限 公 司、 神 谱科 技 (上 海) 有限公司 、 翼健 (上海 ) 信 息科技 有限 公司、 杭 州锘崴 信息科 技有限 公司、 杭州趣 链科技 有限公 司、 优刻 得科 技股份有 限公司、 医 渡云 (北 京) 技 术有限 公司 、 深圳 致星科 技有限 公司 ( 星云Clustar ) 、 上海浦 东 发展银行 股份有 限公司 、 中 国 光大银 行 股份有限 公司、 同盾科 技有限 公司、 零幺 宇宙 (上 海) 科技 有限公 司 、 牛津 (海南) 区块链 研究院 有限公司 、西安 纸贵互 联网科 技有限 公 司 本报 告 的法 律 合规 部 分还 得 到 了世 辉 律 师事 务 所 、 腾 讯研 究 院 、 广东君信 律师事 务所法 律专家 的审阅 。编 写 组主 要成 员 (排名不分先后) : 袁 博 闫 树 吕 艾 临 王思源 仵 姣 姣 魏 凯 姜 春 宇 刘嘉夕 靳 震 叶锦梅 李 雪 妮 卞 阳 黄 翠 婷 孙小超 王 磊 殷 山 昌 文 婷 任维赫 李 艺 王国赛 黄 丽 成 金银玉 单进勇 蔡超超 苏 冠 通 徐茂桐 李 南 程 勇 刘 江 刘淑珍 许 焱 陈 曦 姚 明 李 博 王 湾 湾 陈浩栋 周 岳 骞 章 庆 徐 潜 王益斌 刘 天 琪 王光中 谢 谨 夏伏彪 龚 自 洪 宋红花 孙中伟 雷明禹 徐 世 真 张 煜 林 佳 萍 毛仁歆 王 超 薛瑞东 黄 小 刚 祝文伟 黄 程 韦 张莺耀 范家璇 王 爽 李 帜 徐 静 汪 小 益 马 强 何 永 德 包仁义 黄 尧 杨 柳 马 文 婷 黄小芮 黄登玺 刘 巍 李 晓 林 彭宇翔 张 威 王江凌 于 昇 杨文韬 杨 珍I 前言 2020 年 4 月, 中共中央、 国务院 发布 关于构建 更加完 善的要 素 市场 化 配置 体 制机 制 的意 见 , 将数 据 同土 地 、劳 动 力、 资 本、 技术 等传统生 产要素 并列, 作为一 种新型 生 产要素参 与分配 。 作为 释放要 素价 值 的关 键 环节 , 数据 资 源的 开放 共 享、 交 换流 通 成为 重 要趋 势, 其需求日 益增加 。 然而, 近年来 数据安 全事件 频发 , 数据 安全威胁 日益严 峻。 特别 是 中 华人民 共和国 数据安 全法 的颁 布和实施 , 对 企业合 规安全 地 发挥数据 价值提 出了更 高的要 求。 既要 应用数据 , 又 要保护 安全 , 如 何兼顾发 展和安 全, 平 衡效率 和风险 , 在保障安 全的前 提下发 挥数据 价值, 是 当前面 临的重 要课题 。 以 多 方 安全计算 、 联邦 学习、 可信执 行环境等为代表的隐私计算技术为流通过程中数据的“ 可 用 不 可 见” 提供了解 决方案 , 已 在一些 领域开 始推 广应用 。 可以 说 , 隐私 计算是 在实现保 护数据 拥有者 的权益 安全及 个 人隐私的 前提下 , 实 现数据 的 流通及数 据价值 深度挖 掘的一 类重要 方 法。 近两 年 来, 在 政策 驱 动和 市 场 需求 同 时 作用 下 ,隐 私 计算 技 术、 产业、 应用 迅速发 展, 成为商 业和资 本 竞争的热 门赛道。 2020 年底, 中国信通 院在 工 业和信 息化 部 相关司 局 的指导下 , 联 合业界 六十余 家 技术企业 和应用 单位成 立隐私 计算联 盟 , 成为 隐私计 算领域 的重要 行 业组织。 2021 年, 中 国信通 院云大 所联 合隐私计 算联盟 的三十 余家企 业共同完 成了这 本 隐私 计算白皮 书 (2021 年) 。 本白 皮书试 图回答 以下这些 问题:II 隐私 计 算 是什 么 :为 什 么会 有 隐 私计 算 技术 ? 它 能发 挥 什么 价值?面 临什么 样的政 策环境 ? 隐私 计 算 技术 发 展情 况 :隐 私 计 算的 技 术体 系 是 怎样 的 ?各 类隐 私 计 算技 术 的方 案 架构 和 特 点有 哪 些? 每 种 隐私 计 算技 术擅 长 解 决的 问 题是 什 么? 其 成 熟度 和 缺陷 有 哪 些? 技 术融 合与扩充 的情况 如何? 隐私 计 算 应用 场 景: 隐 私计 算 常 用的 应 用场 景 有 哪些 ? 在每 个场景里 ,隐私 计算解 决了什 么痛点 、 如何应用 ? 隐私 计 算 产业 发 展情 况 :国 内 外 隐私 计 算主 要 有 哪些 企 业? 隐私 计 算 行业 的 商业 模 式、 论 文 情况 、 技术 开 源 情况 、 标准 建设情况 如何? 隐私 计 算 合规 性 情况 : 从法 律 视 角看 , 隐私 计 算 解决 了 哪些 数据 流 通 的合 规 性问 题 ?应 用 隐 私计 算 过程 中 , 面临 哪 些合 规性风险 ?如何 解决这 些风险 ? 隐私 计 算面 临 的 问题 与 挑战 : 隐私 计 算 的发 展 面临 哪 些 问题 ? 这些问题 该如何 改善? 道阻且长, 行 则将至; 行而不 辍, 未来可 期。 面对这个 日新月 异、 快速发展 的行业 , 我们 期待与 业界共 同 守正创新 , 推动 隐私计 算行业 健康发展 , 让 隐私计 算在数 据要素 市场 建设和数 据流通 过程中 发挥更 大的价值 !III 目录 第一章 隐 私计算 概述 . 1 (一)数 据流通 需求推 动隐私 计算势 头 火热 . 1 (二)政 策环境 为隐私 计算发 展提供 新 机遇 . 2 第二章 隐 私计算 技术发 展态势 . 5 (一)隐 私计算 技术体 系基本 建立 . 5 (二)多 方安全 计算基 于密码 学原理 实 现通用计 算能力 . 6 (三)联 邦学习 变革机 器学习 范式广 泛 应用于联 合建模 . 9 (四)可 信执行 环境依 托于可 信硬件 提 供高效计 算方案 . 12 (五)相 关技术 扩充隐 私计算 技术体 系 . 15 第三章 隐 私计算 主要应 用场景 . 18 (一)联 合营销 :跨行 业数据 融合重 构 用户画像 . 18 (二)联 合风控 :引入 外部数 据优化 金 融风控模 型 . 20 (三)智 慧医疗 :数据 互通发 挥医学 数 据价值 . 21 (四)电 子政务 :促进 政务数 据安全 共 享开放 . 21 第四章 隐 私计算 产业发 展态势 . 23 (一)隐 私计算 市场发 展迅速 . 23 (二)产 业发展 配套环 境正在 逐步完 善 . 26 第五章 隐 私计算 合规探 讨 . 33 (一) 隐私计算 有助于 提升数 据流通 的合规 性 . 33 (二)隐 私计算 方案设 计需要 关注合 规 要求 . 34IV (三)隐 私计算 合规实 践路径 的探索 . 35 第六章 隐 私计算 的挑战 和难题 . 37 (一)安 全性挑 战影响 市场信 任. 37 (二)性 能瓶颈 阻碍隐 私计算 规模化 应 用 . 38 (三)互 联互通 壁垒或 使数据 “孤岛 ” 变“群岛 ” . 39 第七章 隐 私计算 发展展 望 . 41 (一) 算法优 化和硬 件加速 将成为 隐私 计算可用 性提升 的重 要方向 . 41 (二)多 元技术 融合有 望拓展 隐私计 算 应用边界 . 42 (三)标 准体系 制定有 望助 力 隐私计 算 应用落地 . 43 (四)多 方生态 融合有 望推进 隐私计 算 行业发展 . 44 附录 国内 主要隐 私计算 平台 . 451 第一章 隐私计算概述 隐私计算 (Privacy-preserving computation ) 是指 在保证 数据提 供 方不泄露 原始数 据的前 提下 , 对数 据进 行分析计 算的一 系列信 息技术, 保障数据 在流通 与融合 过程 中 的“ 可用不 可见” 。 站在数据 成为比 肩石油 的基础 性关键 战 略资源的 当下 , 隐私 计算 为需 求强 烈但 瓶 颈重 重的 数 据流 通提 供 了破 局思 路。Gartner 发 布的 2021 年前沿 科技战略 趋势中, 将隐私 计 算 (其称为 隐私增 强计算) 列 为未来几 年科技 发展的 九大趋 势之一 。 随着各方 关注度 的提升 , 隐私 计算 已 成为 发 展火 热 的新 兴 技术 ,跻 身 商业 和 资本 竞 争的 热 门赛 道。 (一 )数据流通需 求推动隐私计算 势头火热 数字经济 时代的 特点之 一便是 将数据 视 作关键的 生产要 素 , 并通 过跨 领 域、 跨 行业 、 跨地 域 的机 构间 数 据流 通 释放 要 素价 值 。但 是, 目前我国 数据要 素市场 化配置 尚处于 起 步阶段 , 规模 小 、 成长 慢、 制 约多,机 构间的 数据流 通仍存 在诸多 阻 碍。 一 是 数据 权属 的界 定 仍不 明确 , 在相关 立法和制 度尚未 健全的 当 下, 实 践中并 未能形 成具有 共识性 的权 属分割规 则, 产权争 议 、 难以 监管的风 险令供 需双方 望而却 步。 二 是 数 据 流通 的安 全风 险 高, 数据 安全事件 频发 , 出于 对国家 安全 、 个人 信息和商 业秘密 的保护 , 企 业 参与数据 流通的 主动性 、 积极性 因此降 低 。 三 是 如 何确 保流 通 过程 的2 安 全 合法 仍然 较难 把 握 。 现有监管要求 并未给出 数据对 外提供 和处理 的明确合 法依据 与参考 指引, 企业依 然 困惑于数 据可流 通的对 象、 范 围、 方式 等一系 列问题 。 除此 之外 , 数 据流通在 数据质 量、 数 据定价 等方面也 都面临 着诸多 挑战。 为解决上 述障碍 , 政 府部门 和大数 据行 业从业者 进行了 艰辛的 探 索, 寻求 通过技 术手段 解决个 人信息 保 护、 权益 分配、 数据安 全保障 、 追溯审计 等难题 。 针对 较为核 心的个 人 信息保护 , 业界 通过数 据标识 加密技术 、 数 据标识 关联技 术和有 效授 权技术等 为确保 敏感信 息不可 实别和确 保数据 仅在授 权范围 内使用 提 供了一定 的思路 。 但是, 以上技术 仍不能 抵御数 据流通 后 被反推和 滥用的 风险, 而 “可用不 可见” 的隐私 计算正 是解决 这 一问题的 技术突 破口。 从技术 原理讲 , 隐私计 算并不 能简单 归属于 某 一个学科 领域, 而是一 套融合 了密码学 、 安全 硬件、 数据科 学、 人工 智能、 计 算机工 程等众 多领域 的跨学科 技术体 系, 包 含了多 方安全 计 算、 联 邦学习和 可信执 行环境 等不同的 代表性 技术方 案。 从 应用目 的 讲, 一 方面隐私 计算可 以增强 数据流通 过程中 对个人 标识、 用户隐 私 和数据安 全的保 护; 另 一方面 隐私计算 也为数 据的融 合应用 和价值 释 放提供了 新思路 。 (二)政策环境为隐私计算发展提 供新 机遇 近年来我 国数据 立法进 程不断 加快 , 尤 其强调数 据应用 过程中 的 数据安全。 中 华人民 共和国 网络安 全法 中华 人民共 和国数 据安全 法 和 中 华 人民 共 和国 个 人信 息保 护 法( 草 案) 逐 步 完善 了 国家 数据相关 立法的 顶层设 计, 着重强 调了 流通过程 中的数 据安全 和个人3 信息保护 。 隐私计算 是平衡 数据利 用与安 全的重 要 路径。 自 2016 年, 工业 和信息化 部、 中 国人民 银行、 国家发 改 委、 中央 网信 办 、 国家 能源局 等 各 部 委 先 后 在 相 关 政 策 文 件 中 提 出 加 强 隐 私 计 算 相 关 技 术 的 攻 关 和应用。 人民银 行于 2021 年 5 月 组织 金融机构 开展包 括应用 隐私计 算进行数 据共享 在内的 金融数 据综合 应 用试点 。 在地方 政府层 面, 广 东省于 7 月发布 的 数 据要素 市场化 配 置改革行 动方案 中提 出构建 包含隐私 计算在 内的数 据新型 基础设 施 。 政策 的提前 布局对 于我国 抢 占隐私计 算技术 和应用 关键领 域奠定 了 良好基础 。 表 1:相 关 法律 及政 策文 件梳 理 时间 文件名 发布单位 简述 法 律 2016 年11 月 中 华 人 民 共 和 国 网 络安全法 十二届全国人大 常委会第二十四 次会议 强调对收集的用户信息严 格保密, 维护 网络数据的完 整性、 保密性和 可用性, 实 行网络安全等级保 护制度 2021 年4 月 中 华 人 民 共 和 国 个 人信息保护法(草案) 十三届全国人大 常委会第二十八 次会议 强调个人信息在数据流通 过程中的安全合规 2021 年6 月 中 华 人 民 共 和 国 数 据安全法 十三届全国人大 常委会第二十九 次会议 强调数据安全与开发利用 并重, 确立数 据分类分级管 理制度, 多种 手段保证数据 交易合法合规 政 策 文 件 2016 年12 月 大 数 据 产 业 发 展 规 划(2016-2020 年) 工业和信息化部 支持企业加强多方安全计 算等数据流通关键技术攻 关和测试验证 2019 年9 月 金融科技(FinTech) 发展规划(2019-2021 年) 中国人民银行 提出利用多方安全计算技 术提升金融服务安 全性 2019 年9 月 工 业 大 数 据 发 展 指 导意见 (征 求意见稿) 工业和信息化部 提出在工业领域积极推广 多方安全计算技术 , 促进工 业数据安全流通 2021 年5 月 全 国 一 体 化 大 数 据 中 心 协 同 创 新 体 系 算 力枢纽实施方案 国家发改委、中 央网信办、工业 提出“试验多方安 全计算、 区块链、 隐私计 算、 数据沙 箱等技术模式 , 构建数据可4 和信息化部、国 家能源局 信流通环境, 提高数据流通 效率” 2021 年7 月 网 络 安 全 产 业 高 质 量 发 展 三 年 行 动 计 划 (2021-2023 年) (征求 意见稿) 工业和信息化部 提出推动隐私计算等数据 安全技术的研究攻关和部 署应用, 促进 数据要素安全 有序流动 2021 年7 月 广 东 省 数 据 要 素 市 场 化 配 置 改 革 行 动 方 案 广东省人民政府 提出构建包含隐私计算在 内的数据新型基础 设施 技术价值 的凸显 , 再加 上政策 环境的 助 力, 隐 私计算在 数据相 关 产业内悄 然兴起 , 相关 的学术 会议和 论 文在近几 年呈现 大幅增 长, 相 关研究从 技术原 理逐步 转向应 用实践 。 在算法协 议不断 优化、 硬件性 能逐步增 强之下 , 隐私 计算的 可用性 大 大提升 , 越来越 多的企 业入局 隐私计算 的研发 和产品 化, 金 融风控 、 互联网营 销、 医 疗诊治 、 智慧 城市等越 来越多 的场景 落地应 用。 目 前 , 隐私 计算已成 为数据 流通领 域内最受 关注的 技术热 点,市 场一片 火 热。5 第二章 隐私计算技术发展态势 从 20 世纪 70 年代一直 到近年 , 隐私 计 算 交叉 融 合了 密 码学、 人 工智能 、 计算 机硬件 等众多 学科 , 逐渐 形成以多 方安全 计算 、 联邦 学 习、 可信 执行环 境为代表 , 混 淆电路 、 秘密分享 、 不经 意传输 等 作 为 底层密码 学技术 , 同 态加密 、 零 知识证 明、 差 分隐私 等 作 为 辅助技 术 的 相对成 熟的技 术 体系 , 为数 据安全 合 规流通提 供 了技 术保障 。 (一) 隐私计算技术体系基本建立 从技术角 度出发 , 隐私 计算是 涵盖众 多 学科的交 叉融合 技术, 目 前主流的 隐私计 算技术 主要分 为三大 方 向: 第 一类是 以多方 安全计 算 为代表的 基于密 码学的 隐私计 算技术 ; 第二类是 以联邦 学习为 代表的 人工智能 与 隐私 保护技 术 融合 衍生的 技 术; 第 三类是 以可信 执行环 境 为 代表的 基于可 信 硬件 的隐私 计算技 术 。 不同 技术往往 组合使 用, 在 保证 原 始数 据 安全 和 隐私 性 的同 时, 完 成对 数 据的 计 算和 分 析任 务。 图 1 隐私 计算 技术 体系6 隐私计算 技术为 数据的 隐私保 护与计 算 提供丰富 的解决 方案, 可从底层 硬件、 基础层 和算法 应用等 不 同角度加 以区分 。 如图 1 所示, 从 底 层 硬 件来 说, 多方安全计算与 联邦学 习通常 从软件层 面设计 安全框 架,以 通用硬 件 作为底层 基础架 构; 可 信执 行环境 则 是以可 信硬件 为底层 技术实 现 的隐私计 算方案 。 从 算法 构 造来 说, 多方安全计算 技术基 于各类基 础密码 学工具 设计不同 的安全 协议; 联邦学 习 除可将 多方安全 计算协 议 作为 其 隐 私保护的 技术支 撑外, 基于噪 声扰动 的 差分隐私 技术也 广泛应 用于 联邦学习 框架中 ; 可信 执行环 境 通常 与 一些密码 学算法 、安全 协议 相结合为 多方数 据提供 保护隐 私的安 全 计算。 从 算 法应 用来 说, 以不同 技术为 基础, 隐私计算 逐渐演 化出丰 富的算法 应用场景 。这 些应用 往往为 了 实现特定 计算目 的而组 合应 用了多种 隐私计 算技术 ,可更 直接用 于 实际生产 。联邦 学习 技 术方 案主要 应 用于联 合建模 和预测 场景中 ; 多方安全 计算和 可信执 行环 境则可 作 为更加 通用的 技术方 案,可 设 计用于联 合统计 、联合 查 询、联合 建模及 联合预 测等诸 多场景 。 还需要指 出的是 ,隐私 计算技 术体系 还 在快速发 展中。 以上划 分只是一 种业界 常用的 分类方 法。目 前 各类技术 也在互 相融合 ,有 望在更广 泛的场 景中发 挥作用 。 (二) 多 方 安全 计算 基于 密 码学 原理 实现 通用计 算 能力 1. 基本 方案 架构 多方安全 计算 (Secure Multi-party Computation ,MPC ) 由 图灵奖7 获得者姚 期智院 士于 1982 年通过 提出 和解答百 万富翁 问题而 创立, 是指 在 无可 信 第三 方 的情 况 下, 多个 参 与方 共 同计 算 一个 目 标函 数, 并且保证 每一方 仅获取 自己的 计算结 果 , 无法 通过计 算过程 中的交 互 数据推测 出其他 任意一 方的输 入数据 ( 除非函数 本身可 以由自 己的输 入 和获得 的输出 推测出 其他参 与方的 输 入) 。 图 2 多方 安全 计算 技术 框 架 如图 2 所示, 从 底 层 硬 件 来说 , 不同于 可信执行 环境基 于可信 硬 件来保证 数据的 隐私计 算, 多方安 全计 算以通用 硬件作 为底层 架构设 计基于密 码学的 算法协 议来实 现隐私 计 算。 从 算 法构 造来 说 , 多方安全计 算是多 种 密码学基 础工具 的综合 应 用, 除 混淆电 路 、 秘密 分享 、 不经 意传 输等密码 学 原理 构造的 经典多 方安全计 算协议 外, 其 它所 有用于 实现 多方安全 计算的 密码学 算法 都 可以构成 多方安 全计算 协议 , 因此 在实 现多方安 全计算 时也应 用了同 态加密 、 零知 识证明 等密码 学算法 (鉴 于同态加 密、 零知识 证明在 隐 私计 算 中的 特 殊地 位 ,后 面 我们 将单 独 叙述 ) , 有 时也 与 可信 执 行环 境 等基于 可信硬 件的隐 私计算 技术结 合 提供 安全 加强的 方案。 从 算 法应 用来 说 , 多方安全计 算根据 其 可在 各方 不泄露 输入数 据 的 前提下 完成多 方协同 分析 、 处理和 结 果发布这 一技术 特点, 广泛应8 用于联合 统计、 联合查 询 、 联 合建模 、 联合预测 等场 景 , 也可 以支持 用户自定 义计算 逻辑的 通用计 算需求 。 2. 相关 分析 从 协 议实 现角 度分 析, 在基 于 多方 安全计 算 的隐 私计 算领 域, 被 广 泛 应 用的 有 混淆 电 路、 秘密 分 享和 不经 意 传 输 等基础 密码学 技术 。 混 淆 电路 (Garbled Circuit ,GC )协 议 的 思想 起 源于姚 期智院 士 针 对百 万 富 翁问 题 提 出的 混 淆 电 路解决方案 , 因 此 也被 称 为“ 姚 氏电 路” 。 混淆 电 路 使用 布 尔 电 路构 造 安 全 函 数计 算 , 保证 一 方 输入 不 会 泄漏给其 他方, 计算出 结果 , 并能 指定 结果由哪 方获得 或者是 两方以 分片形式 共有。该 技 术可实 现各种 计算 , 常用于 通用 计算场景, 通信 量大但通 信轮数 固定, 适用于 高带宽 高 延迟场景 。 秘 密 分享 (Secret Sharing ,SS ) 协议 最 早由 Shamir 和 Blakley 在 1979 年提出, 是指 将 秘密信 息拆分 成若 干 分片, 由若干 参与者分 别保 存, 并 且通 过 参与 者 的合 作 , 对 分布 式 存储 的 各分 片 进行 安 全计 算, 全部分片 或达到 门限数 的分片 根据多 个 份额可重 新恢复 秘密信 息 。 秘 密分享计 算量小 、 通 信量较 低, 构造多 方加法 、 乘法 以及其 他更复 杂 的运算有 特别的 优势, 能实现 联合统 计 、建模、 预测等 多种功 能 。 不 经 意传 输 (Oblivious Transfer , OT ) 协 议由 Rabin 于 1981 年首 次提出 , 指数据 发送方有 n 个 数据 , 数 据接收方 接收其 选定的 一个数 据, 且 不能 获 取其 他 数据 , 同时 数据 发 送方 无 法知 道 接收 方 的 选 择。 不经意传 输常用 构造多 方安全 计算协 议 , 是 GMW 协议、 混淆电路 设 计、 乘法三 元组的 基础构 件, 还可 用于 实现隐私 集合求 交 (Private Set9 Intersection, PSI ) 、 隐 私信息 检索 (Private Information Retrieval , PIR ) 等多种多 方安全 计算功 能 。 3. 技术 特点 多 方 安 全 计 算 能 够 在 不 泄 漏 任 何 隐 私 数 据 的 情 况 下 让 多 方 数 据 共同参与 计算, 然后获 得准确 的结果 , 可以使多 个非互 信主体 在数据 相互保密的前提下进行 高效数据融合计 算 , 达到“ 数 据可 用 不 可 见” 。 最终实现 数据的 所有权 和数据 使用权 相 互分离 , 并控 制数据 的用途 和 用量 , 即某种 程度上 的“ 用途 可控可 计量” 。 多方 安全计 算 具有 很高的 安全性, 要 求敏 感的中 间计算 结果也 不 可以泄漏 ,并且 在近 40 年的 发展 中 其各 种 核心 技 术和 构 造方 案不 断 接受 学 术界 和 工业 界 的检 验, 具有很高 的可信 性, 其 性能在 各种研 究 中不断提 升, 现 在在很 多场景 下已经达 到了产 业能实 际应用 接受的 程 度。 然而 , 多方安 全计算 也面临 一些问 题, 例如: 密码学 复杂的 运算 过程造成 的计算 性能问 题, 不同技 术间 的加密数 据不能 互通造 成的新 的数据孤 岛问题 以及一 些传统 的安全 问 题等 。 这些问 题都是 制约多 方 安全计算 发展的 瓶颈。 (三) 联 邦 学习 变革 机器 学 习范 式广 泛应 用于联 合 建模 1. 基本 方案 架构 联邦学习 (Federated Learning , FL ) , 又 名联邦机 器学习 、 联合 学 习、 联 盟学 习 等。 联 邦学 习 是实 现在 本 地 原始数据 不 出库 的 情况 下, 通过 对 中间 加 密数 据 的流 通 与处 理来 完 成多 方 联合 的 机器 学 习训 练。 联邦学习 参与方 一般包 括数据 方、 算法 方、 协调方、 计 算方、 结果 方10 任务发起 方等角 色, 根据 参 与计算 的数 据在数据 方之间 分布的 情况不 同,可以 分为横 向联邦 学习、 纵向联 邦 学习和联 邦迁移 学习。 图 3 联邦 学习 技术 框架 如图 3 所示, 从 底 层 硬 件 来说 , 区别于 部署可信 硬件的 可信执 行 环境 等技 术,联 邦学习 一般 以 通用硬 件 作为底层 基础设 施。 从 算法 构 造来 说 , 常应用同态加 密、 差 分隐私技 术以及 包括基 于 秘密分享 、 不经 意传输 、 混 淆电路 等密 码学 原理 的各类 多方安 全计算 协议和其 它用于 保证隐 私计算 的密码 学 技术来提 升安全 性。 从 算 法应 用角 度来 说 , 随着产业应用 的 需求, 联 邦学习 框架也 可 与 可信执 行环境 配合使 用, 提供安 全性、 应用性更 强的综 合解决 方案。 由于联邦 学习是 基于人 工智能 的技术 工 具, 为 提升用 户隐私 和数据 安 全前提下 的联合 AI 模 型训练 效果而 提 出, 因此 广泛应 用于联 合建模 、 联合预测 等场景 中。 2. 相关 分析 如 何 有 效 协 调 数 据 参 与 方 协 同 构 建 模 型 是 联 邦 学 习 的 一 项 主 要 工作 。 因此 , 根 据协 调方 式 的不 同, 联 邦学 习 从拓 扑架 构的 角 度分 析, 可 分 类为 集中 式拓 扑 架构 和对 等网 络拓扑 架 构 1 。 1 引用 文献 : 杨 强等. 联 邦学 习实 战M. 北京: 电 子工 业出 社,2021.5:12.11 对于集中 式的拓 扑结构 , 一 般存在 一个 聚合各方 本地模 型参数 信 息的中心 计算节 点, 该 节点经 过联邦 平 均等相应 算法更 新后, 将结果 返回各方 。 其中 , 中 心计算 节点既 可能 是独立于 各参与 方的第 三方服 务器 , 也可 能 是某 一 特定 的 参与 方。 它 的优 势 在于 易于 设 计 与实 现 , 往往被认 为效率 更高, 但在一 定程度 上 牺牲了安 全性。 对于对等 式网络 拓扑结 构, 不 存在中 心 计算节点 , 各参 与方在 联 邦学习框 架中的 地位平 等。 相比 在 集中 式 的拓扑 结构中 需要考 虑 中心 计算方存在 泄露 隐私或 者遭受 恶意攻 击 等 的 安全 问题 , 分布 式的网 络 拓扑结构 安全性 更高 。 但分 布式拓 扑需 平等对待 联邦学 习 中的 每个参 与方 且 能够 使 所有 参 与方 有 效更 新模 型 并提 升 性能 , 设计 难度 较 大。 3. 技术 特点 联邦学习 针对 传 统的由 建模方 (计算 方 ) 收集 明文数据 并进行 人 工智能模 型训练 存在的 泄露训 练数据 隐 私的 问题 而提出 , 通 过对各 参 与方间的 模型信 息交换 过程增 加安全 设 计, 使 得构建 的全局 模型既 能 确保用户 隐私和 数据安 全, 又 能充分 利 用多方数 据, 是 解决数 据孤岛 和数据安 全问题 的重要 框架, 其 强调的 核心理念 是“ 数据不 动模型 动, 数据可用 不可见” 。 然而, 联邦学习 作为一 门跨密 码学 、 机 器学习等 领域的 人工智 能 学科, 其在 应用过 程中不 可避免的 会出 现许多新 的问题 和挑战, 例如: 联邦 学 习过 程 中出 现 的数 据 和模 型的 隐 私泄 露 和安 全 攻击 如 何防 护; 如何 对非 独立同 分布、 参差不 齐的质 量 的数据建 模; 如 何降低 通信复 杂度以及 计算复 杂度; 如何评 估各参 与 方的贡献 , 即联 邦奖励 机制问12 题; 如 何实现 不同联 邦学习 平台间 的互 联互通以 及联邦 学习的 可解释 性等 等问 题。 这 些仍需 要进一 步解决 和 完善。 (四) 可 信 执行 环境 依托 于 可信 硬件 提供 高效计 算 方案 1. 基本 方案 架构 可信执行 环境(Trusted Execution Environment ,TEE ) 通过软 硬 件方法在 中央处 理器 中 构建一 个安全 的 区域, 保证其 内部加 载的程序 和数据在 机密性 和完整 性上得 到保护 。TEE 是一个 隔离的 执行环境 , 为 在 设 备 上 运 行 的 受 信 任 应 用 程 序 提 供 了 比 普通 操 作 系 统 (Rich Operating System , RichOS ) 更高 级别的 安 全性以及 比安全 元件 (Secure Element ,SE )更 多的功 能。 目前主要 的 通用 计算芯 片厂商 发布 的 TEE 技术 方案包括 X86 指 令集架构 的 Intel SGX (Intel Software Guard Extensions )技术 、AMD SEV (Secure Encrypted Virtualization )技术以及高级 RISC 机器 (Advanced RISC Machine , ARM ) 指 令 集架构 的 TrustZone 技术。 而 国 内 计 算 芯 片 厂 商 推 出 的 TEE 功 能 则 包 括 兆 芯 ZX-TCT (Trusted Computing Technology ) 技术 、 海光 CSV (China Security Virtualization ) 技术,以 及 ARM 架构的 飞腾、 鲲鹏也 已推出自 主实现 的 TrustZone 功能。13 图 4 可信 执行 环境 技术 体 系 如图 4 所示, 从 底 层 硬件 来 说 , 不同于多方安全计 算和联 邦学习, TEE 将 多 方 数 据 集 中 到 可 信 硬 件 构 建 的 可 信 执 行 环 境 中 一 起 进 行 安 全 计算。 TEE 中可信 硬件一 般是 指 可信 执行控制 单元已 被预置 集成 的 商用 CPU 计算芯片 2 。 从 基 础算 法来 说 , 为了保证 传输至 可信环 境中 的数据的 安全性, TEE 常结 合 相关 密码 学 算法来 实现加 密和验 证 方案 3 。 从 应 用 角度 来说 , 作为通用的 计算 平 台,TEE 可以在 可信执 行环 境中对多 方数据 完成 联 合统计 、 联合 查 询、 联 合建模及 预测等 各种安 全 计算。 2. 相关 分析 硬 件实 现 目 前 主流的 TEE 技 术以 X86 指令 集 架构 的 Intel SGX 技术和 ARM 指 令 集架 构 的 TrustZone 技 术 为代 表 。 Intel SGX 技术 是一组 预置 在 Intel 商 用 计算芯片 内的 用 于增强 应 用程序代 码和数 据安全 性的指 令, 主要 面向 PC 端。 开发 者使用 SGX 指令 把 计算应用程序 的 安 全 计 算 过 程 封装在一个被称为飞地 (Enclave ) 的容器 内, 保障 用户关 键代 码和数据 的机密 性和完 整性。 2 芯片 设计 厂商 除提 供通 用指 令集 外, 针对 TEE 单 元会 提供 单 独的 TEE 指 令集 用于 驱动 TEE 设备 。 3 虽然 标准 定义 可以 通过 软件 方式 或硬 件方 式实 现 TEE , 但实 际生 产场 景下 ,行 业内 更多 通过 软硬 结合 的 方式 进行 安全 性的 保障 与支 持。14 Intel SGX 将 应用程 序以外 的软件栈 ( 如 OS 、BIOS 等 )都排 除在可 信计算基 (Trusted Computing Base ,TCB ) 以外 , 一旦 软件和 数据位 于 Encalve 中 , 即 便 是 操 作 系 统 和 虚 拟 机 监 视 器 (Virtual Machine Monitor ,VMM ) (也称 Hypervisor ) 也 无法影响 Enclave 里面的 代码 和数据, 从而在 安全隔 离的情 况下保 证 软件功能 的通用 性。 ARM TrustZone 技术 基于 ARM 芯片 , 主要面向 移动设 备, 是用 于 ARM 指令集体系结 构的 TEE 。ARM 通过对原有硬 件架构 进行修 改, 在 处理器 层次引 入了两 个不同 权限 的保护域安 全世界 和普通 世界, 任何时 刻处 理器仅 在其 中的 一个 环境内 运行。TrustZone 通过 中断路由 以及对 内存总 线和内 存管理 单 元的限制 来提供 隔离保 护。 3. 技术 特点 TEE 通过隔 离的执 行环境 ,提供 一个执 行空间, 该空间 有更强 的安全性 ,比安 全芯片 功能更 丰富, 提 供代码和 数据的 机密性 和完 整性保护 。 另外 , 与纯 软件的 密码学 隐 私保护方 案相比 ,TEE 不会 对隐私区 域内的 算法逻 辑语言 有可计 算 性方面的 限制, 支持更 多的 算子及复 杂算法 ,上层 业务 表 达性更 强 。 利用 TEE 提 供的计 算度量 功能,还 可实现 运行在 其内部 的 身份 、 数据、算 法 全流 程的计 算 一 致性 证明 4 。 TEE 因支持 多层次 、 高复 杂度的算 法逻 辑实现, 运 算效率 高以及 可信度量 保证运 行逻辑 可信等 的特点 , 被广泛 认 可, 但 其技术 本身依 4 基于 可信 度量 方式 ,单个 TEE 实例 内可 以整 合封 装身 份签 名 逻辑 、数据 Hash 逻 辑与 计算 逻辑 , 可 提供 身份 、数据 、 算法 三者 关联 的一 致性 证明 。15 赖硬件环 境,CPU 相 关实 现 属于 TCB , 由芯片 设备 的 设计生 产厂商 提供, 必 须确保 芯片厂 商可信 。 此外 使用 MPC 等密码学技 术与 TEE 技术相结 合可以 增强其 安全性 , 强化 TEE 实例之 间机密 通信和 组网 的安全性 ,进一 步防止 隐私数 据 泄露 。 (五 )相关技术扩充隐私计算技术 体系 除了上述 关键技 术, 同 态加密 、 零知 识 证明、 差 分隐私 、 区块 链 等技术也 常应用 或辅助 于隐私 计算。 同态加密 (Homomorphic Encryption , HE ) , 能
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642