公共数据开放 第2部分:数据脱敏指南DB37/T 3523.2-2019.pdf

返回 相关 举报
公共数据开放 第2部分:数据脱敏指南DB37/T 3523.2-2019.pdf_第1页
第1页 / 共8页
公共数据开放 第2部分:数据脱敏指南DB37/T 3523.2-2019.pdf_第2页
第2页 / 共8页
公共数据开放 第2部分:数据脱敏指南DB37/T 3523.2-2019.pdf_第3页
第3页 / 共8页
公共数据开放 第2部分:数据脱敏指南DB37/T 3523.2-2019.pdf_第4页
第4页 / 共8页
公共数据开放 第2部分:数据脱敏指南DB37/T 3523.2-2019.pdf_第5页
第5页 / 共8页
亲,该文档总共8页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
ICS 35.240 L 72 DB37 山东省地方标准 DB 37/T 3523.22019 公共数据 开放 第2 部分:数据脱敏 指南 Public data opennessPart 2:Data desensitization guidelines 2019-03-21 发布 2019-04-21 实施 山东省市场监督管理局 发布 DB37/T 3523.22019 I 目 次 前言.II 1 范围.1 2 规 范性 引用 文件.1 3 术 语和 定义.1 4 基本 原则.1 4.1 有效.1 4.2 真实.1 4.3 高效.2 4.4 稳定.2 4.5 可配 置.2 5 脱敏 规划.2 6 脱敏 流程.2 6.1 识别 敏感 数据.2 6.2 标识 敏感 数据.3 6.3 确定 脱敏 场景.3 6.4 选择 脱敏 方法.3 6.5 定义 脱敏 规则.3 6.6 执行 脱敏 操作.3 6.7 评估 脱敏 效果.3 附 录 A(资料 性附 录)数据 脱敏 方法.4 参考文 献.5 DB37/T 3523.22019 II 前 言 DB37/T 3523公 共数 据开放 分为 如下 部分:第1部分:基 本要 求;第2部分:数 据脱 敏指南;第3部分:开 放评 价指标 体 系;第4部分:本部分 为DB37/T 3523的第2部 分。本部分 按GB/T 1.12009 给出的 规则 起草。本部分 由山 东省 大数 据局 提出、归口 并监 督实 施。本部分 起草 单位:山 东省 大数据 局、山东 省公 安厅、山东 省计 算中 心(国家 超级计 算济 南中 心)、山东省 大数 据中 心、山东 省标准 化研 究院。本 部 分主 要起 草人:柯林森、赵 一新、李明、闫雷、赵 硕、史丛 丛、王 洪儒、张 媛、逄锦 山、綦 琳、陈洪波、李 学民、刘 晓飞、李刚、周 鸣乐。DB37/T 3523.22019 1 公 共数据 开放 第 2 部分:数据脱 敏指南 1 范围 本部分 提供 了公 共数 据开 放中数 据脱 敏的 指导 和建 议,并给 出了 基本 原则、脱敏 规 划、脱 敏流 程等方面需 考虑 的要 点信 息。本部分 适用 于山 东省 公共 数据开 放的 数据 脱敏 工作。2 规范性 引用 文件 下 列 文件 对于 本文 件的 应用 是 必不 可少 的。凡是 注日 期 的引 用文 件,仅所 注日 期 的版 本适 用于本文件。凡 是不 注日 期的 引用 文件,其最 新版 本(包括 所有的 修改 单)适用 于本 文件。GB/T 35273 信息 安全 技术 个人 信息 安全 规范 3 术语和 定义 下列术 语和 定义 适用 于本 文件。3.1 数据脱 敏 data desensitization 按照一 定规 则对 原始 数据 进行处 理,达到 屏蔽 敏感 信息的 一种 数据 保护 方法。3.2 个人敏 感信 息 personal sensitive information 一旦泄 露、非 法提 供或 滥 用可能 危害 人身 和财 产安 全,极易 导致 个人 名誉、身 心健康 受到 损害 或歧视性待 遇等 的个 人信 息。注:个人信息包括身份证件号码、个人生物识别信息、银行账号、通信记录和内容、财产信息、征信信息、行踪轨迹、住宿信息、健康生理信息、交易信息、14周岁以下(含)儿童的个人信息等。GB/T 35273,定 义3.2 4 基本原 则 4.1 有效 数据脱 敏宜 确保 脱敏 工作 的有效 性,去除 数据 中的 敏感信 息,保证 数据 安全,经数 据脱 敏处 理 后,原始信 息中 包含 的 敏感 信息 已 被移 除,无法 通过 处理 后 的数 据得 到敏 感信 息,并 防止 使用 非敏感数据推断、重 建敏 感原 始数 据。4.2 真实 DB37/T 3523.22019 2 数据脱 敏宜 确保 脱敏 工作 的真实 性,脱敏 后的 数据 应尽可 能真 实地 体现 原始 数据的 特征,且 应 尽 可能多保 留原 始数 据中 的有 意义信 息。在开 展数 据脱 敏工作 时,一般 情况 下宜 注意以 下方 面:a)保持原 数据 的格 式;b)保持原 数据 的类 型;c)保持原 数据 间的 依存 关系;d)保持语 义完 整性;e)保持引 用完 整性;f)保持数 据的 统计、聚 合等 特征;g)保持频 率分 布;h)保持唯 一性。4.3 高效 数 据 脱敏 宜确 保脱 敏工 作的 高 效性,宜通 过程 序自动 化 实现,并可 重复 执行。在 不影 响有 效性 的前提下,需注 意平 衡脱 敏的 力度与 所花 费的 代价,将 数据脱 敏的 工作 控制 在一 定的时 间和 经济 成本 内。4.4 稳定 数据脱 敏宜 确保 脱敏 工作 的稳定 性,需 保证 对相 同 的原始 数据,在各 输入 条 件一致 的前 提下,无论脱敏多 少次,其 最终 结果 相同。4.5 可配置 数 据 脱敏 宜确 保脱 敏工 作的 可 配置 性,按照 输入 条件 不 同生 成不 同的 脱敏 结果,从而 可按 数据使用场景等 因素 为不 同的 最终 用户提 供不 同的 脱敏 数据。5 脱敏规 划 宜对数 据脱 敏工 作进 行总 体规划,制 定完 备的 数据 脱敏工 作方 案,并对 可能 接触到 脱敏 数据 的 相 关方进行 数据 脱敏 规程 的培 训,并定 期评 估和 维护 数 据脱 敏规 程内 容。在 制定数 据 脱敏 工作 方案 时,宜考虑以下 因素:a)明确敏 感数 据管 理部 门,以及其 安全 责任 和义 务;b)建立敏 感数 据的 分类 分级、脱敏 工具 运维 管理 等制 度,并 定期 维护 更新;c)建立数 据安 全管 控机 制,如代码 安全、审 计安 全、安全管 理等;d)定期对 数据 脱敏 工作 的相 关方开 展培 训工 作;e)制定完 备的 敏感 数据 使用 审批流 程,确保 敏感 数据 的使用 安全 合规;f)明确数 据脱 敏流 程,包括 发现敏 感数 据、标识 敏感 数据、确定 脱敏 方法 等。6 脱敏流 程 6.1 识别敏 感数 据 宜完整 地梳 理数 据中 包含 的信息,明 确其 中敏 感信 息,识 别敏 感数 据包 括但 不限于:a)明确数 据脱 敏工 作范 围;b)对工作 范围 内数 据进 行梳 理和分 类;c)建 立 敏感 数据 位置 和关 系库,以保 存敏 感数 据的 位置,以 及敏 感数 据与 原数 据之间 的 关联 关系;DB37/T 3523.22019 3 d)根据业 务需 要选 择人 工或 自动等 识别 方式,并 考虑 识 别方式 与主 流数 据库 系统、数据仓 库系 统、文件系 统、云计 算环 境下 新型存 储系 统等 的适 用性;e)选择数 据发 现工 具,并考 虑其扩 展性,可 根据 业务 需要自 定义 敏感 数据 的发 现逻辑;f)明确敏 感信 息的 字段 名称、字段 类型、字 段长 度、赋值规 范等 内容;g)利用反 关联 方法,查 找可 能由某 些非 敏感 字段 推断 出另一 敏感 字段 的映 射,并对这 些非 敏 感 字段进行 识别,例 如:由出 生日期 可以 推断 出身 份证 号码的 场景,需 对出 生日 期进行 识别。6.2 标识敏 感数 据 识 别 出敏 感数 据后,宜尽早 对 敏感 数据 的格 式、位置 等 信息 进行 标识,标识方 法 的选 择宜 考虑 以下因素:a)敏感数 据标 识信 息能 够随 敏感数 据一 起流 动;b)敏感数 据标 识信 息不 易被 恶意攻 击者 删除 和篡 改;c)需考虑 便捷 性和 安全 性,使标识 后的 数据 容易 被识 别;d)需支持 不同 数据 类型(如 静态数 据和 动态 数据)的 敏感标 识;e)对所有 可能 生成 敏感 数据 的非敏 感字 段同 样进 行标 识,例 如:在病 人诊 治记 录 中为隐 藏姓 名 与病情的 对应 关系,将“姓 名”作 为敏 感字 段进 行变 换,但 是如 果能 够凭 借某“住址”的唯 一性导出“姓名”,则需 要将“住址”进 行标 识并 脱敏。6.3 确定脱 敏场 景 在标识 敏感 数据 基础 上,确定脱 敏场 景,脱敏 场景 包括但 不限 于:a)静态脱 敏:对原 始数 据进 行一次 脱敏 后,脱敏 后的 结果数 据可 以多 次使 用;b)动 态 脱敏:针对 不同 用户需 求,对数 据进 行屏 蔽处理 的 数据 脱敏 方式,要求系 统 有安 全措 施确保用户 不能 够绕 过数 据脱 敏层次 直接 接触 敏感 数据。6.4 选择脱 敏方 法 依据数 据脱 敏场 景选 择数 据脱敏 方法,数 据脱 敏方 法参见 附录A。6.5 定义脱 敏规 则 依据已 选择 的数 据脱 敏方 法,定 义脱 敏规 则,并对 常用数 据脱 敏规 则进 行固 化,避 免重 复定 义。6.6 执行脱 敏操 作 脱 敏 操作 需遵 循个 人隐 私保 护、数据 安全 保护 等相关 法 规、行 业监 管规 范或标 准,个人 敏感 信息 安全应遵 循GB/T 35273 中相 关规定。根 据已 定义 的数 据脱敏 规则,数 据脱 敏操 作包括 但不 限于:a)对脱敏 过程 运行 监控 和分 析;b)定期对 脱敏 工作 开展 安全 审计;c)对脱敏 任务 自动 化运 行。6.7 评估脱 敏效 果 在执行 脱敏 工作 基础 上,利用测 试工 具评 估脱 敏后 数据对 应用 系统 功能、性 能等方 面的 影响,并根据验证 情况 不断 优化 脱敏 规划。DB37/T 3523.22019 4 A A 附 录 A(资料 性附 录)数据脱 敏方 法 数据脱 敏方 法见 表A.1。表A.1 数据脱 敏方 法 序号 脱敏方法 方法描述 示例 1 掩码 用通用字符替换原始数据中的部分信息,掩码后的数据长度与原始数据一样。将手机号码 13500010001 经 过掩码得到 135*0001。2 规整 将数据按照大小规整到预定义的多个档位。将客户资产按照规模分为高、中、低三个级别,将客户资产数据用这三个级别代替。3 替换 以虚构的数据代替真实的数据。将姓名“张三”替换为“王二”。4 乱序 对敏感数据进行重新随机分布,混淆原有值和其他字段的联系。将金额 13526 乱序为65123。5 均化 针对数值性的敏感数据,在保 证脱敏后数据集总值或平均值与原数据集相同的情况下,改变数值的原始值。将 65、75、90、50 均 化为 79、61、85、55。6 散列 对原始数据取散列值,使用散 列值来代替原始数据。将 1234567 取散列值为0100110。7 数据截断 直接舍弃业务不需要的信息,仅保留部分关键信息。将手机号码 13500010001 截 断为 135。8 日期偏移取整 按照一定粒度对时间进行向上或向下偏移取整,可在保证时间数据一 定分布特征的情况下隐藏原始时间。将时间 20180101 01:01:09 按照 5 秒钟粒度向下取整得到 20180101 01:01:05。9 限制返回行数 仅仅返回可用数据集合中一定行数的数据。商品配方数据,只有在拿到所有配方数据后才具有意义,可在脱敏时仅返回一行数据。10 限制返回列数 仅仅返回可用数据集合中一定列数的数据。查询人员基本信息时,对于某些敏感列,不包含在返回数据集中。11 DB37/T 3523.22019 5 参 考 文 献 1 全 国信 息安 全标 准化 技术委 员会 等,大数 据安 全标准 化白 皮书(2018版)2 贵 阳大 数据 交易 所,大数据 交易 区块 链技 术应 用标准 _
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642