资源描述
ICS 35.020 L 70 DB15 内 蒙 古 自 治 区 地 方 标 准 DB15/T 1873 2020 大数据平台 数 据接 入质量规 范 Data access quality specification for big data platform 2020-04-03 发布 2020-05-03 实施 内 蒙 古 自 治 区 市 场 监 督 管 理 局 发布 DB15/T 1873 2020 I 目 次 前言.II 1 范围.1 2 规范 性 引 用文 件.1 3 术语 和定义.1 4 概述.2 5 数据 质量 评价 维度.2 6 数据 接入 质量 技术 要求.3 7 数据 质量 评分 方法.8 附录A(资 料附录)数据 质量 评 价维 度.10 DB15/T 1873 2020 II 前 言 本标准 按照GB/T 1.1 2009 给出 的规 则起 草。本标准 由 内 蒙古 自治 区大 数据发 展管 理局 提出。本标准 由内 蒙古 自治 区大 数据发 展管 理局 归口。本标准 起草 单位:内蒙 古 自治区 大数 据发 展管 理局、新 华三 技术 有限 公司、中国 电 子技 术标 准化 研究院、内蒙 古自 治区 大数 据与云 计算 标准 化委 员会、内蒙 古自 治区 标准 化院、内蒙 古银 保监 局、内 蒙 古自治区 地图 院、内蒙 古自 治区电 子信 息产 品质 量检 验院、内蒙 古大 学、浪潮 软件集 团有 限公 司、内 蒙 古跃晨科 技有限 公司、北京 东方金 信科技 有限 公司、北京东 方国信 科技 股份有 限公司、天 帆 创新(北京)科技 发 展有 限公 司、同方 知网(北京)技术 有 限公 司、内 蒙古 纵横 云技 术有 限公司。本标准 主要 起草 人:张建 军、崔 连伟、孙 卫、石彦 龙、周 佳琪、李 向前、石 建军、巩韶 飞、顾 君、武茂春、卫 凤林、马 学彬、徐小 强、万磊、张 晓磊、王楠、李 建文、刘 玉坤、冯国 忠。DB15/T 1873 2020 1 大数据平台 数 据接入质量 规范 1 范围 本标准 规定 了大 数据 平台 数据接 入过 程中 数据 质量 保障的 规范 及技 术要 求。本标准 适用 于内 蒙古 自治 区各 数 据提 供单 位接 入 大 数据平 台过 程 中 的数 据质 量保障 工作。2 规范性 引用 文件 下列文 件对 于本 文件 的应 用是必 不可 少的。凡 是注 日期的 引用 文件,仅 所注 日期的 版本 适用 于本 文件。凡 是不 注日 期的 引用 文件,其最 新版 本(包括 所有的 修改 单)适用 于本 文件;GB/T 5271.1 信息 技术 词 汇 第1 部分:基 本术 语 GB/T 36344 信 息技 术 数 据质量 评价 指标 3 术语和 定义 GB/T 5271.1、GB/T 36344 和SY/T 6227-2005 界定 的 术语和定 义适用 于本 文件。为了便 于使用,以下重复 列出 以上 标准 的一 些术语 和定 义。3.1 数据 data 信息 的 可再 解释 的形 式化 表示,以适 用于 通信、解 释 或处 理。注:可以通过人工或自动手段处理数据。GB/T 5271.1-2000,定义01.01.02 3.2 元数据 metadata 关于 数 据或 数据 元素 的数 据(可能 包 括其 数据 描述),以 及关 于数 据拥 有权、存取 路径、访 问权 限和数据 易变 性的 数据。GB/T 5271.1-2000,定义17.06.05 3.3 数据质量 data quality 在指 定 条件 下使 用时,数 据的特 性满 足明 确的 和隐 含的要 求程 度。GB/T 36344-2018,定义2.3 DB15/T 1873 2020 2 3.4 原始数据 raw data 终端 用 户所 存储 使用 的各 种未经 过处 理 或 简化 的数 据。注:原始 数据有多种存在形式,如文本数据、图像数据、音频数据或者 几种数据混合存在。GB/T 36344-2018,定义2.4 3.5 数据生 命周期 data life cycle 将原始 数据 转化 为可 用于 行动的 知识 的一 组过 程。GB/T 36344-2018,定义2.5 3.6 数据集 data set 具有 一 定主 题,可以 标识 并可以 被计 算机 化处 理的 数据集 合。GB/T 36344-2018,定义2.6 3.7 数据标准 data standard 数据 的 命名、定 义、结构 和取值 规范 方面 的规 则和 基准。GB/T 36344-2018,定义2.8 3.8 检核任务 inspection task 数据核 查 的 最小 调度 单位。4 概述 大数据 平台 支持 结构 化数 据、半 结构 化数 据和 非结 构化数 据等 异构 数据 源采 集数据,实 现各 类离 线数据、实时 数据 的采 集与 接 入。针 对 大 数据 平台 的数 据 接入,执行 相应 的质量 评 价 标准,保证 数据 质量,为各数据 使 用单 位提 供优质 的 数 据服 务。5 数据质 量评 价维 度 数据质 量是 保证 数据 应用 和 提供 优质 数据 服务 的基 础,数 据质量 的 评估 标准 主要包 括八 个维 度:完整性、规范 性、一致 性、准确性、唯 一性、关 联性、时效 性、可访 问性,本 标准从 以上 八个 维度 评 价 数据质量,详 细请 参考 附录A。DB15/T 1873 2020 3 6 数据 接 入质 量技 术要 求 大数据 平台 为了 保障 数据 质量,须 从四 个层 面进 行 数据质 量控 制,数 据标 准 体系质 量控 制、数 据采集质量 控制、数据 存储 质 量控制、数据 使用 质量 控 制进行 全流 程数 据质 量管 控。数据 接入 质量 整体框架图见图1:图 1 整体流程图6.1 数据 标准 体系 质量 控制 6.1.1 数 据标 准制 定 数据标 准的 制定 按照 数据 标准管 理的 业务 分类 和定 义规范 指导 要求,基 于行 业数据 管控 需求,进 行数据标 准规 范的 制定,要 求 大数据 平台 按照 该标 准规 范进行 统一 的数 据管 理。数据标 准制 定包 括数 据标 准的编 制、数 据标 准的 审 核、数据 标准 的发 布。数 据标准 化管 理组 织将 数据标准 以正 式发 文的 方式 在内部 进行 发布,并在 发 布后将 数据 标准、版本 说 明保存 备案。最终 将发 布 的数据标 准更 新至 数据 标准 管理模 块中,数 据 标 准制 定流程 见 图2:标准制定 标准执行 标准维护 标准监控 数据采集 质量检核 数据缓冲区 数据标准层 数据监控 血缘分析 系统审计 问题告警 资产管控 检核方案创建 检核任务创建 检核任务调度 检核日志 数据质量报告 数据标准 体系质量控制 数据采集质量控制 数据存储质量控制 数据使用质量控制 DB15/T 1873 2020 4 图 2 数据标准 制定流 程 数据标 准制 定流 程描 述如 下:a)数据标 准管 理组 织协 调者 组织数 据提 供者 和执 行者 参与数 据标 准属 性的 收集 和整理 工作,并 按照协商 一致 的原 则形 成数 据标准 初稿;b)数据标 准初 稿进 行多 次的 讨论和 丰富 后,形成 数据 标准送 审稿 提交 给数 据标 准管理 决策 者;c)经过数 据标 准管 理决 策者 的讨论 审核 后,由数 据标 准 管理组 织协 调者 再次 进行 数据标 准的 修改完善,并完 成数 据标 准的 发布。6.1.2 数据 标准 执行 数据标 准管 理执 行流 程见 图3。图 3 数据标准 执行流 程 数 据 标准 管 理执 行 者提供数 据属性信 息数据标 准属性收集 整理数 据标准 送审 稿征求 意见数 据标准初稿数据标准 变更数 据 标准 管 理组 织 协调 者数 据 标准 管 理决 策 者数 据 标 准 编 制 数 据 标 准 审 查 数 据 标 准 发 布数 据标准、版 本发布数 据标准发布数据 标准 录入数据 质量 管理数 据 标准 管 理执 行 者数 据 标准 管 理组 织 协调 者数 据 标准 管 理决 策 者数据 标准 监控数据 标准 执行 结果制 定数据标准接口标准 执行 效果DB15/T 1873 2020 5 数据标 准执 行的 流程 步骤 描述如 下:a)数据标 准制 定发 布后,将 数据标 准录 入到 数据 标准 管理模 块;b)数据标 准管 理执 行者 按照 发布的 数据 标准,制 定和 发布数 据标 准接 口;c)数据标 准管 理模 块将 标准 要求提 供给 数据 质量 管理,根据已 录入 系统 的数 据标 准形成 稽查 规则,对数据 标准 管理 执行 者制 定和发 布的 数据 标准 接口 中的内 容进 行相 关的 标准 稽核监 控;d)将标准 稽核 结果 发送 给数 据标准 管理 模块,并 反馈 给 数据标 准管 理决 策者 和数 据标准 管理 执行者。6.1.3 数 据标 准维 护 数据标 准的 维护 指数 据标 准建立 后,根据 业务 需求 的发展 变化 或外 部数 据标 准要求 不一 致时,对 数据标准 的内 容进 行变 更和 版本管 理,见 图 4:图 4 数据标准 维护流程 数据标 准维 护流 程描 述如下:a)对执行 的相 关数 据标 准进 行变更 请求 的申 请,组织 该 数据标 准相 关执 行层 和各 数据运 维者 进行讨论和 变更 需求 汇总;b)由数据 标准 管理 组织 协调 机构进 行标 准变 更的 审核;c)讨论审 议数 据标 准项 的变 更内容,并 形成 标准 变更 需 求审批 表提 交给 数据 标准 管理决 策层 进行审批;d)决策层 将审 批结 果反 馈给 标准管 理组 织协 调者,并 由其进 行数 据标 准发 布及 版本维 护。6.1.4 数 据标 准监 控 数据标 准监 控实 现对 数据 标准执 行过 程的 监控,包括 对数据 标准 的执 行、效 果、问题进 行监 控管 理,为后期 数据 标准 维护 管理 提供依 据。数据 标准 的监 控通过 数据 标准 管理 和元 数据管 理、数据 质量 管 理 协同实现 落地。发起数据 标准变更需 求数据标准 变更需求汇 总在变更需求审批表中签署意见审议数据标准变 更项数据标准变更数 据 标准 管 理执 行 者数 据 标准 管 理组 织 协调 者数 据 标准 管 理决 策 者数据 标准、版本发布DB15/T 1873 2020 6 6.2 数据 采集 质量 控制 为了 保 证数 据质 量,根据 数据仓 库建 设的 总体 目标 和设计 对数 据的 采集 阶段 提出严 格、明确 的质 量要求及 必要 的标 准,具体 要求如 下:a)待 采集 数据 字段 长度、精 度、类 型等 应优先 遵 循遵 循国家 标准、行业 标 准的 约定;b)采集 过 程支 持元 数据 的保 留,包 含技 术元 数据 和业 务元数 据;c)支持 对 元数 据的 监控,控制 数据 库和 表结 构的 异常 修改,保证 数据 质量;d)支持采 集 阶 段初 步数 据检 核;采集阶段 具体 流 程图 见图5:图 5 采集阶段 流程 6.3 数据 存储 质量 控制 在数据 存储 阶段 需通 过多 种检核 规则 及任 务调 度方式 对数 据进 行检 核,数据 存储阶 段要 求如 下:a)支持 从5 个 维度、7 种检 核规则 和自 定义 检核 规则 对数据 进行 数据 质量 检核;1)5 个维 度 包 含完 整性、规 范性、准确 性、唯一 性、关联性;2)7 种检 核规 则包 含空值 校 验、值 域校 验、格 式校 验、长度 校验、精度 校验、唯一性 约束校验、主 外键 校验;3)自定义 检核 规则 指根 据具 体业务 场景,用 户可 以通 过 自定 义 SQL 语句 的方 式完 成 对数据质量 的检 核;b)支持检 核 任 务的 创建,检 核规则 的设 定;c)支持检 核任 务的 创建 和检 核 任务 调度 方式 的设 定;d)检核任 务调 度支 持自 动调 度和手 动调 度;e)支持对 数据 质量 报告 的查 看的下 载;f)支持数 据的 全生 命周 期管 理;g)支持对 元数 据的 版本 管理。基于 检 核规 则对 数据 检核 流程图 见 图6:开始 实时采集 定时采集 全量采集 增量采集 初步质量检核 源数据缓冲区 源数据标准层 数据源接入 结束 DB15/T 1873 2020 7 图 6 数据 检核 质量 检 核流 程说 明:a)接入待 检核 数据 源;b)创建检 核方 案;1)针对系 统内 置的 检核 规则,选择检 核规 则,具体 包含 空值 校验、值 域校 验、格 式校 验、长度校 验、精度 校验、唯 一性约束 校 验、主外 键校 验;针 对 自 定义 检核 规则,通过 自定义sql 语 句实 现检 核规 则;2)确定待 检核 的对 象,即选 取待检核 的 数据 库、待检核 的表 以及 字段;c)关联检 核方 案,创建 检核 任务;d)配置检 核任 务的 调度 方式,可通 过定 时器 实现 自动 调度,亦可 通过 人为 实现 手工调 度;e)任务被 调度 后是 查看 任务 执行日 志;f)支持生 成数 据质 量报 告并 提供下 载功 能,基于 质量 报告可 实现 异常 数据 发现 并处理。6.4 数据 使用 质量 控制 数据使 用要 求如 下:a)支持对 数据 进行 监控,明确 数据 的来 源和 去向;b)支持数 据 地 图、血缘 分析、影响 分析 等方 式的 数据 展现;c)支持对 数据 资产 的安 全性 管控;d)支持对 操作 日志 以及 用户 登录、退出 的日 志审 计;e)支持数 据质 量报 告分 析 的 查看及 下载;f)支持问 题数 据 的 告警;g)支持对 问题 数据 进行 整改 分析。数据使 用 阶 段流 程 图 见图7:数据源接 入 检核方案 创建 检核 任务 创建 规则绑定 检核对象 绑定 任务 执行 任务日志 数据 质量 报告 任务调度 开始 结束 DB15/T 1873 2020 8 图 7 数据 全流 程监控 流程 图 数据 使 用阶 段流 程说明:a)在 数据 采集 和数 据存 储基 础上,实现 血缘 分析、数 据地图、影 响分 析、版本 管理、质量 报 告、问题数 据整 改分 析、数据 告警、质量 评分;b)使用阶段 支 持数 据及 功能 的权限 控制;c)支持 系 统审 计,包含 操作 日志审 计和 登录 登出 日志 审计;7 数据质 量 评 分方 法 7.1 规则 评分*(100-W)(1)式中:R 每个 检核 规则 得分;I 数据 集D 上被 检核 出 的 异常 数据 总量;D 需要 进行 检核 的 数 据集,对于 关系 型数 据库 来说,一个 数据 集 由 若干 条 记录 组成;W 规则 对应 权重 值,需 人工 设置 每个 规则 的权 重。7.2 任务 评分(2)式中:T 检核 任务 评分;I 数据 集D 上被 检核 出 的 异常 数据 总量;W 规则 对应 权重 值,需 人工 设置 每个 规则 的权 重;D 需要 进行 检核的 数 据集,对于 关系 型数 据库 来说,一个 数据 集 由 若干 条 记录 组成;n 条检核 任 务中 检核 规则的 个数。注:一个检核任务 可包含多条检核规则。数据采集 数据存储 血缘 分析 数据地图 影响 分析 版本 管理 质量报告 整改 分析 数据 告警 质量 评分 开始 权限控制 系统 审计 结束 DB15/T 1873 2020 9 7.3 绩效 评分=(1-错误 数 据总 量/检核 数 据总量)*=(1-错误 数据 表 数量/检核数据表数 量)*=(1-错误 数据 表 数量/照管数据表 数量)*P=()/4(3)式中:评分 计算 指标 之数 据 问题评分;评分 计算 指标-数 据问题 权重;评分 计算 指标 之检 核 指标问 题评分;评分 计算 指标-检查 指标 问题 权重;评分 计算 指标 之指 标 问题评分;评分 计算 指标-指标 问题 权重;P 照管 人对 应数 据库 评分;评分 计算 指标 之自 定 义 评分。DB15/T 1873 2020 10 附录 A(资料 性附 录)数据质 量评 价维 度 A.1 完整 性 按照数 据规则 要求,数据 元素被 赋予数 值的 程度。即完整 性指的 是数 据信息 是否存 在缺失 的状 况,数据缺 失的 情况 可能 是整 个数据 记录 缺失,也 可能 是数据 中某 个字 段信 息的 记录缺 失。不完 整的 数 据 所能借鉴 的价 值会 大大 降低,完整 性是 数据 质量 评估 标准的 基础。表A.1 完整性 评价 指标 序号 指标名称 指标描述 计算方法 1 数据元素完整性 按照业务规则要求,数据集中应被赋值的数据元素的赋值程度。计算公式:X=A/B 式中 A=被赋值的数据集中元素 的个数;B=预期被赋值的数据集中 元素 的 个数 2 数据记录完整性 按照业务规则要求,数据集中应被赋值的数据记录的赋值程度。计算公式:X=A/B 式中 A=被赋值的数据集中元素 的个数;B=预期被赋值的数据集中 元素 的 个数 A.2 规范 性 数据符 合数 据标 准、数据 模型、业务 规则、元 数据 或权威 参考 数据 的程 度。表A.1 规范性 评价 指标 序号 指标名称 指标 描述 计算方法 1 数据标准 数据符合数据标准的度量。注1:评价 数据质量时需要收集数据在命名、创建、定义、更新和归档时 遵循的标准,包括 国际标准、国家标准、行业标准、地方标准或相关 规定等。注2:和 数据 归档一 样甚 至更 重 要,在 一个 完整 的数据规则中,旧数 据的销毁一般也有一个比较详细 且具有可行性的规定。计算公式:X=A/B 式中 A=满足数据标准要求的数据集中元素的个数;B=被评价的数据 集中元素个数 2 数据模型 数据符合数据 模型的度量。注1:数据 模 型是一 种直观 描述组织数据 结构 的 手段,是数据表达的规范。注 2:评价 数据质量时需要检查 是否存在 清晰且可理解的数据模型 定义以及这些数据的组织形式。计算公式:X=A/B 式中 A=满足数据模型要求的数据集中元素的个数;B=被评价的数据 集中元素个数 DB15/T 1873 2020 11 表 A.2(续)序号 指标名称 指标描述 计算方法 3 元数据 数据 符合元数据定义的度量。注1:元数 据 标注、描述 或刻 画 其他数 据、以使 检索或使用数据 更容易。评价数据质量时需要 检查是否提供可解读的元数据文档。计算公式:X=A/B 式中 A=满足元数据定义的数据集中元素的个数;B=被评价的数据 集中元素个数 4 业务规则 数据 符合业务规则的度量。注1:业务 规 则是一 种权 威性 原 则或 业务 方 针,用来描述业务交互,并建立行动和数据行为结果 及完整性的规则。注2:评价 数 据质量 时需 要检查是否存 在良好 归 档的业务规则。计算公式:X=A/B 式中 A=满足业务规则的数据集中元素的个数;B=被评价的数据 集中元素个数 5 权威参考数据 参考数据 是系统、应用软件、数据库、流程、报告及交易记录 和主记录用来参考的数值集合和分类表。注1:评价数据质量时需要收集参考数据列表。计算公式:X=A/B 式中 A=满足参考数据规则的数据集中元素的个数;B=被评价的数据 集中元素个数 6 安全规则 安全规则 是安全和隐私方面的规则,包括数据权限管理,数据 脱敏处理等。计算公式:X=A/B 式中 A=满足安全规范的数据集中元素的个数;B=被评价的数据 集中元素个数 A.3 一致 性 数据与 其他 特定 上下 文中 使用的 数据 无矛 盾的 程度。即一 致性 是指 数据 是否 遵循了 统一 的规 范,数据集合 是否 保持 了统 一的 格式。数据 质量 的一 致性 主要体 现在 数据 记录 的规 范和数 据是 否符 合逻 辑。表A.2 一 致性 评价 指标 序号 指标名称 指标描述 计算 方法 1 相同数据一致性 同一数据 在 不 同 位 置 存 储 或被不同应用或用户使用时,数据的一致性,数据发生变化时,存储在 不 同 位 置 的 数 据 的 同 一 数据被同步修改。计算公式:X=A/B 式中 A=满足一致性要求的数据 集中 元素的个数;B=被评价的数据集中元素 个数;2 关联数据一致性 根据一致性 约 束 规 则 检查关联数据的一致性。计算公式:X=A/B 式中 A=满足一致性要求的数据 集中 元素的个数;B=被评价的数据集中元素 个数;DB15/T 1873 2020 12 A.4 准确 性 数据准 确表 示其 所描 述的 真实实 体(实 际对 象)真 实值得 程度。即准 确性 是 指数据 记录 的信 息是 否存在异 常或 错误。表A.3 准 确性 评价 指标 序号 指标名称 指标描述 计算 方法 1 数据内容正确性 数据内容是否是预期数据。计算公式:X=A/B 式中 A=满足数据正 确 性 要 求 的 数据 集 中 元 素 的 个数。B=被评价的数据集中元 素个数;2 数据格式合规性 数据格式包含(数据 类型、数据范围、数据长度、精度等)是否满足预期要求。计算公式:X=A/B 式中 A=满足格式要求的数据 集中元 素的个数。B=被评价的数据集中元素 个数;3 数据重复率 特定字段、记录、文件 或数据集意外重复的度量。计算公式:X=A/B 式中 A=重复数据集中元素的个数 B=被评价的数据集中元素 个数;4 数据唯一性 特定字段、记录、文件 或数据集唯一性的度量。计算公式:X=A/B 式中 A=满足唯一性要求的数据 集中 元素的个数;B=被评价的数据集中元素 个数;5 脏数据出现率 正确字段、记录、文件或数据集之外无效数据的度量。计算公式:X=A/B 式中 A=有脏数据出现的数据 集中元 素的个数;B=被评价的数据集中元素 个数;A.5 唯一 性 数据唯 一不 重复。即 唯一 性是指 度量 哪些 数据 是重 复数据 或者 数据 的哪 些属 性是重 复的。A.6 关联 性 数据的 关联 不可 缺失 的。即关联 性是 度量 哪些 关联 的数据 缺失 或者 未建 立索 引。关联性 评价 因素:a)查找到 的信 息和 主题 不完 全 一致,但 确是 其中 某一 方面的 阐述;b)查找到 的信 息集 合多 数在 用户需 要的 检索 主题 内;c)提供 的 信息 主题 与用户 检索 主题 相匹 配;d)查找 到 的信 息多 数与 用户 需要的 信息 无关;e)信息 必 须和 用户 需求 有相 关性。DB15/T 1873 2020 13 A.7 时效 性 数据在 时间 变化 中的 正确 程度。即及 时性 是指 数据 从产生 到可 以查 看的 时间 间歇,也叫 做数 据的 延时时长,及时 性对 数据 分 析本身 要求 并不 高,但 如 果数据 分析 周期 加上 数据 建立的 时间 过长,就可 能 导致分析 出的 结论 失去 借鉴 意义。表A.4 时 效性 评价 指标 序号 指标名称 指标描述 计算方法 1 基于时间段的正确性 基于日期范围内的记录数或频率分布符合业务需求的程度。计算公式:X=A/B 式中 A=满足有效性要求的数据集中 元素的个数;B=被评价的数据集中元素个数;2 基于时间点的及时性 基于时间戳的记录数、频率分布或延时时间符合业务需求的程度。计算公式:X=A/B 式中 A=满足及时性要求的数据集中 元素的个数 B=被评价的数据集中元素个数;3 时序性 数据集中同一实体的数据元素之间的相对时序关系。计算公式:X=A/B 式中 A=满足时序性要求的数据集中 元素的个数;B=被评价的数据集中元素个数;A.8 可访 问性 数据 能 被访 问的 程度。表A.5 可 访问 性 评 价指 标 序号 指标名称 指标描述 计算方法 1 可访问 数据 在 需 要 时 的 可 获取性。计算公式:X=A/B 式中 A=满足可访问性要求 的数据集 中元素的个数 B=被评价的数据 集中元素个数;2 可用性 数据 在 设 定 有 效 生 存周期 内的可使用性。计算公式:X=A/B 式中 A=满足可用性 要求的数据集中 元素的个数;B=被评价的数据 集中元素个数
展开阅读全文