资源描述
中国信息通信研究院 云计算与大数据研究所 CCSA TC601 大数据技术标准推进委员会 数据标准 管理实践白皮 书 数据标准管理实践白皮书 版 权声明 本白皮书版权属于中国信息通信研究院云计算与大数据研究所,并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点的,应注明 “来源:中国信息通信研究院云计算与大数据研究所 ”。违反上述声明者,本院将追究其相关法律责任。 牵头编写单位 (排名无先后) : 中国信息通信研究院 、广州信安数据有限公司 、 中国 光大集团、 国家 开发 银行 、 南方电网有限责任公司 、 中国移动浙江公司 、 中国外运股份有限公司 参与编写单位 (排名无先后) : 国家能源集团信息公司 、 中国电信集团有限公司企业信息化部(数据中心) 、 南方电网数字电网研究院有限公司 、 石化盈科信息技术有限责任公司 、 联通大数据有限公司、 北京百度网讯科技有限公司 、 腾讯科技(深圳)有限公司 、华为技术有限公司、 阿里云计算有限 公司、 杭州数梦工场科技有限公司 、 成都四方伟业软件股份有限公司 、 浩鲸科技 编写组成员 (排名无先后) : 中国信息通信研究院 :魏凯、姜春宇、李雨霏、刘海燕、闫树 广州信安数据有限公司 :骆阳 中国 光大集团:刘巍 国家 开发 银行 :钟晓良 南方电网有限责任公司 :陈彬 数据标准管理实践白皮书 中国移动浙江公司 :傅一平 中国外运股份有限公司 :宋清波 国家能源集团信息公司 : 牟岩 中国电信集团有限公司企业信息化部(数据中心) :周文红、张振 南方电网数字电网研究院有限公司 : 甘杉 石化盈科信息技术有限责任公司 : 蔡春久 、辛华 联通大数据有限公司:谢云龙、樊利安 北京百度网讯科技有限公司 : 霍琦、龚政 腾讯科技(深圳)有限公司 : 孙龙君、农益辉 华为技术有限公司 : 刘念 、 李庆波 阿里云计算有限 公司: 朱松 、 解敏 杭州数梦工场科技有限公司 : 念灿华、漆可欣、郝滨 、李楷 成都四方伟业软件股份有限公司 : 刘俊良、李岳璘、周刚、王军 浩鲸科技: 佘 琼渠 数据标准管理实践白皮书 前言 数据标准 ( Data Standards) 是保障数据的内外部使用和交换的一致性和准确性的规范性约束 。 数据标准管理是 规范 数据标准的制定和实施的一系列活动 ,是 数据资产管理的核心 活动之一,对于政府和企业提升数据质量、厘清数据构成、打通数据孤岛、加快数据流通、释放数据价值有着至关重要的作用。但是目前,各行业缺少数据标准管理的理论指导和行业实践案例,企业在标准建立、标准审核、标准落地、标准评估等方面仍存在诸多困难。 本白皮书 结合了 国内外数据管理相关理论知识 的最新成果,以及国内数据标准管理的实践经验 , 对数据标准管理进行了深入探讨。重点辨析了数据标准以及相关内涵,梳理了数据标准分类及体系,概括了数据标准管理的组织架构和制度体系,总结了企业开展数据标准管理面临的挑战,并提出了相关实践建议。相 信本白皮书对 国内各行业从事数据治理工作的管理者、实践者和研究者 都将具有一定参考意义。 由于编写的水平和时间有限,难免有所纰漏,欢迎大家批评指正。 目 录 一、 数据标准概述 . 1 (一 ) 数据标准的内涵 . 1 (二 ) 数据标准分类 . 2 (三 ) 数据标准在数据资产管理中的作用 . 7 二、 数据标准管理主要内容 . 10 (一 ) 标准规划 . 10 (二 ) 标准制定 . 11 (三 ) 标准发布 . 13 (四 ) 标准执行 . 14 (五 ) 标准维护 . 16 三、 数据标准管理的保障措施 . 17 (一 ) 数据标准管理组织架构 . 17 (二 ) 数据标准管理制度体系 . 17 四、 数据标准管理挑战与建议 . 19 (一 ) 数据标准管理的挑战 . 19 (二 ) 数据标准管理的实践原则 . 19 数据标准管理实践白皮书 1 一、 数据标准概述 数据标准是进行数据标准化的主要依据 , 构建一套完整的数据标准体系是开展数据标准管理工作的良好基础,有利于打通数据底层的互通性,提升数据的可用性。本章从数据标准的概念入手,多角度探讨数据标准的内涵,构建数据标准分类体系,并阐述了数据标准作为数据资产管理核心要素的重要性。 (一 ) 数据标准的内涵 数据标准 ( Data Standards) 是指保障数据的内外部使用和交换的一致性和准确性的规范性约束 1。 在数字化过程中,数据是业务活动在信息系统中的真实反映。由于业务对象在信息系统中以数据的形式存在,数据标准相关管理活动均需以业务为基础,并 以 标准的形式规范业务对象在各信息系统中的统一定义和应用,以提升企业在业务协同、监管合规、 数据共享开放、 数据分析应用等各方面的能力 。 “数据标准”并非是一个专有名词,而是一系列“规范性约束”的抽象。但 是, 数据标准的具体形态通常是一个 或多个数据元的集合,即数据元是数据标准的基本单元。 信息技术数据元的规范与标准化第 1 部分 数据元的规范与标准化框架( GB/T 18391.1-2002)将 数据元 定义为 用 一组属性描述定义、标识、表示和允许值的数据单元 2。 表 1 以 银行间市场基础数据元 ( JR/T 0065-2019)标准 为例,展示了 银行间市场基础数据元属性及1 数据资产管理实践白皮书 4.0,中国信息通信研究院, 2019. 2 JR/T 0065-2019,银行间市场基础数据元 数据标准管理实践白皮书 2 其描述 : 每一个数据元应由数据元中文名称、数据元英文名称、数据元标识符、说明、数据类型、取值、 IMIX 域名 七个属性 组成,每一个数据元属性的 描述包括该属性的注释以及 相关 标准 规则。 表 1 数据元示例 -银行间市场基础数据元属性及其描述( JR/T 0065-2019) 数据元属性 数据元属性描述 数据元中文名称 数据元的中文名称,应按照 GB/T 18391.5-2009 中规定的数据元命名规则进行命名 数据元英文名称 用英文表示的数据元名称 数据元标识符 数据元在本标准中的唯一标识符,按照数据元的类目分组进行顺序编号,并适当留有一定的扩展空间 说明 数据元含义的文字描述 数据类型 用于定义数据域的取值类型,本标准由文本、数值、日期和时间四个基本的数据类型组成 取值 取值范围可以是一个集合,任何在此集合外的取值都被认为是非法取值,取值若未“无”,则表示本标准中该数据元的取值无限制 IMIX 域名 JR/T 0066 中基本的数据元素,每个域有其域号、业务含义和确定的取值范围。 (二 ) 数据标准分类 数据标准是进行数据标准化、消除数据业务歧义的主要参考和依据。对数据标准进行分类,将有利于数据标准的 编制、 查询、 落地 和 维护 。 数据标准有多种分类方式,对于不同的分类方式,均可采用以数据元为数据标准制定的基本单元构建数据标准体系。本白皮 书 以银行业、电信业的数据标准分类为例,说明在这种分类方式下的数据标准。 数据可以分为基础类数据和指标类数据。 基础类数据 指 业务流程中直接产生的,未经过加工和处理的基础业务信息 。 指标类数据 是指具备统计意义的基础类数据,通常由一个或以上的基础数据根据一定的统计规则计算而得到。 相应 地,数据 标准也可以分为 基础类数据 标准 或指标类数据 标准 。基础类数据标准 是为了统一企业所有业务活动相关数据的一致性和准确性,数据标准管理实践白皮书 3 解决业务间数据一致性和数据整合,按照数据标准管理过程制定的数据标准 。 指标类数据标准 一般分为基础指标标准和计算指标(又称组合指标)标准。基础指标 具 有特定业务和经济含义 ,且仅能通过基础类数据加工获得 ,计算指标通常由两个以上基础指标计算得出 3。 并非所有基础类数据和指标类数据都应纳入数据标准的管辖范围。数据标准管辖的数据,通常只是需要在各业务条线、各信息系统之间实现共享和交换的数据,以及为满足监控机构、上级主管部门、各级政府部门的数据报送要求而需要的 数据。 在基础类数据标准和指标类数据标准这个框架下,可以根据各自的业务主题进行细分。细分时应尽可能做到 涵盖企业的主要业务活动 ,且 涵盖企业生产系统中产生的 所有 业务数据 。以银行业的基础类数据标准和指标类数据标准分类为例(见 图 1),基础类数据标准分为客户数据标准、产品数据标准、协议数据标准、渠道数据标准、交易数据标准、财务数据标准、资产数据标准、公 共代码数据标准、机构和员工数据标准、地域和位置数据标准等。指标类数据标准包括监管合规指标、客户管理指标、风险管理指标、资产负债指标、营销管理指标、综合经营指标等。 基础类数据标准和指标类数据标准通过分别建立基础类数据元和指标类数据元,并将基础类数据元和指标类数据元与数据映射,实现基础类数据标准和指标类数据标准的落地。具体来说,对于结构化数据中的任意一个字段,当其不具备指标特征时,可直接将其与某一业务类别下的基础类数据元(如包含命名规则、数据类型和值域等属性)映射,实现该字段的标准化(符3 在企业结构化数据中,还存在标签数据。标签数据是主要反映客观对象的概括性特征,一般由客观对象的基础或指标数据按一定规则加工而成,因此通常被当作一种指标类数据来管理,但由于标签数据具有多变性、周期性、时效性且数量非常大,从管理实践上看与指标类数据还存在一定的差异 。 数据标准管理实践白皮书 4 合命名规则、数据类型和 值域的规定);当其具备指标特征时,可直接将其与某一业务类别下的指标类数据元(如命名规则、约束规则、数据类型和值域等)映射,实现该字段的标准化(符合命名规则、约束规则、数据类型和值域的规定)。 图 1 银行业典型基础类数据标准和指标类数据标准 下面以银行业的数据标准 分类 为例进行 数据元及其属性的 说明。 1. 银行间市场基础数据分类及数据元 银行间市场基础数据分类为参与方、产品、事件、公共数据、条件、风险控制,其类别及描述如 表 2 所示。 表 2 银行间市场基础数据分类 基础数据分类 基础数据分类描述 参与方 与机构、用户等有关的数据元 产品 与市场、产品有关的数据元 事件 与交易、交易后相关的数据元 公共数据 与交易工具(包括货币、货币对、债券、资产支持证券等)有关的数据元 条件 与交易时间段、节假日、起息日等有关的数据标准管理实践白皮书 5 数据元 风险控制 与限额、授信等有关的数据元 银行间市场基础数据的数据元具备相同的数据元属性,包括数据元中文名称、数据元英文名称、数据元标识符 、说明、数据类型、取值、 IMIX 域名 ,数据元属性描述见 表 1。 以每一基础数据类别为例,在各类别下展示部分数据元。如 表 3 所示。其中,可以注意到部分数据元属性的值包含数据元属性标准(如“基础数据类别”为 “产品” 时的“取值”,直接注明取值范围),部分数据元属性的值需引用其他标准(如“基础数据类别”为“产品”时的“说明”)。 表 3 银行间市场基础数据类别及数据元示例 基础数据类别 数据元 数据元属性 数据元中文名称 数据元英文名称 数据元标识符 说明 数据类型 取值 IMIX 域名 参与方 统一社会信用代码 统一社会信用代码 Unified Social Credit:Identifier 1218 按照 GB 32100-2015 规定,赋予每个法人和其他组织在全国范围内唯一的,终审不变的 18 位法定身份识别码 文本 无 PartySubID( JR/T 00665 一般以“ Party”组件描述机构实体,以“ Party”下的子组件“ SubID”描述机构实体详细信息) 产品 市场名称 市场名称 MarketName 0595 市场的名称 文本 债券市场、货币市场、衍生品市场、外汇市场 无 事件 交易模式名称 交易模式名称 Trading Mode Name 0760 交易模式的名称 文本 指令驱动、报价驱动、协商交易、拍卖 无 公共数据 计算方法 计算方法 Calculation Method 0177 即利息分配方式,债券或其他证券 文本 天数、频率 InterstAllocationMethod
展开阅读全文