2020非结构化数据管理解决方案.docx

返回 相关 举报
2020非结构化数据管理解决方案.docx_第1页
第1页 / 共56页
2020非结构化数据管理解决方案.docx_第2页
第2页 / 共56页
2020非结构化数据管理解决方案.docx_第3页
第3页 / 共56页
2020非结构化数据管理解决方案.docx_第4页
第4页 / 共56页
2020非结构化数据管理解决方案.docx_第5页
第5页 / 共56页
亲,该文档总共56页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
2020非结构化数据管理解决方案 目 录 1. 前言 . 1 2. 非结构化数据管理 . 2 2.1. 非结构化数据定义及特征 . 2 2.2. 非结构化数据管理发展历程 . 4 3. 非结构化数据管理体系 . 6 3.1. 非结构化数据管理能力成熟度模型 . 7 3.2. 非结构化数据顶层设计 . 9 3.3. 非结构化数据治理 . 11 3.4. 非结构化数据管理 . 12 3.4.1. 非结构化数据标准 . 12 3.4.2. 非结构化元数据 . 15 3.4.3. 非结构化数据质量 . 16 3.4.4. 非结构化数据安全 . 17 3.4.5. 非结构化数据合规 . 21 3.4.6. 非结构化数据集成 . 21 3.5. 非结构化数据价值 . 23 3.5.1. 非结构化数据协作 . 23 3.5.2. 非结构化数据流转 . 24 3.5.3. 非结构化数据服务 . 25 3.5.4. 非结构化数据洞察 . 26 4. 非结构化数据管理解决方案 . 28 4.1. 非结构化数据管理与 ECM 企业内容管理 . 28 4.2. ECM 内容管理成熟度模型 CM . 31 4.3. ECM 内容管理平台架构 . 33 4.4. ECM 内容管理核心技术 . 35 4.4.1. ECM 底层架构技术 . 35 4.4.2. ECM 服务技术 . 35 4.4.3. ECM 安全技术 . 36 4.4.4. ECM 与人工智能技术深度融合 . 36 4.4.5. ECM 数字化转型技术 . 37 4.4.6. ECM 生态融合技术 . 37 5. 非结构化数据管理应用实践 . 38 5.1. 非结构化数据管理应用类型 . 38 5.2. 非结构化数据管理应用实践 . 39 5.2.1. 内容协作和交互 . 39 5.2.2. 内容全生命周期管理 . 40 5.2.3. 统一的内容数据管理平台 . 40 5.2.4. 内容的知识化平台 . 41 5.2.5. 内容归档和合规管理 . 42 5.2.6. 电子文档安全管理 . 43 5.2.7. 文档云应用解决方案 . 44 5.2.8. 非结构化数据中台应用解决方案 . 44 5.2.9. 文档档案一体化应用解决方案 . 46 5.2.10. KM 知识管理应用解决方案 . 47 5.2.11. 文件安全交换应用解决方案 . 48 5.2.12. 涉密 /商秘电子文档安全管理应用解决方案 . 48 5.2.13. GMP 医药质量应用解决方案 . 49 5.2.14. ISO 质量体系文件管理应用解决方案 . 50 5.2.15. 工程协同设 计应用解决方案 . 51 5.2.16. EPC 工程内容管理应用解决方案 . 53 1. 前言 企业的持续经营必将产生大量数据,无论在企业的战略层面还是执行层面,数据管理对于企业决策都具有举足轻重的作用。一方面在战略层面,基于数据管理能够有效梳理企业数据资源,支撑企业优化战略决策,把握业务拓展机遇,抢占竞争先机;另一方面,在执行层面,通过数据管理能够帮助企业解决现有业务中的数据责权不清、管理流程混乱、数据质量低等常态问题,提升企业业绩和运营效率。 2018 年,全国信息技术标准化技术委员会大数据标准工作组组织制定的 GB/T 36073-2018数据管理能力成熟度评估模型(以下简称 DCMM) 国家标准正式发布。在推动 DCMM 国家标准落地应用过程中,发现当前部分企业已经逐渐形成数据管理意识,并陆续开展数据管理相关工作。然而,企业数据管理工作仍主要侧重于结构化数据管理,针对非结构化数据管理方面投入不足。一方面大部分企业尚 未形成对非结构化数据管理重要性的认识;另一方面缺乏成熟的非结构化数据管理 体系和工具的支撑。为此,中国电子技术标准化研究院 联合上海鸿翼软件技术股份有限公司组织成立 非结构化数据管理解 决方案联合实验室 ( 以下简称 “ 实验室 ” ) ,共同开展非结构化数据 管理相关的技术、应用以及标准化的研究探索工作。 本白皮书立足于非结构化数据管理应用实践,结合 DCMM 国家标准体系框架,提出了非结构化数据管理体系及能力成熟度模型,并形成以内容管理成熟度模型 CM为核心的非结构化数据管理解决方案。本白皮书的发布,一方面旨在呼吁各界加强对非结构化数据管理技术、应用、及标准化工作的关注,增强非结构化数据管理意识;另 一方面旨在通过分享前期研究成果,支撑各行业及企业开展非结构化 数据管理体系建设,实现产业数据管理能力的全面提升。 2. 非结构化数据管理 2.1. 非结构化数据定义及特征 非结构化数据是指未通过数据模型预先定义的数据,包括关系数据和模型数据。在企业的整体数据架构中,非结构化数据往往是指不 适合用数据库二维关系逻辑表来表现的数据,包括所有格式的办公文 档、标准通用标记语言下的子集、各 类报表、图像和音频视频文件以 及工程图文档信息等,约占企业数据存储量的 80%。 存储在计算机系统中的数据被分为结构化数据和非结构化数据。相较于结构化数据,非结构化数据在数据对象、数据格式、时间维度、 存储形式、增长速度、信息含量、数据价值等方面存在明显差异,具 体如表 1 所示: 表 1 结构化数据与非结构化数据特征差异 结构化数据 非结构化数据 数据对象 结构化数据以关系型或单一数据属性,如:银行卡号、日期、财务金额、电话号码、地址、产品名称等 作为数据对象 非结构化数据以内容或本体,如文件、图像图形、音视频、邮件、报表、网页、各种纸本等作为数据对象 数据格式 强调基于表格的关系型数据值格式类型,如:字符型、整型、日期型、 数值型等 由于非结构化数据较多体现在无模式、自描述的文件及内容,其数据格式更为多样,如: png、 jpg、 mp4、 doc、 pdf 等各种类型 时间维度 结构化数据的以单一数据属性为 主,需要构建关联,呈现分析结果, 应用时效性较短 非结构化数据以文件和内容为主,信息量较大,应用时效性会更长 存储占比 在企业日常运营产生的数据中,结构化数据占存储数据总量的 20% 在企业日常运营产生的数据中,非结构化数据占存储数据总量的 80% 存储形式 结构化数据通常仅存储在软件应用系统和数据仓库中 非结构化数据的存储端多样,可以储存在个人电脑、服务器、应用系统、文件柜或档案室等终端以及数据湖为代表的 大数据平台中 增长速度 通常结构化数据占业务数据增长量的 10% 通常非结构化数据占业务数据增长量的90% 信息含量 结构化数据需要结合上下文语义呈现信息,信息量较小,体现在定量数据和关键的业务信息 非结构化数据所包含的信息量较大,可以扩展至情感性、描述性、文档性等更为广泛的信息 数据价值 结构化数据的价值主要体现在假设、明确或已知的数据分析价值 非结构化数据价值拥有更广泛的、探索性、数据挖掘等未知的数据洞察价值 综上所述,非结构化数据与结构化数据有明显的差异,随着大数 据存储和计算能力的增强,非结构化数据基于丰富和多样的信息量, 较之结构化数据拥有更大的数据资产化价值空间。组织应注重非结构化数据在数据管理中的有效管理,针对非结构化数据的无序性、分散 性开展价值挖掘,对缺乏规则化的非结构化数据,以及对分散在个人 电脑、服务器、各种应用程序及大数据存储中的非结构化数据开展全 面的治理,进一步发挥非结构化数据的资产化价值。 2.2. 非结构化数据管理发展历程 数据管理的历史可以追溯到 20 世纪 60 年代的数据库技术,当时计算机已经开始在商业环境下获得应用,文件是数据存储的主要介质。文件的存储和访问成为数据管理的核心需求,这也可以看作非结构化 数 据管理的最初阶段。 20 世纪 90 年代初期,随着无纸化办公技术的发展,传统纸质文档转换为电子化文档,这个时期企业开始构建电子文档库、数字图书 馆、数字档案馆,非结构化数据管理体现为对这些数字化文档的管理。 2000 年以后,随着互联网技术的发展,非结构化数据体现在以 WEB 网页为主的内容管理,并随着网站技术的发展,出现了网页内容管理 ( Web Content Management),这个时期电子商务、电子政务系统也随之快速发展。 2005 年以后,随着企业信息化的不断深入,非结构化数据融入到业务场景中,企业业务流程系统承载着大量文档、图表、报告、音频等形式的非结构化数据。对这类数据的管理 需求促进 ECM 企业内容管理( Enterprise Content Management) 的出现,随着 ECM 的出现非结构化数据开始与业务场景深度融合,发挥更大价值。 2010 年以后,随着云计算,物联网、移动互联网和大数据的不 断发展,非结构化数据呈现形式更为多样,如:影像文件、视频文件、工程电子文档、 ISO 质量电子文档等,这个阶段 ECM 企业内容管理 和非结构化数据应用的发展也越来越趋于成熟。 2015 年以后,随着云服务、移动物联网、特别是人工智能技术的进步,非结构化数据开始向着内容服务自动化、文本挖掘、语义分析等方向发展,并形成了非结构化数据管理体系下的内容服务中台化和内容服务智能化。 从上述非结构化数据发展历程可以收获以下几点:一、非结构化数据是随着计算机应用的发展不断丰富起来的,因此任何时代,技术发展是动力。二、非结构化数据管理的发展历程是非结构化数据逐步从离散文件升级至内容,形成统一的内容服务平台,并进一步构建起 融合业务的知识管理,其大大提高了生产运营效率和业务创新能力; 三是,多层次的非结构化数据平台提供了更为上层的 内容服务,屏蔽 了下层的技术实现细节,更能快速并准确地响应业务场景化需求。 3. 非结构化数据管理体系 组织构建非结构化数据管理体系,需要基于顶层设计及战略开展非结构化数据治理,落实非结构化数据管理各项职能活动,实现非结构化数据资产价值。非结构化数据管理体系 ( 如图 1 所示 ) 包括五大核心方面及十六个重点领域。其中核心领域是: ( 1) 非结构化数据顶层设计及战略; ( 2) 非结构化数据管理能力成熟度; ( 3) 非结构化数据治理,包括组织与职责、制度与流程、评估与审计和数据文化; ( 4) 非结构化数据管理,包括非结构化数据集成、非结构化数据标准、非结构化元数据管理、非结构化数据质量、非结构化数据安全和非结构化数据合规; ( 5) 非结构化数据价值,包括非结构化数据协作、非结构化数据流转、非结构化数据服务和非结构化数据洞察。 图 1 非结构化数据管理体系框架 3.1. 非结构化数据管理能力成熟度模型 能力成熟度模型 ( Capability Maturity Model) 最初源自软件开发管理程序,由美国卡耐基梅隆大学软件工程研究所于 20 世纪 80 年代提出。这一模型将软件开发划分为五个成熟度级别,除了初始级 (第一级 ) 以外,每个级别都由关键的过程域组成,关键过程域表明组织应该关注的领域,以改进软件开发过程。每个关键过程域分为五个部分,称为共同特征。共同特征指定了关键实践,当这些关键实践被实 行,就可以实现关键过程域的目标。 能力成熟度模型认为软件开发并不是一蹴而就的过程,而是需要组织首先明确工作开展的方向以及工作的优先级顺序。因此,每个成熟度级别都对应着持续改进过程中组织达到的新阶段。根据能力成熟度模型架构,组织可以标准化、模块化地判断软件当前的成熟度,并将 其与行业内其他组织的实践状态进行比较。同时,组织可以使用能力成熟度模型来制订开发过程的改进规划。 通过借鉴国内外成熟度相关理论思想, DCMM 涵盖数据战略、数据治理、数据架构、数据标准、数据生存周期、数据应用、数据质 量、数据安全八个方面 ( 即能力域 )( 如图 2 所示 ), 并根据数据管 理过程的有效性、完整性、协调性等因素,划分了各能力域及整体数 据管理能力的五个成熟度等级,给出了不同成熟度等级的指标要求, 旨在为企事业单位评估和持续改进自身数据管理能力提供了科学指导。
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642