资源描述
ICS 35.240 CCS L70 DB15 内 蒙 古 自 治 区 地 方 标 准 DB15/T 2021.1 2020 草原大数 据 第1 部分:基础数 据 Grassland big data-Part 1:Basic data 2020-10-20 发布 2020-11-20 实施 内 蒙 古 自 治 区 市 场 监 督 管 理 局 发布 DB15/T 2021.1 2020 I 目 次 前言.II 1 范围.1 2 规 范性 引用 文件.1 3 术 语和 定义.1 4 总则.6 5 草 原大 数据 标准 体系 基 本框架.7 6 草 原大 数据 元数 据属 性 的描述 方法.9 7 草 原大 数据 标识 类属 性.9 8 草 原大 数据 技术.14 9 数 据质 量评 估流 程与 评 价方法.18 10 草 原大 数据 安全.19 11 平 台及 工具 类标 准.19 参考文 献.22 DB15/T 2021.1 2020 II 前 言 本部分 按照GB/T 1.1-2020 标 准化 工作 导则 第1 部 分:标准 化文 件的 结构 和 起草规 则 的 规定起草。DB15/T 2021 草原 大数 据 的结 构分 为4 个部 分:第1部 分:基础 数据;第2部 分:数据 分类 与 编码;第3部 分:数据 元;第4部 分:代码 集。本部分 为DB15/T 2021的第1部分。本 部分 由内 蒙古 自治 区农 牧厅提 出并 归口。本 部分起草单位:内蒙古 自治区农牧业信息中心、内蒙古云利科技有限公司、内蒙古草原工作站、内蒙古草原监督管理 局、内蒙古草原勘察规划 院、内蒙古饲料草种监督 检验站、内蒙古农业大学、鄂 托克 前旗 数字 林草 信息中 心。本 部分主要起草人:刘永 志、马超、付学良、王晓 峰、张巧燕、朝格敖其尔、王伊拉图、赵于东、李 雪东、朱 玉成、李 慧旻、李宏 慧、董改 芳、王云利、刘 爱军、高 文渊、常炳 文、巩韶 飞。DB15/T 2021.1 2020 1 草 原大数 据 第 1 部分:基础数 据 1 范围 本 部分 规定 了草 原大 数据 的数据 采集、处 理技 术、平台及 工具 和信 息安 全等 技术及 管理 要求。本 部分 适用 于内 蒙古 草原 信息的 共享、交 换、评价 与服务。2 规范性 引用 文件 下列文件中的内容通过文 中的规范性引用而构成本 文件必不可少的条款。其 中,注日期的引用文件,仅该 日期 对应 的版 本适用 于本 文件;不 注日 期的引 用文 件,其最 新版 本(包 括所 有的 修改 单)适用于 本文 件。GB/T 19710-2005 地理 信 息 元 数据 GB/T 20157 信 息技 术 软 件维护 GB/T 20531-2006 移动 数 据库应 用编 程接 口规 范 GB/T 22080 信 息技 术 安 全技术 信 息安 全管 理体 系 要求 GB/T 24450 社 会经 济目 标分类 与代 码 GB/Z 28828 信 息安 全技 术 公 共及 商用 服务 信息 系 统个人 信息 保护 指南 GB/T 29262 信 息技 术 面 向服务 的体 系结 构(SOA)术语 GB/T 29263 信 息技 术 面 向服务 的体 系结 构(SOA)应用的 总体 技术 要求 GB/T 31495.1-2015 信 息 安全技 术 信息 安全 保障 指 标体系 及评 价方 法 第1部分 概 念和 模型 GB/T 31495.2-2015 信 息 安 全 技 术 信 息 安 全 保 障 指 标 体 系 及 评 价 方 法 第2 部分 指 标 体 系 范围 GB/T 31495.3-2015 信息安全技 术 信息 安全 保障 指 标体系 及评 价方 法 第3部分 实 施指 南 GB/T 32908 非 结构 化数 据访问 接口 规范 GB/T 34949 实 时数 据库C 语言接 口规 范 GB/T 34960.5 信息 技术 服务 治理 第5 部分:数 据 治理规 范 GB/T 36073 数 据管 理能 力成熟 度评 估模 型 GB/T 34978 信 息安 全技 术 移 动智 能终 端个 人信 息 保护技 术要 求 GB/T 37721 信 息技 术 大 数据分 析系 统功 能要 求 GB/T 37722 信 息技 术 大 数据存 储与 处理 系统 功能 要求标 准 LY/T 2930-2017 林 业数 据采集 规范 LY/T 2181 湿 地信 息分 类 与代码 LY/T 2182 荒 漠化 信息 分 类与编 码 LY/T 1814 自 然保 护区 生 物多样 性调 查规 范 LY/T 2179 野 生动 植物 保 护信息 分类 与编 码 QX/T 102 气象 资料 分类 与编码 DL/T 1456 电 力系 统数 据 库通用 访问 接口 规范 DB15/T 2021.1 2020 2 3 术语和 定义 GB/T 19710 界定 的以 及下 列术语 和定 义适 用于 本文 件。为 了便 于使用,以 下重 复列出GB/T 19710中的一 些术 语和 定义。3.1 大数据 big data 具有体 量巨 大、来源 多样、生成 极快、且 多 变 等特 征并且 难以 用传 统数 据体 系结构 有效 处理 的包含大 量数 据集 的数 据。注:国际上,大数据的4 个特征普遍 不加修饰地直接用volume、variety、velocity 和variability 予以表述,并分别赋予了它们在大数据语境下的定义。体量(volume)指构 成大数据的数据集的规模;多 样性(variety)指数据可能来自多个数据仓库、数据领域或多种数据类型;速度(velocity)指单位时间 的数据流量;多变性(variability)指大数据 其他特征,即体量、速度和多样性等特征都处于多变状态。3.2 草原大 数据 grassland big data 通过大 数据 技术 将草 原相 关的数 据整 合起 来应 用在 草原管 理相 关的 业务 领域,赋能 政府 机构,提升政 务实 施效 能的 数据。这些 数据 包含 了政 府开 展工作 产生、采 集以 及因 服务需 求而 采集 的外 部大数据,以 及为 政府 自有 和面向 政府 的大 数据。注:从 数 据 属性 来看,草原 大 数据分 为 自 然信 息类、建设 类、管理 统 计 监察 类和 服 务与 民 生消费 类。自然 信 息类 包 含地 理、资 源、气 象、环境、水利 等;建 设类 包 含交 通设 施、旅 游 景点、住 宅 建设 等;管理 统计 监 察类 包 含工 商、税 收、人 口、机构、企业、商品 等;服 务与 民生 消 费类 包 含水、电、燃气、通 信、医 疗、出行等。3.3 元数据 metadata 关于数 据的 数据。来源:GB/T 19710-2005,定义4.5 3.4 元数据 元素 metadata element 元数据 的基 本单 元。来源:GB/T 19710-2005,定义4.6 3.5 元数据 实体 metadata entity 一组说 明数 据相 同特 性的 元数据 元素。DB15/T 2021.1 2020 3 注:可以包括一个或一个以上的元数据实体。来源:GB/T 19710-2005,定义4.7 3.6 核心元 数据 core metadata 描述草 原大 数据 最基 本信 息的元 数据 最小 集合。3.7 数据源 data source 数据的 来源 是提 供某 种所 需要数 据的 器件 或原 始媒 体。在 数据 源中 存储 了所 有建立 数据 库连 接的信息。草原大 数据 的数 据源 必需 可靠且 具备 更新 能力,常 用的数 据源 有:a)观测数 据:现场 获取 的实 测数据,它 们包 括野 外实 地勘测 量算 数据、台 站的 观测记 录数 据、遥测数 据等;b)分析测 定数 据:利用 物理 和化学 方法 分析 测定 的数 据;c)图形数 据:各种 地形 图和 专题地 图等;d)统计调 查数 据:各 种 类型 的统计 报表、社 会调 查数 据等;e)遥感数 据:由地 面、航空 或航天 遥感 获得 的数 据。3.8 结构化 数据 structured data 可以组 织成 行列 结构,可 识别的 数据。这 类数 据通 常是一 条记 录,或者 一个 文件,或者 是被 正确标记 过的 数据 中的 某一 个字段,并 且可 以被 精确 地定位。3.9 半结构 化数 据 semi-structured data 半结构 化数 据不 具有 结构 化数据 严格 的存 储结 构,但它可 以使 用标 签或 其他 形式的 标记 方式 以保证数 据的 层次 结构。3.10 非结构 化数 据 un-structured data 非结构 化数 据一 般被 认为 是大量 纯文 本数 据,其中 还可能 包含 日期,数 字和 实例。3.11 复杂结 构的 数据 complex structured data 由两个 或多 个相 互关 联部 分组成 的数 据,这 类数 据不 能简单 地由 结构 化查 询语 言(SQL)或 工具 解析。DB15/T 2021.1 2020 4 3.12 云计算 cloud computing 构建在 网络 上的 分布 式计 算系统,数 据是 存储 于机 房外的(即 云端)。3.13 聚类分 析 clustering analysis 将相似 的对 象聚 合在 一起,每类 相似 的对 象组 合成 一个聚 类(或簇)的过 程。这种分 析方 法的 目的在于 分析 数据 间的 差异 和相似 性。3.14 数据聚 合工 具 data aggregation tools 将分散 于众 多数 据源 的数 据转化 成一 个全 新数 据源 的过程。3.15 数据虚 拟化 data virtualization 数据整 合的 过程,以 此获 得更多 的数 据信 息,这个 过程通 常会 引入 其他 技术,例如 数据 库、应用程序、文 件系 统、网页 技术、大数 据技 术等 等。3.16 去身份 识别 de-identification 也称为 匿名 化(anonymization),确保 个人 信息 不会 通过数 据被 识别。3.17 文件存 贮数 据库 document store databases 也称为 文档 数据 库(document-oriented database),为存储、管 理、恢复 文档 数据而 专门 设计的数据 库,这类 文档 数据 也称为 半结 构化 数据。3.18 数据 抽 取、转换 及装 载 Extract,Transform and Load,ETL 是一种 用于 数据 库或 者数 据仓库 的处 理过 程。即从 各种不 同的 数据 源提 取(E)数据,并转 换(T)成能满 足业 务需 要的 数据,最后 将其 加载(L)到数 据 库。3.19 Hadoop 数据 库(HBase)一个开 源的、非 关系 型、分布式 数据 库,与Hadoop 框架共 同使 用。DB15/T 2021.1 2020 5 3.20 Hadoop 分布 式文 件系 统 Hadoop distributed file system 是一个 被设 计成 适合 运行 在通用 硬件(commodity hardware)上 的分 布式 文件 系 统。3.21 内存数 据库 in-memory database 一种数 据库 管理 系统,与 普通数 据库 管理 系统 不同 之处在 于,它用 主存 来存 储数据,而 非硬 盘。其特点 在于 能高 速地 进行 数据的 处理 和存 取。3.22 物联网 Internet of Things 在普通 的设 备中 装上 传感 器,使 这些 设备 能够 在任 何时间 任何 地点 与网 络相 连。3.23 法律上 的数 据一 致性 juridical data compliance 存储在 云上 的数 据要 符合 当地的 法律。例如,当 用云 存储数 据涉 及到 的有 关数 据开放 共享 原则、个人隐 私信 息等 在不 同国 家有不 同的 法律 定义,该 数据应 该符 合当 地数 据存 放的法 律。3.24 M2M 数据 machine to machine data 两台或 多台 机器 间交 流与 传输的 内容。3.25 机器数 据 machine data 由传感 器或 算法 在机 器上 产生的 数据。3.26 机器学 习 machine learning 机器学 习是 人工 智能 的一 部分,指的 是机 器能 够从 它们所 完成 的任 务中 进行 自我学 习,通过 长期的累 积实 现自 我改 进。3.27 多维数 据库 multi-dimensional database 用于优 化数 据联 机分 析处 理(OLAP)程 序,优化 数据 仓库的 一种 数据 库。3.28 多值数 据 库 multiValue database 一种特 殊的 多维 数据 库:能 处理3 个维 度的 数据。主 要 针对非 常长 的字 符串,能够 完美地 处理HTMLDB15/T 2021.1 2020 6 和XML 中的 字串。3.29 NoSQL 数据库 NoSQL database 不使用SQL 的数 据库。这类 数据库 泛指 传统 关系 型数 据库以 外的 其他 类型 的数 据库。这类 数据 库有更强 的一 致性,能 处理 超大规 模和 高并 发的 数据。3.30 再识别 re-identification 将多个 数据 集合 并在 一起,从匿 名化 的数 据中 识别 出个人 信息。3.31 无线射 频识 别 radio Frequency Identification 自动识 别技 术的 一种,通 过无线 射频 方式 进行 非接 触双向 数据 通信,利 用无 线射频 方式 对记 录媒体(电子 标签 或射 频卡)进行 读写,从 而达 到识 别目标 和数 据交 换的 目的。这种 识别 技术 使用 一种无线 非接 触式 射频 电磁 场传感 器来 传输 数据。射 频识别 技术 依据 其标 签的 供电方 式可 分为 三类,即无源RFID,有 源RFID,与半有 源RFID。3.32 实时数 据 real-time data 在几毫 秒内 被创 建、处理、存储、分 析并 显示 的数 据。3.33 主数据 master data 满足跨 部门 业务 协同 需要 的、反 映业 务实 体状 态属 性的主 体对 象核 心信 息。3.34 主数据 管理 master data management 一整套 用于 生成 和维 护主 数据的 规范、技 术和 方案,以 保证主 数据 的完 整性、一 致性和 准 确 性。3.35 交换 switching 部门间 通过 信息 资源 交换 体系技 术支 撑环 境实 现草 原大数 据信 息资 源在 线传 送的过 程。3.36 交换节 点 Switching node 在跨政 务部 门业 务系 统中,实现 信息 资源 传送 和处 理的系 统单 元。示例:前置机。DB15/T 2021.1 2020 7 4 总则 4.1 数据类 型格 式 4.1.1 本标准 中数 据元 值的 类型 长度的 表示 格式:a)a=字 母字 符;b)n=数 字字 符;c)an=字 母数 字字 符;d)m(m 为自 然数)=定长 m 个字符(字 符集 默认 为 GB/T 2312);e).ul=长 度不 确定 的文 本;.p,q(p,q 均为 自然 数)=最长 p 个数 字字 符,小 数点 后 q 位;f)YYYYMMDDhhmmss=“YYYY”表示年份,“MM”表示月份,“DD”表示日期,“hh”表示 小时,“mm”表 示分 钟,“ss”表 示秒,可 以根 据具 体情况 组合 使用。4.1.2 本标准 中的 其它 数据 类型:a)n.7(aaannnn)表示 最 长 7 个字 符,前 3 个字符 为字 母字 符,后 4 个字符 为数 字字符;b).15,3 表示 最长15 个 数字 字符,小数 点 后 3 位;c)n2.6 表 示最大 长度 为6,最 小长 度为 2 的不 定长 的字 母数 字字符。4.2 内部标 识符 编码 规则 草原大 数据 内部 标识 符编 码规则 采用 四段 式编 码规 则,编 码结 构见 图 1 所示:a)第一段:1 2 位,数据 元 英文名 称 Data Element 的缩写,用大 写字 母“DE”表示;b)第二段:34 位,数 据元 的大类 编码,用 两位 阿拉 伯数字 表示,数 据元 大类 及编码“大 类”、“大类 编码”;c)第三段:56 位,数 据元 的小类 编码,用 两位 阿拉 伯数字 表示,数 据元 大类 及编码“小 类”、“小类 编码”;第二 段 与 第三段 间用“.”分 隔;d)第四段:79 位,数据 元 的顺序 码,用 三位 阿拉 伯 数字表 示,第 三段 与第 四 段间用“.”分隔。DE XX.XX.XXX第四 段:7-9位,数据元顺 序码第三 段:5-6位,数据元小 类编码第 二段:3-4位,数据元 大类编码第 一段:1-2位,数据元 英文名称 图1 内部标 示符 编码 结构 图 5 草原大 数据 标准 体系 基本 框架 DB15/T 2021.1 2020 8 5.1 体系基 本框 架 包含草 原大 数据 基础、草 原大数 据技 术、草原 大数 据安全、草 原大 数据 平台 及工具 以及 草原 大数据管 理等5个 模块,见 图 2 所 示。图2 草原大 数据 标准 体系 基本 框架 5.2 草原大 数据 基础 数据 基础标 准为 整个 标准 体系 提供包 括总 则、参考 架构、草原 大数 据元 数据 等通 用的基 础性 标准。5.3 草原大 数据 技术 包括:数据 质量 标准、数 据处理 与 分 析关 键技 术标 准、数 据质 量评 估与 监测 技术标 准等。其 中数据质 量标 准分 类参 考ISO8000 系 列标 准,并 根据 当 前内蒙 古自 治区 大数 据产 业发展 需求,等同 或修改后采 用国 际标 准;数据 处理与 分析 关键 技术 标准 主要是 针对 数据 从收 集到 使用过 程中 的关 键技 术进行规 范;数据 质量 评估 与监测 技术 主要 是针 对草 原大数 据质 量进 行评 估和 监测。5.4 草原大 数据 安全 安全类 标准 主要 是针 对通 用的安 全和 行业 安全,其 中通用 要求 基于 信息 安全 技术的 系列 标准;行业安 全重 点针 对人 工智 能、电 子政 务、工 业互 联网 等各行 业与 信息 主体 利益 密切相 关的 隐私 数 据。5.5 草原大 数据 平台 及工 具 包括系 统类 工具 和应 用类 工具;系统 类工 具标 准细 分为平 台基 础设 施、存储 类工具、数 据库、平台管 理类 工具 等。DB15/T 2021.1 2020 9 5.6 草原大 数据 管理 包括草 原大 数据 运维 和数 据治理,其 中数 据运 维包 括数据 库维 护、运行 维护、运行 安全 及大 数据系统 及相 关工 具等 方面 的运维 及服 务标 准;数据 治理包 括数 据资 产管 理、大数据 解决 方案 设计、数据管 理能 力成 熟度 评价 等。6 草原大 数据 元数 据属 性的 描述方 法 6.1 名称 赋予元 数据 属性 的标 记。名称是 唯一 的,以字 符串 形式表 示。6.2 定义 属性的 描述,可 使一 种属 性与其 他属 性清 晰地 区别 开来。定义 以字 符串 形式 表示。6.3 约束 显示一个 属性是始终还是 有时出现的描述符。该描 述符可以有两个取值:必 选或可选,前者表示该属 性必 须出 现,后者 表示该 属性 可以 出现,也 可以不 出现。6.4 出现次 数 显示一 个属 性出 现多 少次 的描述 符。该描 述符 有以 下四种 情况:0:1(表示 不 出现或 出现1次),0:n(表示 不出 现或 出现n 次),1:1(表示 出现 且仅 出现1 次),1:n(表 示出 现1次或 多次)。6.5 类型 描述属 性的 所有 取值 的类 型。属性 值的 数据 类型 示 例有:“字符”、“字 符串”、“数 字”、“日期”。6.6 备注 与属性 应用 有关 的注 释。7 草原大 数据 标识 类属 性 7.1 中文名 称 7.1.1 定义 赋予元 数据 的单 个或 多个 中文字 词的 称谓。7.1.2 约束 必选。7.1.3 出现次 数 1:1。7.1.4 类型 字符串。DB15/T 2021.1 2020 10 7.1.5 说明 命名应明确的表达数据元 的含义,尽量减少冗余,增加精确度;在同一环境 下的所有名称应该是唯一 的。7.2 同义名 称 7.2.1 定义 一个元数据在应用环境下 的不同称谓。如国家安全 生产监督管理总局的同义 名为国家安全监管总局。7.2.2 约束 可选。7.2.3 出现次 数 1:1。7.2.4 类型 字符串。7.2.5 说明 一个元 数据 可以 有多 个同 义词,第一 个同 义词 应该 是统一 的约 定名 称。7.3 表示符 号 7.3.1 定义 元数据的含义的描述,表 达一个元数据的本质特性 并使其区别于所有其他元 数据的陈述(特别明确的 可省 略)。7.3.2 约束 可选。7.3.3 出现次 数 1:1。7.3.4 类型 字符串。7.4 数据类 型 7.4.1 定义 表示数 据元 值的 不同 值的 集合。7.4.2 约束 必选。DB15/T 2021.1 2020 11 7.4.3 出现次 数 1:1。7.4.4 类型 字符串。7.4.5 说明 可能的 实例 为“字符”、“序数”、“实 数”、“比例数”、“二 进制 数”、“有 理数”。7.5 表示格 式 7.5.1 定义 从应用的角度规定的数据 元值的格式需求,包括所 允许的最大或最小字符长 度,数据元值的类型和表 示格 式等。7.5.2 约束 必选。7.5.3 出现次 数 1:1。7.5.4 类型:字符串。7.5.5 说明 数据格 式的 表示 见表1。表1 数据格 式的 表示 基本格式 举 例 说 明 c c 中文字符,可以包含汉字(中、国等)、字母字符(a-z,A-Z)和数字字符等 c12 12 位字符(即6 个汉字)固定 长度的中文字符 c.12 最多为 12 位字符(即 6 个汉 字)长度的中文字符(默认 GB/T 2312 信息交换用汉字编码 字符集、基本集)a a 特指字母字符(A、B、C)a3 3 位字母字符,定长 a.3 最多为 3 位字母字符 n n 数值型字符(0、1、2、3)n3 3 位数字字符,定长 DB15/T 2021.1 2020 12 表 1 数据 格式 的表 示(续)基本格式 举 例 说 明 n n.3 最多为 3 位数字字符 n.9,2 数值型,总长度最多为9 位数 字字符,小数点后保留 2 位数 字 an an 字母和数字字符 an3 3 位字母数字字符,定长 an.3 最多为 3 位字母数字字符 d d 日期型 d8 日期型,按年、月、日顺序,格式为 8 位定长、全数字表示(YYYYMMDD)。年用 4 位数字表 示,月、日各用 2 位数字表示,彼 此之间没有分隔符 d10 日期型,按年、月、日、时顺序,格式为 10 位定长、全数字表示(YYYYMMDDhh)。年用4 位数字表示,月、日、时各用 2 位数字表示,彼此之间没有分隔符。如 2003 年1 月5 日9 时,应 表示为 2003010509 d14 日期型,按年、月、日、时、分、秒顺序,格式为 14 位定长、全数字表示(YYYYMMDDhhmmss)。年用 4 位数字表示,月、日、时、分、秒各用 2 位数字表示,彼此之间没有分隔符。如 2003 年1 月5 日9 时 48 分43 秒,应 表示为 20030105094843 b b 布尔值 0:否,1:是 u1 u1 长度不确定的文本 7.6 值域范 围 7.6.1 定义 根据相应属性中所规定的 表示形式、格式、数据类 型和最大与最小长度而决 定的数据元的允许实例表示的集合。该集合 可以根据名称、引用来源、实例表达的枚举,或者 根据实例生成规则来规定。7.6.2 约束 可选。7.6.3 出现次 数 1:1。7.6.4 类型 字符串。7.6.5 说明 当值域 范围 是编 码表 示的 枚举形 式时,每 一个 数据 元值及 其实 例都 应当 成对 表示。DB15/T 2021.1 2020 13 7.7 交换约 束 7.7.1 定义 根据对 象的 来源 特性,在 数据采 集时,从 应用 角度 规定该 数据 元是 否为 必选 或可选。7.7.2 约束 必选。7.7.3 出现次数 1:1。7.7.4 类型 字符串。7.8 字段名 称 7.8.1 定义 在提供 的共 享数 据中 对应 的字段 名称。7.8.2 约束 可选。7.8.3 出现次 数 0:1。7.8.4 类型 字符串。7.9 标识符 7.9.1 定义 由注册 机构 分配 的、与语 言无关 的元 数据 的唯 一标 识符。7.9.2 约束 必选。7.9.3 出现次 数 1:1。7.9.4 类型 数字。7.10 蒙文名 称 DB15/T 2021.1 2020 14 7.10.1 定义 中文名 称对 应的 蒙文。7.10.2 约束 可选。7.10.3 出现次 数 0:1。7.10.4 类型 字符串。注:关于本章约定的定义的说明:a)每个定义应区别于目录中 的任何其他定义,以保证 专一性。定义中所表述的 一个或多个特性必须 使被 定义 的概 念与 其他概 念相 区别;b)用描述性的短语或句子阐 述,阐述 必须简练、准确 而不含糊,避免跟其他元 数据定义互相依存;c)定义中 仅可 使用 人们 普遍 理解的 缩略 语;d)所有简 称在 第一 次出 现时,应予 以说 明。8 草原大 数据 技术 8.1 草原大 数据 质量 8.1.1 草原大 数据 生命 周期 草原大 数据 一般 要经 历四 个不同 的阶 段:数据 生成、数据 采集、数 据存 储、数据分 析。其中,数据生 成阶 段,是数 据被 创建的 阶段,包 括创 建的 结构化 数据 和非 结构 化数 据;数 据采 集阶 段,由数据收 集、数据 传输 和数 据预处 理组 成;数据 存储 阶段,结合 分布 式、云计 算技术,达 到低 成本、低能耗 及高 可靠 性的 目标;数据 分析 阶段,结 合降 雨、气 温、土壤 状况 与历 年草原 动 植 物产 量等 相关数据,运 用大 数据 挖掘 技术,预测 草原 未来 的生 态环境 发展 状况。8.1.2 草原大 数据 的质 量框 架 8.1.2.1 草原 大数 据指 标 草原大 数据 指标(简 称“指标”)指用 于衡 量草 原资 源和环 境情 况的 单位 或方 法。通 过几 个关 键指标来 衡量 草原 资源 和环 境情况 的好 坏。包括 植被、土壤、气 象、总人 口数 以及草 原经 济指 标等。指标需要经过加和、平均 等汇总计算方式得到,并 且是需要在一定的前提条 件进行汇总计算,如时间、地 点、范围,也 就是我 们常 说的 统计 口径 与范围。指标可以分为绝对数指标 和相对数指标,绝对数指 标反映的是规模大小的指 标,如人 口数、植被、收 入、用户 数、土壤,而相 对数 指标 主要 用来 反映质 量好 坏的 指标。DB15/T 2021.1 2020 15 8.1.2.2 草原 大数 据质 量 元素 描述草原大数据质量的信 息项,包括位置精度、属 性精度、逻辑一致性、完 整性、趋势性和数据说明。在数据分析和数据仓库领 域,草原大数据质量由草 原大数据质量元素来描述。草原大数据质量元素分为两类,即定量元 素和非定量元素。定量元 素,用于描述数据集满足 预先设定的质量标准及指标的 程度,并 提供 定量 的质量 信息。非 定量 元素 提供综 述性 的、非定 量的 质量信 息。8.1.2.3 草原 大数 据的 质 量维度 草原大数据 的质 量维 度包含5个 维度,分 别是 可 得性、可用 性、可靠 性、相关性、外 观质 量等。每一个 维度 有包 含1 3个 要素:a)可得性。可得性包含可访 问性和实效性两个要素,其中数据的可访问性应明 确数据提供访问的标准接口、数据使用权限等;数据的实效性应明确数据准确接收的时间、数据更新 时间以及 数据 收集 和过 程解 释的时 间间 隔等;b)可用性。数据的可用性包 含可靠性良好的数据源、数据规范化、数据产生的 时间等三个要素;c)可靠性。可靠性包含数据 的准确性、数据一致性以 及数据完整性等三个要素,其中数据准确性应明确得到的数据与真实数据之间的误差,包括数据数 据源的准确性、数据源的真 实状态以及数据表示的标准化等;数据的一致性应明确数据经过处理之后,它们的概念、值域或格式与处理前的数据匹程度、在一定时间内数据保持一致并且可以验证以及数据和 其他数据源的数据可验证性;数据的完整性应确保数据在内容上,应包括数据使用者所需 的全部项目,做到没有残缺和疏漏,包括数据格式是清晰的并且满足标准、数据与结构完 整性以及 数据 与内 容完 整性 是一致 的;d)相关性。相关性表示数据 在多大程度上适合当前工 作,包括收集的数据阐述 的内容、大多数检索 的数 据集 是在 检索 主题用 户需 要以 及信 息主 题提供 与用 户检 索主 题的 匹配等;e)外观质量。外观质量表示 根据已知或定义良好的术 语、属性、单位、代码、缩写或其他信息,来正确解释数据内容的能力,应包括明确数据的内容、格式等是清晰的并且是可理 解的、可以很容易地判断提供的数据满足要求以及数据描述、分类和编码内容满足规范并 且很容易 理解。8.2 数据处 理与 分析 关键 技术 8.2.1 采集的 内容 草原大数据依据性质及使 用目的不同,主要包括公 共基础数据、草原基础数 据、专题数据、综合数据 和元 数据 等:a)公共基础数据,包括基础 地理信息数据、遥感影像 数据、社会经济和气象数 据等,用于辅助草原 大数 据处 理分 析;b)草原基础数据,包括草原 资源数据、湿地资源数据、三化资源数据、生物多 样性资源数据等,提 供草 原业 务基 础数 据;c)专题数 据,包括 草原 资源 管理数 据、草原 保护 及生 态工程 建设 数据、灾 害监 控与应 急数 据、草原产 业数 据、草原 科技 等数据;d)综合数据,包括草原社会 经济数据、草原文献资料 数据、草原政策法规数据、草原教育培训数据 等数 据,辅助 草原 清查及 统计 分析;DB15/T 2021.1 2020 16 e)元数据,包括草原数据标 识信息、数据时间序列信 息、数据质量信息、数据 共享信息、空间参照 信息 等;f)其他数 据,不分 属于 以上 类别的 草原 数据 资料。8.2.2 采集的 流程 8.2.2.1 采集 前期 准备 草原 数 据采 集前 期准 备工 作,包 括组 织准 备、技术 准备和 其他 准备:a)组织准 备:组织 草原 数据 采集队 伍,明确 队伍 责任 分工等;b)技术准 备:制定 数据 采集 工作方 案、技术 方案 和操 作细则 等;c)其他准 备:明确 数据 采集 目标,确定 数据 采集 对象,整理 历史 数据,收 集调 查工具 等。8.2.2.2 数据 采集 见本标 准的8.2.1。8.2.2.3 数据 后期 处理 对采集 数据 按照LY/T 2930-2017 中的 4.2.3 条进 行处 理,包 括数 据分 析、数据 处理、数据 质 检、数据入 库等 操作。8.2.3 采集的 途径 草原数据采集途径包含实 地调查数据采集、遥感影 像 数据采集、传感网络数 据采集、问卷调查及访谈 法数 据采 集、互联 网数据 采集 以及 元数 据采 集等6 种途 径:a)实 地调 查数 据采 集。手段包 括手 工记 录方 式和 基于移 动设 备的 自动 数据 采集方 式:1)手工记录方式:通过随身携带或预先布设在外的仪器设备获取草原相关信息,以手工记录的 方式 进行 收集;2)基于移动设备的自动数据采集方式:通过移动终端设备及专业数据采集软件,实时收集、上 报草 原信 息数 据。b)草原遥感影像数据采集。依据影像数据采集方式不 同,分为卫星遥感影像数 据采集、航空遥感影 像数 据采 集:1)卫星遥感影像数据采集,通过国内外卫星遥感技 术获取草原影像数据,包括全色影像多光谱 影像 及高 光谱 影像;2)航空遥感影像数据采集,通过飞机、飞艇等航拍设备获取草原数据,如利用无人机搭载多光 谱成 像仪、数 码相 机、红 外扫 描仪 等设 备,实现草 原数 据的 采集。c)传感器 网络 数据 采集 通过光照传感器、温度传感器、湿度传感器、气体感应器、红外感应器、摄像头等信息 传感设备,可将数据实时传回指挥或管理中心,实现对草原资源的智能化识别、监测和管 理等,主要用于草原防火烟火智能识别、生物多样性动态监测、草原有害生物监测预警、生态监测 等;d)问卷调 查与 访谈 法数 据采 集:1)问卷调 查:通过 既定 的 问 题来收 集草 原专 项数 据;2)访谈法:结 合实 地考 察等,以谈 话、会议 等形 式收 集草原 数据 资源 材料。DB15/T 2021.1 2020 17 e)互联网 数据 采集 在手持移动终端、便携式计算机、台式计算机等互联网应用设备中抓取草原相关网络舆 情信息数 据,以及 草原 业务 系统应 用中 的痕 迹数 据;f)元数据 采集 元数据贯穿草原数据资源建设的全过程,主要包括草原业务元数据、技术元数据和管理 元数据等。8.3 草原大 数据 采集 规定 8.3.1 公共基 础数 据规 定 公共基础数据采集规定,主要包括对基础地理信息 数据、基础测绘成果数据、遥感影像数据和社会经 济气 象数 据等 相关 业务部 门数 据的 规定:a)基础地 理信 息数 据,包括 各种比 例尺 数字 化地 形图、DEM 数据、省、市、县 多级比 例尺 的行政区划图、交通道路、水系、城镇居民点、独立建筑物等数据、多级比例尺的土壤数 据等。按 照 GB/T13923 中的 规定采 集;b)基础测绘成果数据,按照基础测绘成果提供使用管理暂行办法(国测法字(2006)13号),向国 家和 地方 测绘 地理信 息局 申请 使用 基础 测绘成 果数 据;c)遥感影像数据,包括多源、多时相、多分辨率海量 遥感数据;根据林草局部 门不同业务要求采集 数据;d)社会经济和气象数据等相 关业务部门数据,社会经 济数据包括人口、经济产 值等数据,其中社会 经济 数据 按照 GB/T 24450 中的 规定 采集;气 象数据 包括 气温、降 水量、极端 最 高、最低温 度、年积 温等 数据,气象 数据 按 照 QX/T 102 中的规 定采 集。8.3.2 草原基 础数 据规 定 草原基础数据采集规定,主要包括对草原资源数据、湿地数据、三化草原数 据和生物多样性等数据的 规定:a)资源数据,包括草原资源 清查数据、资源规划设计 调查数据、作业设计调查 数据、年度核查数据、草 原确 权数 据、资源利 用数 据、草原 自然 保护区 数据 以及 涉及 以上 草原其 他标 准、文档、技术 规程 数据 等;b)湿地数据,包括湿地调查 和监测、湿地标准、湿地 履约数据等,信息采集目 标是查清 湿地资源现状和动态变化。采取方法包括全国范围采取宏观遥感调查、典型野外样地调查、踏查和数 据收 集。专项 野外 调查,按 照 LY/T 2181 中 的规定 采集;c)三化草原数据,包括全国 三化草原气候类型数据、全国沙尘暴监测数据以及 其他标准、文档、技 术规 程数 据等,按 照 LY/T 2182 中 的规 定采 集;d)生物多样性数据,包括保 护区数据、重点工程、专 项调查、野生动植物、全 国自然保护区分布以 及其 他标 准、文档、技
展开阅读全文