资源描述
2021-2022图数据库分析报告 3 前言当 今 时 代 , 数 据 的 关 联 可 以 产 生 重 要 的 商 业 价 值 。 无 论 我 们 是 想了 解 在 线 社 交 网 络 中 用 户 之 间 的 关 系 , 或 者 电 子 商 务 中 用 户 和 商 品 之间 的 关 系 , 还 是 金 融 网 络 中 信 贷 关 系 , 理 解 和 分 析 大 量 高 度 关 联 数 据的 能 力 将 成 为 企 业 的 核 心 竞 争 力 。 图 处 理 技 术 在 这 其 中 扮 演 着 重 要 的角 色 。 大 型 互 联 网 公 司 最 早 就 意 识 到 了 这 一 点 , 并 开 始 创 建 自 己 的 专有 图 处 理 技 术 , 这 些 技 术 被 用 于 社 交 关 系 挖 掘 、 网 页 检 索 与 排 序 、 推 荐 系 统 等 , 并 获 得 了 巨 大 的 商 业 成 功 。图 处 理 技 术 解 决 了 当 今 宏 观 业 务 的 一 个 大 趋 势 : 利 用 高 度 连 接 的数 据 中 复 杂 、 动 态 的 关 系 来 产 生 洞 察 力 和 竞 争 优 势 。 相 比 关 系 数 据 库 ,图 数 据 库 是 表 示 和 查 询 连 接 数 据 的 最 佳 方 式 。 随 着 近 几 年 的 快 速 发 展 ,通 用 的 图 数 据 库 已 经 逐 步 成 熟 , 基 于 图 数 据 库 的 应 用 如 知 识 图 谱 、 风险 防 控 、 智 能 物 联 网 在 金 融 、 电 信 、 公 共 安 全 、 医 疗 等 行 业 快 速 落 地 ,并 形 成 了 较 好 的 应 用 效 果 。然 而 相 比 其 他 的 数 据 库 技 术 , 图 数 据 库 还 处 于 起 步 阶 段 , 相 关 概念 介 绍 、 应 用 场 景 描 述 和 选 型 实 施 的 资 料 较 少 。 本 白 皮 书 从 概 述 、 发 展 历 程 、 应 用 场 景 、 技 术 架 构 、 选 型 要 素 和 实 施 建 议 等 多 个 维 度 介 绍图 数 据 库 , 力 图 为 用 户 了 解 和 选 择 图 数 据 库 提 供 一 个 全 局 视 图 。 由 于编 写 的 水 平 和 时 间 有 限 , 难 免 有 所 纰 漏 , 欢 迎 大 家 批 评 指 正 。 4 目录一 、 图 数 据 库 概 述 .6( 一 ) 图 数 据 库 的 概 念 .7( 二 ) 图 数 据 库 发 展 情 况 .10( 三 ) 图 数 据 库 的 技 术 优 势 .12二 、 图 数 据 库 应 用 场 景 .15( 一 ) 知 识 图 谱 .15( 二 ) 行 业 应 用 .16三 、 图 数 据 库 技 术 详 解 .19 ( 一 ) 技 术 架 构 .19( 二 ) 主 流 的 图 查 询 语 言 .20( 三 ) 图 数 据 的 计 算 .21( 四 ) 图 处 理 引 擎 .23四 、 图 数 据 库 选 型 要 素 .25( 一 ) 基 本 能 力 .25( 二 ) 分 布 式 能 力 .25( 三 ) 兼 容 能 力 .26( 四 ) 管 理 能 力 .26 ( 五 ) 安 全 能 力 .27( 六 ) 高 可 用 能 力 .27( 七 ) 性 能 .27五 、 图 数 据 库 实 施 建 议 .29 5 ( 一 ) 业 务 理 解 .29( 二 ) 图 Schema设 计 .30( 三 ) 业 务 数 据 加 工 .31( 四 ) 验 证 和 测 试 .32( 五 ) 监 控 运 维 .32( 六 ) 从 关 系 型 数 据 库 迁 移 到 图 数 据 库 .33六 、 总 结 和 展 望 .35 6 一、图数据库概述图 是 基 于 事 物 关 联 关 系 的 模 型 表 达 , 通 过 将 实 体 与 关 系 点 边 化 的方 式 将 知 识 结 构 化 地 保 存 , 因 此 具 有 天 然 的 可 解 释 性 , 从 而 备 受 学 术界 和 工 业 界 的 推 崇 。 图 数 据 是 指 采 用 图 结 构 存 储 的 数 据 。 当 前 , 通 信 、互 联 网 、 电 子 商 务 、 社 交 网 络 和 物 联 网 等 领 域 中 积 累 了 大 量 的 图 数 据 ,其 规 模 巨 大 并 且 不 断 增 长 : Facebook 的 社 交 网 络 在 2011 年 已 超 过 8亿 顶 点 ; 而 腾 讯 QQ 社 交 网 络 目 前 在 10 亿 个 顶 点 的 规 模 ; 在 电 信 行业 中 , 广 州 市 仅 一 个 月 内 由 电 话 呼 叫 方 和 被 呼 叫 方 组 成 的 图 就 超 过4.5 千 万 个 顶 点 、 1.5 亿 条 边 ; 而 ClueWeb 1数 据 包 含 海 量 的 网 页 , 2012年 公 布 的 数 据 集 已 经 达 到 10 亿 个 顶 点 、 425 亿 条 边 , 仅 是 存 储 边 的列 表 文 件 就 超 过 400GB。 图 1 社 交 网 络传 统 的 关 系 型 数 据 库 在 处 理 这 些 关 联 数 据 时 , 大 量 的 连 接 操 作 造1 ClueWeb12 数 据 集 , lemurproject/clueweb12/specs.php 7 成 性 能 成 指 数 级 下 降 ; 而 NoSQL 数 据 库 ( 图 数 据 库 以 外 ) 采 用 的 数据 结 构 和 分 布 式 架 构 , 更 适 合 离 散 、 关 联 关 系 弱 的 数 据 存 储 管 理 。 图数 据 库 中 丰 富 的 关 系 表 示 , 完 整 的 事 务 支 持 , 提 供 了 高 效 的 关 联 查 询和 完 备 的 实 体 信 息 。 因 此 , 有 人 认 为 图 数 据 库 是 一 项 具 有 变 革 意 义 的技 术 , 不 仅 仅 是 因 为 它 提 供 了 功 能 强 大 且 新 颖 的 数 据 技 术 , 更 是 因 为它 带 来 了 直 接 的 商 业 利 益 , 让 人 们 有 着 充 分 的 动 机 去 替 换 已 有 的 数 据平 台 。2019 年 初 Gartner 2数 据 与 分 析 峰 会 上 将 图 列 为 2019 年 十 大 数 据和 分 析 趋 势 之 一 , 并 认 为 到 2022 年 , 全 球 图 处 理 及 图 数 据 库 的 应 用都 将 以 每 年 100%的 速 度 迅 猛 增 长 。接 下 来 本 章 将 从 图 数 据 库 的 概 念 、 价 值 、 发 展 情 况 以 及 与 其 它 数据 库 的 对 比 三 个 方 面 介 绍 图 数 据 库 的 基 本 情 况 。( 一 ) 图 数 据 库 的 概 念图 数 据 库 以 图 论 为 理 论 基 础 , 使 用 图 模 型 , 将 关 联 数 据 的 实 体 作为 顶 点 ( vertex) 存 储 , 关 系 作 为 边 ( edge) 存 储 , 解 决 了 数 据 复 杂 关 联 带 来 的 严 重 随 机 访 问 问 题 。 在 分 类 上 , 图 数 据 库 可 归 类 为 NoSQL数 据 库 。1. 图 模 型图 是 一 组 对 象 的 集 合 , 由 顶 点 和 边 构 成 , 顶 点 表 示 实 体 或 实 例 ,如 人 、 账 号 、 组 织 、 业 务 等 。 它 们 可 以 类 比 于 关 系 型 数 据 库 里 的 记 录 2 Gartner2019 年 十 大 数 据 和 分 析 技 术 趋 势 , 8 ( record) 或 行 ( row) , 或 文 档 数 据 库 ( document database) 里 的 文档 ( document) 。 边 是 将 连 接 顶 点 的 线 , 表 示 顶 点 之 间 的 关 联 关 系 。边 是 图 数 据 库 中 的 关 键 概 念 , 在 关 系 型 数 据 库 或 文 档 存 储 数 据 库 中 ,没 有 对 边 的 抽 象 概 念 进 行 直 接 实 现 。图 模 型 主 要 包 含 属 性 图 、 RDF 图 两 种 。 属 性 图 模 型属 性 图 模 型 由 顶 点 、 边 及 其 属 性 构 成 。 图 数 据 库 通 常 是 指 基 于 属性 图 模 型 的 图 数 据 库 。 模 型 由 以 下 4 个 部 分 组 成 :1) 顶 点 。 顶 点 是 事 物 ( Object) 的 抽 象 , 可 以 是 “人 ”、 “书 ”等 实 体 , 也 可 以 是 “端 口 ”、 “IP”等 抽 象 ;2) 顶 点 的 属 性 。 顶 点 的 属 性 是 对 事 物 的 具 体 描 述 , 根 据 顶 点 代表 的 类 型 不 同 , 每 个 顶 点 可 以 有 不 同 的 属 性 , 比 如 以 “人 ”作 为 顶 点 ,属 性 可 以 是 “ 姓 名 ” “身 高 ”、 “生 肖 ”等 ;3) 边 。 边 是 两 个 顶 点 间 的 关 联 关 系 , 有 向 或 无 向 。 比 如 两 个 顶点 是 “人 ”和 “职 务 ”, 那 关 系 “任 职 ”是 连 接 它 们 的 边 ;4) 边 的 属 性 。 和 顶 点 的 属 性 类 似 , 每 条 边 上 也 有 属 性 。 比 如 连接 顶 点 “人 ”和 “职 务 ”的 “当 选 ”边 , 属 性 就 是 具 体 的 当 选 时 间 。 图 2 属 性 图 模 型 实 例 RDF 模 型 9 RDF( resource description framework) 模 型 原 本 是 描 述 Web 资 源的 标 记 语 言 , 由 W3C 提 出 。 RDF 主 要 针 对 文 本 语 义 的 场 景 , 用 三 元组 ( subject-predicate-object) 来 表 达 。 因 此 基 于 RDF 图 模 型 的 图 数 据库 又 称 三 元 组 数 据 库 。 通 常 意 义 的 RDF 模 型 在 顶 点 和 边 上 没 有 属 性 ,只 有 一 个 唯 一 的 资 源 描 述 符 , 这 是 与 属 性 图 模 型 最 根 本 的 区 别 。 顶 点属 性 可 以 通 过 顶 点 与 属 性 值 ( literal) 之 间 的 边 来 表 示 , 边 的 属 性 则比 较 复 杂 , 需 要 将 每 条 边 表 示 为 顶 点 , 然 后 再 将 属 性 与 之 相 连 。 图 3 RDF 图 模 型 实 例属 性 图 和 RDF 图 的 主 要 区 别 有 : 1) RDF 图 可 以 更 好 地 支 持 多 值属 性 ; 2) RDF 图 不 支 持 两 顶 点 间 多 个 相 同 类 型 的 边 ; 3) RDF 图 不支 持 边 属 性 。2. 图 数 据 库图 数 据 库 基 于 图 模 型 , 对 图 数 据 进 行 存 储 、 操 作 和 访 问 , 与 关 系型 数 据 库 中 的 联 机 事 务 处 理 ( Online Transactional Processing, OLTP)数 据 库 是 类 似 的 , 支 持 事 务 、 可 持 久 化 等 特 性 。图 数 据 库 根 据 底 层 存 储 实 现 的 不 同 , 可 分 为 原 生 (Native)和 非 原 10 生 (Non-native) 两 种 。 原 生 图 数 据 库 : 使 用 图 模 型 进 行 数 据 存 储 , 可 以 针 对 图 数 据做 优 化 , 从 而 带 来 更 好 的 性 能 , 例 如 Neo4j。 非 原 生 图 数 据 库 : 底 层 存 储 使 用 非 图 模 型 进 行 存 储 , 在 存 储之 上 封 装 图 的 语 义 ,其 优 点 是 易 于 开 发 , 适 合 产 品 众 多 的 大 型公 司 , 形 成 相 互 配 合 的 产 品 栈 , 例 如 Titan、 JanusGraph 底 层采 用 KV 存 储 非 图 模 型 。( 二 ) 图 数 据 库 发 展 情 况 自 2007 年 第 一 款 商 用 图 数 据 库 Neo4j 诞 生 以 来 , 图 数 据 库 的 发展 虽 然 不 过 十 余 年 , 却 已 经 历 了 底 层 存 储 、 架 构 等 技 术 方 面 的 重 大 变革 , 由 最 初 的 单 机 图 数 据 库 向 分 布 式 大 规 模 图 数 据 库 发 展 。Graph 1.0: 小 规 模 原 生 图 存 储Graph 1.0 时 代 ( 2007 年 -2010 年 ) , 以 Neo4j 为 代 表 , 采 用 原 生图 的 方 式 实 现 了 图 存 储 , 获 得 了 比 关 系 型 数 据 库 快 得 多 的 复 杂 关 联 数据 查 询 性 能 。 如 下 图 所 示 , OREILLY 出 版 的 图 数 据 库 一 书 中 在5000 万 点 和 边 的 数 据 规 模 下 , 对 比 了 Neo4j 与 关 系 型 数 据 库 在 关 联查 询 的 时 间 对 比 , 随 着 关 联 关 系 深 度 的 增 加 , 关 系 型 数 据 库 性 能 呈 指 数 倍 增 长 甚 至 无 法 执 行 , 图 数 据 库 的 优 势 不 言 而 喻 。 然 而 , 当 时 在 软件 架 构 设 计 上 只 支 持 单 机 部 署 , 图 数 据 库 产 品 性 能 和 业 务 扩 展 能 力 有限 。 表 1 Neo4j 与 某 关 系 型 数 据 库 在 关 联 查 询 的 性 能 对 比 11 深 度 关 系 型 数 据 库 的执 行 时 间 ( s) Neo4j 的执 行 时 间 ( s) 返 回 的记 录 条 数2 0.016 0.01 2 5003 30.267 0.168 110 0004 1543.505 1.359 600 0005 未 完 成 2.132 800 000Graph 2.0: 分 布 式 大 规 模 图 存 储Graph2.0 时 代 ( 2010 年 -至 今 ) , 随 着 大 数 据 和 物 联 网 的 蓬 勃 发 展 ,数 据 本 身 的 丰 富 程 度 增 加 , 数 据 之 间 的 关 联 性 增 多 , 扩 展 性 成 为 数 据库 行 业 共 同 的 痛 点 , 分 布 式 架 构 的 兴 起 催 生 了 很 多 的 分 布 式 图 数 据 库 项 目 。 在 这 一 发 展 阶 段 , 支 持 分 布 式 大 规 模 图 存 储 是 关 注 的 重 点 , 图存 储 是 否 以 原 生 的 方 式 实 现 , 不 再 是 那 么 重 要 的 问 题 , 例 如 OrientDB选 择 了 支 持 原 生 图 存 储 , 自 研 了 分 布 式 图 数 据 存 储 模 块 , 而JanusGraph 则 是 在 其 他 数 据 库 ( Cassandra、 HBase 等 ) 之 上 封 装 实 现图 的 语 义 。 通 过 支 持 在 通 用 硬 件 上 进 行 水 平 扩 展 ( Scale Out) , 分 布式 图 数 据 库 具 备 了 在 海 量 关 联 关 系 数 据 的 存 储 与 实 时 深 度 查 询 上 绝佳 的 性 能 , 但 是 在 全 图 分 析 等 需 要 迭 代 计 算 的 场 景 下 仍 需 要 结 合 图 处理 引 擎 ( 如 GraphX, 参 见 第 三 章 ) 进 行 离 线 计 算 与 分 析 。我 国 的 图 数 据 库 产 业 发 展 也 随 着 时 代 的 更 替 而 蓬 勃 发 展 , 产 品 形 态 丰 富 , 经 详 细 调 研 及 初 步 估 计 , 当 前 国 内 的 图 数 据 库 已 有 20 余 款产 品 , 主 要 有 四 类 研 发 主 体 发 起 , 其 特 点 如 下 :( 1) 各 大 高 校 实 验 室 、 研 究 所 在 图 数 据 库 发 展 初 期 研 究 开 发 的数 据 库 产 品 , 主 要 聚 焦 于 支 持 RDF 图 模 型 的 图 数 据 库 ; 12 ( 2) 大 型 互 联 网 企 业 由 于 自 身 积 累 的 海 量 数 据 以 及 业 务 需 求 ,催 生 相 关 的 数 据 库 产 品 。 这 些 产 品 考 虑 到 企 业 原 有 数 据 系 统 的 情 况 ,结 合 原 有 数 据 系 统 而 开 发 的 非 原 生 图 数 据 库 不 在 少 数 , 但 绝 大 多 数 使用 分 布 式 架 构 以 供 企 业 内 部 使 用 , 产 品 迭 代 较 快 , 当 前 也 有 部 分 产 品商 业 化 ;( 3) 新 兴 创 业 公 司 , 他 们 的 产 品 的 最 大 特 点 是 完 全 自 主 研 发 的图 数 据 库 , 强 调 高 性 能 与 数 据 库 的 事 务 性 , 但 是 产 品 版 本 更 新 迭 代 相对 较 少 , 目 前 也 在 往 分 布 式 架 构 发 展 ;( 4) 传 统 IT 服 务 商 在 图 数 据 库 的 发 展 浪 潮 下 , 也 加 快 图 数 据 库 产 品 的 研 发 步 伐 , 并 且 通 常 与 企 业 已 有 的 其 它 产 品 ( 例 如 知 识 图 谱 工具 ) 一 同 对 外 输 出 。总 体 来 看 , 国 内 数 据 库 产 品 以 属 性 图 为 主 , 并 且 有 向 分 布 式 发 展的 需 求 与 趋 势 , 强 调 对 实 时 复 杂 图 查 询 的 性 能 , 多 使 用 自 研 的 查 询 语言 , 部 分 产 品 支 持 Cypher 或 Gremlin 等 查 询 语 言 。( 三 ) 图 数 据 库 的 技 术 优 势大 数 据 时 代 带 来 了 新 的 业 务 场 景 和 技 术 挑 战 , 关 系 型 数 据 库 无 法解 决 所 有 问 题 , 因 此 留 给 了 包 括 图 数 据 库 在 内 的 NoSQL 数 据 库 广 大 的 生 存 和 发 展 空 间 。关 系 型 数 据 库 的 优 点 在 于 实 现 了 快 速 的 逐 行 访 问 和 保 持 数 据 一致 性 ( ACID 事 务 ) , 为 此 , 关 系 型 数 据 库 对 数 据 模 式 和 数 据 规 范 化有 着 严 格 的 要 求 , 这 种 要 求 对 数 据 关 系 的 查 询 产 生 了 束 缚 。 当 数 据 规模 变 大 ,且 数 据 间 关 系 随 之 变 得 复 杂 时 , 使 用 关 系 模 型 检 索 时 需 要 多 13 个 表 的 属 性 执 行 连 接 操 作 , 数 据 写 入 时 也 需 考 虑 外 键 约 束 , 从 而 导 致较 大 的 额 外 开 销 , 产 生 严 重 的 性 能 问 题 , 因 此 传 统 关 系 型 数 据 库 更 适合 实 体 联 系 为 一 对 一 或 一 对 多 的 应 用 场 景 。 而 图 数 据 库 则 在 处 理 复 杂关 系 上 有 着 天 然 优 势 , 在 海 量 数 据 的 多 对 多 的 复 杂 实 体 联 系 场 景 中 有着 异 常 突 出 的 性 能 表 现 。表 2 图 数 据 库 与 关 系 型 数 据 库 对 比分类图数据库关系型数据库 数据模型图表存储对象半结构化数据结构化数据2-3度关联查询高效低效6-10度关联查询高效低效/不支持事务性支持支持在 处 理 关 联 数 据 时 , 图 数 据 库 有 三 个 非 常 突 出 的 技 术 优 势 : 高 性能 、 灵 活 、 敏 捷 。1. 高 性 能图 数 据 库 相 较 于 关 系 型 数 据 库 和 其 它 非 关 系 型 数 据 库 , 在 处 理 深 度 关 联 数 据 时 , 具 有 绝 对 的 性 能 提 升 。2. 灵 活图 数 据 库 提 供 了 极 其 灵 活 的 数 据 模 型 , 可 以 根 据 业 务 变 化 实 时 对数 据 模 型 进 行 修 改 , 数 据 库 的 设 计 者 无 需 计 划 数 据 库 未 来 用 例 的 详 细信 息 。3. 敏 捷图 数 据 库 的 数 据 建 模 非 常 直 观 , 而 且 支 持 测 试 驱 动 开 发 模 式 , 每 14 次 构 建 时 可 进 行 功 能 测 试 和 性 能 测 试 , 符 合 当 今 最 流 行 的 敏 捷 开 发 需求 , 极 大 地 提 高 了 生 产 和 交 付 效 率 。 15 二、图数据库应用场景图 数 据 库 在 如 今 的 大 数 据 时 代 因 其 在 海 量 数 据 挖 掘 、 复 杂 关 联 分析 、 实 时 查 询 等 方 面 具 有 较 大 的 优 势 而 得 到 快 速 发 展 , 为 大 数 据 领 域创 新 提 供 了 新 的 思 路 。 图 数 据 库 的 应 用 场 景 多 样 并 不 断 丰 富 。 如 果 说知 识 图 谱 是 图 数 据 库 最 为 基 础 的 底 层 应 用 场 景 , 充 分 利 用 了 其 图 模 型在 存 储 和 查 询 的 优 势 为 多 行 业 提 供 知 识 服 务 , 那 么 金 融 风 控 、 社 交 应用 等 则 是 更 具 有 行 业 特 点 的 高 阶 应 用 场 景 。 接 下 来 本 章 将 介 绍 图 数 据库 在 知 识 图 谱 、 金 融 风 控 、 智 能 物 联 网 的 三 个 具 体 落 地 情 况 。 图 4 图 数 据 库 、 知 识 图 谱 与 行 业 应 用( 一 ) 知 识 图 谱知 识 图 谱 本 质 上 是 一 种 基 于 图 的 数 据 结 构 语 义 网 络 知 识 图 谱 将实 体 表 示 为 顶 点 的 集 合 , 将 实 体 之 间 的 关 系 表 示 为 边 的 集 合 , 通 过 结 16 构 化 的 形 式 对 知 识 进 行 建 模 和 描 述 , 利 用 可 视 化 的 图 谱 对 知 识 进 行 展示 。 知 识 图 谱 使 用 三 元 组 形 式 组 织 数 据 , 关 系 复 杂 且 更 新 、 查 询 频 繁 ,传 统 数 据 库 无 法 适 应 存 储 此 类 模 型 的 需 求 , 图 数 据 库 也 就 因 此 而 产 生并 发 展 。对 于 行 业 来 说 , 知 识 图 谱 是 面 向 多 行 业 的 新 一 代 知 识 库 技 术 ; 对于 图 数 据 库 而 言 , 知 识 图 谱 是 图 数 据 库 关 联 最 为 紧 密 、 应 用 范 围 最 广的 应 用 场 景 。 知 识 图 谱 对 海 量 信 息 进 行 智 能 化 处 理 , 形 成 大 规 模 的 知识 库 并 进 而 支 撑 业 务 应 用 。 知 识 图 谱 中 图 数 据 库 具 有 存 储 和 查 询 两 方面 的 技 术 优 势 : 从 存 储 来 看 , 图 数 据 提 供 了 灵 活 的 设 计 模 式 。 知 识 图 谱 中 存 储 了多 样 、 海 量 的 数 据 。 在 关 系 型 数 据 库 中 所 有 的 数 据 库 模 式 都 需 要 提 前定 义 , 后 续 改 动 代 价 高 昂 。 而 图 模 型 中 , 只 需 要 重 新 增 加 模 式 定 义 ,再 局 部 调 整 图 数 据 , 便 可 完 成 在 原 有 的 数 据 源 上 增 加 标 签 或 添 加 属 性 。从 查 询 来 看 , 图 数 据 库 提 供 了 高 效 的 关 联 查 询 。 在 用 图 数 据 库 存储 的 知 识 图 谱 中 , 可 以 通 过 查 询 实 体 的 边 和 其 边 上 的 标 签 ( 即 联 系 )来 快 速 地 获 取 与 其 相 联 系 的 另 一 实 体 , 而 不 用 再 进 行 各 种 表 的 关 联 操作 , 关 系 查 询 的 效 率 显 著 提 高 。作 为 图 数 据 库 的 底 层 应 用 , 知 识 图 谱 可 为 多 种 行 业 提 供 服 务 , 具 体 应 用 场 景 例 如 电 商 、 金 融 、 法 律 、 医 疗 、 智 能 家 居 等 多 个 领 域 的 决策 系 统 、 推 荐 系 统 、 智 能 问 答 等 。( 二 ) 行 业 应 用过 去 几 年 , 机 器 学 习 获 得 了 空 前 的 关 注 , 使 用 通 用 模 型 从 海 量 数 17 据 中 获 得 结 论 , 降 低 了 专 业 知 识 的 需 求 。 但 机 器 学 习 的 模 型 是 黑 盒 模型 , 结 果 不 具 有 可 解 释 性 。 图 是 基 于 事 物 关 联 关 系 的 模 型 表 达 , 具 有天 然 解 释 性 , 因 此 图 数 据 库 与 图 处 理 引 擎 集 成 的 图 系 统 带 来 的 强 大 的图 存 储 和 分 析 能 力 , 推 动 了 图 数 据 库 在 金 融 风 控 等 典 型 应 用 场 景 的 落地 , 也 带 来 了 物 联 网 等 新 的 行 业 应 用 发 展 方 向 。1. 金 融 风 控互 联 网 金 融 的 兴 起 下 , 金 融 业 务 拓 宽 服 务 能 力 显 著 提 升 , 但 与 此同 时 产 生 了 大 量 的 非 结 构 化 数 据 , 数 据 量 的 剧 增 和 关 系 的 复 杂 多 变 性给 金 融 风 控 带 来 了 新 的 挑 战 。 传 统 关 系 型 数 据 库 在 海 量 非 结 构 化 数 据 存 储 和 复 杂 关 系 挖 掘 方面 具 有 天 然 的 缺 陷 。 相 比 之 下 , 图 数 据 库 能 够 融 合 来 自 金 融 机 构 销 售 、审 批 、 风 控 、 电 销 、 交 易 、 催 收 等 系 统 的 多 源 数 据 以 及 第 三 方 数 据 ,打 破 数 据 孤 岛 , 构 建 全 方 位 用 户 关 联 网 络 。 图 数 据 库 通 过 利 用 多 维 交叉 关 联 信 息 深 度 刻 画 申 请 和 交 易 行 为 , 可 以 有 效 识 别 多 种 复 杂 的 、 规模 化 、 隐 蔽 性 的 欺 诈 网 络 和 洗 钱 网 络 ; 结 合 机 器 学 习 、 聚 类 分 析 、 连通 图 挖 掘 、 风 险 传 播 等 相 关 算 法 , 可 以 实 时 计 算 用 户 的 风 险 评 分 , 在风 险 行 为 发 生 前 预 先 识 别 , 有 效 帮 助 金 融 机 构 提 升 效 率 、 节 省 人 工 时间 、 控 制 成 本 、 降 低 风 险 。 应 用 图 数 据 库 的 金 融 风 控 应 用 场 景 例 如 个 人 信 贷 业 务 , 失 联 客 户管 理 , 金 融 反 欺 诈 , 洗 钱 路 径 追 踪 , 企 业 图 谱 , 个 人 /企 业 征 信 等 。2. 智 能 物 联 网物 联 网 ( Internet of Things, IoT) 近 年 来 发 展 迅 猛 , “万 物 互 联 ” 18 已 是 大 势 所 趋 。 然 而 , 物 联 网 要 实 现 智 能 化 , 仍 面 临 许 多 挑 战 : 网 络中 传 感 器 产 生 的 数 据 量 大 、 数 据 变 化 迅 速 , 而 且 数 据 之 间 往 往 相 互 关联 、 查 询 频 繁 。物 联 网 领 域 中 , 图 数 据 库 在 结 合 图 处 理 引 擎 后 还 可 以 提 供 其 所 需的 关 联 数 据 的 高 效 复 杂 查 询 与 计 算 能 力 。 例 如 传 统 电 力 管 理 系 统 , 使用 关 系 型 数 据 库 储 存 传 感 器 数 据 , 电 力 供 需 错 配 、 电 流 检 查 和 全 网 状态 评 估 等 作 业 , 涉 及 复 杂 、 庞 大 、 耗 时 的 矩 阵 运 算 , 很 难 在 一 个 监 视控 制 与 数 据 采 集 周 期 内 完 成 。 基 于 图 数 据 库 的 智 能 电 力 管 理 系 统 中 ,电 力 供 需 错 配 和 电 网 状 态 检 测 作 业 所 需 的 核 心 计 算 全 部 在 图 上 完 成 , 解 出 的 值 作 为 点 和 边 的 属 性 来 存 储 , 替 代 了 开 销 巨 大 的 矩 阵 运 算 , 提高 电 网 效 率 , 同 时 能 够 检 测 并 发 现 电 网 网 络 瓶 颈 , 及 时 发 出 告 警 , 减少 电 网 网 络 故 障 和 中 断 。应 用 图 数 据 库 的 智 能 物 联 网 场 景 例 如 智 能 交 通 、 车 联 网 、 智 能 家居 、 网 络 流 量 控 制 、 智 慧 农 业 、 电 网 智 能 电 力 管 理 等 。除 了 金 融 风 控 和 智 能 物 联 网 以 外 , 图 数 据 库 还 可 以 为 公 安 、 社 交 、地 理 等 多 个 行 业 提 供 服 务 。 19 三、图数据库技术详解本 章 将 从 技 术 架 构 、 图 查 询 语 言 、 图 数 据 的 计 算 、 图 处 理 引 擎 四个 方 面 介 绍 图 数 据 库 相 关 技 术 栈 。( 一 ) 技 术 架 构图 数 据 库 的 技 术 架 构 如 下 图 所 示 , 整 体 上 采 用 分 层 架 构 的 模 式 ,从 上 往 下 依 次 是 : 接 口 层 、 计 算 层 、 存 储 层 。 图 5 图 数 据 库 系 统 架 构( 1) 接 口 层 : 接 口 层 对 外 提 供 服 务 , 有 如 下 几 种 方 式 : 查 询 语 言 接 口 : 提 供 除 该 图 数 据 库 原 有 查 询 语 言 之 外 例 如Cypher、 Gremlin 等 主 流 图 查 询 语 言 接 口 。 API: 提 供 ODBC、 JDBC、 RPC、 RESTful 等 接 口 与 应 用 端交 互 。 20 SDK: 在 Python、 Java、 C+等 编 程 语 言 中 通 过 库 函 数 的 方 式调 用 图 数 据 库 的 接 口 。 可 视 化 组 件 : 通 过 图 形 化 界 面 的 形 式 展 示 和 实 现 用 户 的 交 互 。( 2) 计 算 层 : 提 供 对 操 作 的 处 理 和 计 算 , 包 括 语 法 解 析 、 查 询引 擎 、 优 化 器 、 事 务 管 理 、 任 务 调 度 和 图 算 法 实 现 等 。 其 中 , 图 算 法可 能 是 由 图 数 据 库 本 身 提 供 , 也 可 能 是 提 供 接 口 与 图 处 理 引 擎 对 接 。( 3) 存 储 层 : 图 数 据 库 有 原 生 和 非 原 生 存 储 两 种 存 储 方 式 , 图存 储 引 擎 提 供 了 图 数 据 结 构 、 索 引 逻 辑 上 的 管 理 。( 二 ) 主 流 的 图 查 询 语 言 数 据 库 查 询 语 言 可 以 分 为 命 令 式 ( imperative) 和 声 明 式( declarative) 。 命 令 式 查 询 语 言 是 一 种 描 述 计 算 机 所 需 作 出 的 行 为 的编 程 范 型 , 系 统 需 要 顺 序 依 次 执 行 用 户 的 指 令 , 要 求 用 户 具 备 一 定 的编 程 能 力 , 但 执 行 效 率 高 。 声 明 式 查 询 语 言 允 许 用 户 表 达 要 检 索 哪 些数 据 , 仅 需 在 逻 辑 上 表 述 清 楚 查 询 结 果 需 要 满 足 的 条 件 , 剩 下 的 由 数据 库 优 化 执 行 , 对 用 户 负 担 较 小 。 例 如 SQL 是 典 型 的 声 明 式 语 言 ,C+和 Java 是 命 令 式 语 言 。与 关 系 型 数 据 库 不 同 , 图 数 据 库 领 域 目 前 没 有 统 一 的 查 询 语 言 标准 , 大 多 数 查 询 语 言 与 产 品 紧 密 关 联 。 声 明 式 查 询 语 言 通 常 作 为 常 规 查 询 语 言 , 提 高 图 数 据 的 易 用 性 ; 而 命 令 式 查 询 语 言 用 在 对 图 数 据 性能 有 较 高 要 求 的 场 景 , 同 时 复 杂 图 分 析 场 景 也 多 使 用 命 令 式 语 言 。 据了 解 目 前 国 内 一 些 图 数 据 库 产 品 使 用 的 是 自 研 的 声 明 式 查 询 语 言 。 而常 见 的 声 明 式 图 数 据 库 查 询 语 言 包 括 Cypher, Gremlin 和 SPARQL。 21 表 3 图 数 据 库 查 询 语 言查 询 语 言 提 出 者 介 绍Cypher Neo4J 提 出 采 用 类 SQL 语 法 , 其 开 源 版 本 为OpenCypherGremlin Apache TinkerPop开 源项 目 的 一 部 分 采 用 类 Scala 语 法SPARQL W3C 标 准 SPARQL 是 一 种 用 于 资 源 描 述 框 架 (RDF)的 查 询 语 言除 了 上 述 查 询 语 言 外 , 目 前 业 界 相 当 一 部 分 产 品 使 用 自 己 开 发 定义 的 查 询 语 言 。 在 图 数 据 库 查 询 语 言 不 一 的 情 况 下 , 2019 年 6 月 隶 属 ISO/IEC 的 Joint Technical Committee 1( JTC1, 联 合 技 术 委 员 会 1)通 过 Graph Query Language( GQL, 图 查 询 语 言 ) 的 标 准 提 案 , 将 在未 来 进 行 为 期 48 个 月 的 制 定 工 作 。( 三 ) 图 数 据 的 计 算图 数 据 库 的 使 用 场 景 主 要 是 实 时 查 询 , 用 户 通 过 图 查 询 语 言 在 图上 做 遍 历 、 过 滤 和 统 计 等 操 作 , 一 般 为 局 部 查 询 , 以 满 足 实 时 的 需 求 。图 数 据 库 为 实 时 查 询 提 供 了 两 类 常 用 的 图 算 法 :1)图 遍 历 ( Graph Traversal) : 也 被 称 为 图 搜 索 ( Graph Search) , 是 指 访 问 图 中 每 个 顶 点 的 过 程 。 对 图 的 访 问 和 更 新 都 以 图 遍 历 为 基 础 。图 遍 历 常 见 算 法 包 括 : 广 度 优 先 搜 索 ( Breadth First Search,BFS) 和深 度 优 先 搜 索 ( Depth First Search,DFS) 。2)路 径 发 现 ( Path Finding) : 用 以 识 别 最 符 合 大 型 网 络 中 两 点 之间 某 些 条 件 下 的 最 短 路 径 。 路 径 发 现 常 见 算 法 包 括 : 最 短 路 径 22 ( Shortest Path) 、 最 小 权 重 生 成 树 ( Minimum Weight Spanning Tree,MST) 和 两 两 最 短 路 径 ( All Pairs Shortest Path, APSP) 。此 外 , 用 户 常 常 会 提 出 比 实 时 查 询 更 为 复 杂 的 分
展开阅读全文