资源描述
I 前 言 随 着 互 联 网 + 、 社 交 网 络 、 智 能 推 荐 等 大 数 据 的 迅 猛 增 长 , 大 批 N oS Q L 数 据库已经成为互联网开发的新标配。 对于大数据中关联关系的处理, 图数据库的 处理性能远超其他类型数据库, 被广泛应用于金融、 工业、 政务、 零售、 电信和 生命科学等各学科和工业领域, 受欢迎程度遥遥领先。 与此同时, 图数据库也面 临着底层设计和上层语言表达的多重挑战。 本期, 我们选取图数据 库作为 T R 报告的主题。 报告围绕图数据库的基本概 念、 技术发展、 产业应用、 人才概况和热点趋势五大方面进行深入挖掘 。 其中基 本概念、 技术发展和产业应用章节由国内领先的图数据库团队即陈文光教授带领 的 清 华 团 队 完 成 。 该 团 队 在 O S D I 、 E ur oS y s 、 A T C 等 顶 级 会 议 中 发 表 过 多 篇 相 关论文, 他们编写的图计算系统具有业界领先的性能, 并在金融、 互联网等多个 领域得到实际使用。 此 外 , 报 告 的 人 才 概 况 和 热 点 趋 势 章 节 依 托 清 华 大 学 唐 杰 教 授 自 主 研 发 的 “科 技情 报 大数 据 挖掘 与 服务 系 统平 台 ” ( 简称 A M i ne r ) ,以 及 第三 方 机构 研 报、 媒体报道等公开资料 , 通过人工智能 、 大数据分析与挖掘、 知识图谱、 自然 语言处理等技术,并结合文献计量学等情报学方法制作生成。I I 报 告 的 数 据 来 源 与 研 究 方 法 1. 数据来源 本报告中与图数据库领域相 关的人才数据来均自于 A M i ne r 系统。 系统采用 数据挖掘和社会网络分析与挖掘等技术, 提供研究者信息抽取、 研究者社会网络 关系识别、 研究者能力图谱、 审稿人智能推荐等功能, 提供研究者和研究领域的 全面 知识, 为科研 管理和 服务提 供有力 支撑。 平台自 2006 年上 线以来 ,经过 十 多年的建设发展, 已建立运作良好的数据采集及集成更新机制, 收录论文文献 超 3 亿, 专利 1 亿, 学者 1.3 亿, 其中超过 50 万的学者经过了人工标注与审核吸引 了全球 220 个国家 / 地区 1000 多万独立 I P 的访问,年度访问量 1,800 余万次。 2.学者及研究领域筛选方法 本次报告中的人才和技术篇采用大数据挖掘技术, 对图数据库领域内的学者 信 息 进 行 深 入 挖 掘 , 参 考 h- i nde x 、 发 表 论 文 数 、 论 文 被 引 频 次 等 指 标 , 对 学 者 信息进行筛选, 比较和分析了图数据库领域人才在全球和国内的分布概况, 领域 的技术研究发展趋势,以及技术领先国家、机构趋势。 (1) 由图数据库顾问组推荐期刊 / 会议列表和领域关键词 , 推荐的期刊 / 会议 为 数 据 管 理 国 际 会 议 ( T he A C M S pe c i a l I n t e r e s t G r oup on M a na ge m e nt of D a t a , S I G M O D ) 、 超 大 型 数 据 库 国 际 会 议 ( I n t e r na t i ona l C onf e r e nc e on V e r y L a r ge D a t a ba s e s , V L D B ) 、 I E E E 国 际 数 据 工 程 会 议 ( I E E E I n t e r na t i ona l C onf e r e nc e on D a t a E ng i ne e r i ng, I C D E ) 、 图 形 数 据 管 理 经 验 与 系 统 国 际 研 讨 会 ( I n t e r na t i ona l W or ks hop on G r a ph D a t a M a na ge m e nt E x pe r i e nc e s & S y s t e m s , G R A D E S ) 、 扩 展数 据 库 技 术 国 际 会 议 ( I n t e r na t i ona l C onf e r e nc e on E x t e ndi ng D a t a ba s e T e c hnol ogy , E D B T ) 。 领域 关键词具 体包括 : 图数 据库 ( G r a ph da t a ba s e s ) 、 属性 图 ( P r ope r t y g r a phs ) 、 资源 描述框 架 (R e s our c e D e s c r i pt i on F r a m e w or k, R D F ) 、 图分 析 (G r a ph a na l y s i s ) 、 A C I D 事 务 属 性 ( A t om i c i t y , C ons i s t e nc y , I s ol a t i on, D ur a bi l i t y , A C I D t r a ns a c t i on )、图匹配(G r a ph pa t t e r ns )。 ( 2 ) 通过 A M i ne r 大数据平台对 2000 2019 年发表在推荐期 刊 / 会议的论文 进行采集和清洗,并对论文作者信息进行深度挖掘;I I I (3)基 于专家 顾问推 荐的领 域关键 词,根 据论文 作者的 研究兴 趣标签 、作 者名下 的所有论文 标题和摘要 ,筛选与图 数据库领域 相关,且 h- i nde x 排名最 靠 前的 2,000 位研究学者; ( 4 ) 综合运用知识图谱、 自然语言处理 、 可视化、 文献计量学等技术手段 , 基于论文和学者数据, 分析得出图数据库领域的技术研究发展趋势, 以及技术领 先的国家、机构趋势。 3.代表性学者画像 “学者画像” 是 A M i ne r 平台的核心服务功能之一, 其具体示例如图 1 所示。 学者画像的特色在于除了提供专家学者如姓名、 单位、 地址、 联系方式、 个人简 介、教育经历等个人基本信息之外,还利用团队多年的命名排歧相关技术基础, 建立了较为完全的学者 论文映射关系, 分析挖掘学者学术评价、 研究兴趣发 展趋势分析、学者合作者关系网络等信息。 图 1 代 表 性 学 者 画 像 示 例I V 4.领域热点话题 为了帮助读者了解图数据库 领域的热点研究话题 , 本报告针对 A M i ne r 平台 上 收 录 的 专 家 推 荐 的 100 篇 必 读 论 文 ( ht t ps : / / w w w .a m i ne r .c n/ s e a r c h/ pub? q= C og ni t i ve % 20G r a ph ) , 采 用 主 题 生 成 模 型 (L a t e nt D i r i c hl e t A l l oc a t i on, L D A )分析了这些论文的研究主题分布情况 1 。 1 L D A 模型. E B / O L h t t p s : / / e n . w i k i p e d i a . o r g / w i k i / L a t e n t _ D i r i c h l e t _ a l l o c a t i o nV 目 录 1 概述篇. 1 1.1 概念 . 1 1.1.1 图模型. 1 1.1.2 图数据库 . 3 1.2 图数据库的历史发展. 3 1.3 图数据库的特征. 5 1.3.1 优势. 5 1.3.2 数据库横向对比 . 6 1.4 图数据的未来挑战. 7 1.5 图数据库基准测试 . 7 2 技术篇. 10 2.1 图数据模型. 10 2.1.1 R D F . 10 2.1.2 属性图. 11 2.1.3 属性图与 R D F 模型的区别 . 12 2.2 图数据存储 . 13 2.2.1 链表. 13 2.2.2 排序树. 15 2.2.3 哈希表 . 16 2.2.4 N oS Q L 数据库. 16 2.3 图数据查询 . 19 2.3.1 C y p he r . 21 2.3.2 G r e m l i n . 22 2.3.3 S P A R Q L . 23 2.3.4 G Q L . 24 2.3.5 其他查询语言. 25 2.3.6 查询优化 . 26 2.4 常见图数据库. 27 2.4.1 N e o4j . 27V I 2.4.2 A r a ngoD B . 27 2.4.3 V i r t uos o . 27 2.4.4 N e pt une . 27 2.4.5 J a nus G r a ph . 28 2.4.6 T i g e r G r a ph . 28 2.4.7 T uG r a ph . 28 2.4.8 常见图数据库对比. 28 3 产业应用篇 . 31 4 人才篇. 43 4.1 学者情况概览 . 43 4.1.1 全球学者概况. 43 4.1.2 国内学者概况 . 46 4.2 代表性学者及其论文解读. 48 5 趋势篇 . 68 5.1 国家趋势. 68 5.2 论文技术趋势 . 69 5.3 领域热点话题. 70 5.4 国家自然科学基金支持情况. 72 5.5 专利趋势 . 73 6 结语. 76 参考文献 . 77V I I 图 目 录 图 1 代表性学者画像示例. I I I 图 1- 1 图模型实例 . 2 图 1- 2 图数据库的关注度. 3 图 1- 3 图数据库的发展史 . 5 图 2- 1 R D F 三元组实例. 11 图 2- 2 属性图实例. 12 图 2- 3 N e o4j 的顶点记录与边记录. 14 图 2- 4 N e o4j 图数据库的物理存储模式 . 14 图 2- 5 S pa r ks e e 的映射关系. 15 图 2- 6 A r a ngoD B 的哈希索引 . 16 图 2- 7 H y p e r G r a phD B 的键值对存储图示 . 17 图 2- 8 O r i e nt D B 的文档存储图示. 18 图 2- 9 宽列存储示例 . 18 图 2- 1 0 T i t a n/ J a nus G r a ph 的宽列存储图示. 18 图 2- 1 1 目前已有的面向图数据的查询语言示意图. 25 图 3- 1 图数据库应用场景. 31 图 3- 2 反医保欺诈方案的图数据建模示意图 . 32 图 3- 3 图数据库深链接推荐引擎方案示意图. 33 图 3- 4 图数据库实时推荐引擎方案示意图 . 33 图 3- 5 知识图谱将数据中的信息提炼并集中到一个实体中. 34 图 3- 6 图数据库快速建立知识图谱实例 . 34 图 3- 7 T e l e nor 的资源访问管理数据模型图. 36 图 3- 8 主数据示例图 . 36 图 3- 9 主数据层级图,描述人员的汇报和管理关系. 37 图 3- 1 0 现实世界的人员汇报和管理关系 . 38 图 3- 1 1 最能直观地表示网络和 I T 设备的拓扑结构. 38 图 3- 1 2 某企业网络设备拓扑和报警管理应用方案的示意图. 39 图 3- 1 3 客户的地理空间数据分析在移动商业推荐上的应用示例 . 40V I I I 图 3- 1 4 出租车实时定位. 40 图 3- 1 5 电网 I o T 传感器的时序数据图模型示例 . 41 图 4- 1 图数据库全球顶尖学者分布. 44 图 4- 2 图数据库领域 T op 10 国家论文发表数量和人才数量对比 . 44 图 4- 3 图数据库领域学者 h- i nde x 分布. 45 图 4- 4 图数据库全球学者迁徙图 . 45 图 4- 5 图数据库领域学术机构对比. 46 图 4- 6 图数据库国内学者分布. 47 图 5- 1 图数据库国家趋势 . 68 图 5- 2 图数据库的热点趋势图 . 69 图 5- 3 2000 年至 2019 年图数据库相关专利变化趋势. 74 图 5- 4 全球图数据库相关专利 TO P 3 国家. 74 图 5- 5 中国图数据库相关专利各省排名 . 75I X 表 目 录 表 1- 1 五类数据库对比. 6 表 2- 1 R D F 图模型和属性图模型的区别 . 13 表 2- 2 图查询语言. 20 表 2- 3 常见图数据库对比 . 29 表 4- 1 图数据库领域中国与各国合作论文情况. 47 表 5- 1 国家自然科学基金支持情况. 72人工智能之图数据库报告 1 1 概 述 篇 随着万物互联的 5G 时代到来, 图数据库在人工智能、 计算科学、 生物信息、 金 融 科 技 、 社 交 网 络 等 越 来 越 多 的 领 域 发 挥 着 举 足 轻 重 的 作 用 。 截 至 2019 年 6 月, 支付宝 及其本 地钱包 合作伙 伴已经 服务超 12 亿的 全球用 户,中 文网页 数量 达到 2.7 千亿 ,网页 链接数 量达到 12 万亿 ( 2018 年) ,人脑 神经突 触链接 数更 是达到了百亿级别 1 。面对各种海量数据、尤其是对海量非结构化数 据的存储 , 传统的信息存储和组织模式已经无法满足客户需求, 图数据库却能够很清晰地揭 示各类复杂模式, 尤其针对错综复杂的社交 、 物流、 金融风控行业, 其优势更为 明显,发展潜力巨大。 1 . 1 概念 图 数 据库 ( G r a ph D a t a ba s e ) 是 一个 基 于 图 模型 的 在 线 数据 库 管 理 系统 , 具 有图 数据的创 建 ( C r e a t e ) 、 读取 ( R e t r i e ve ) 、 更新 (U pda t e ) 和删 除 (D e l e t e ) 功能, 简称 C R U D 2 。 图数 据库主 要面向 事务系 统 ( O n- L i ne T r a ns a c t i on P r oc e s s i ng , O L T P ) 。 另外 , N e o4j 、 T i g e r G r a ph 、 A r a ngoD B 、 J a nus G r a ph 等图 数据库 通常也 会支持一些分析类的任务 3 - 4 。 1 . 1 . 1 图模 型 图模型 (G r a ph M ode l ) 是图数据的 一种抽象表达 , 其中 属性图模 型 ( L a be l e d P r ope r t y G r a ph M ode l , L P G ) 的 使 用 最 为 广泛 。 以 图 1- 1 为 例 , 图 模 型由 顶 点 , 以及连接顶点的边构成基础的图拓扑。 除此之外, 每个顶点和每条边均有自己的 标 签 ( L a be l ) , 该 标 签 定 义 了 该 顶 点 或 边 拥 有 的 一 个 或 多 个 属 性 。 顶 点 、 边 、 属性构成了属性图, 其符合人们对客观事物的直观认识, 在具体实现中 , 还分为 强类型和弱类型、是否支持边标签、是否支持多标签等。 以王家卫的重庆森林电影为例,具体如下所示:人工智能之图数据库报告 2 图 1 - 1 图 模 型 实 例 人物 顶点 “王家 卫 ” ,其 属性包 括 “性别 ” 为“男” ,“ 出生 年月 ” 为 “1958 年 7 月”等; 电影顶点 “ 重庆森林” , 其属性包括 “上映日期” 为 “ 1994 年” , “类 型”为“剧情”等; 导演边,从顶点“王家卫”指向“重庆森林”,边上属性为空。 上图构成了一个简单的图模型, 如果有其他的关联关系比如演员、 获奖情况 、 王家卫的其他电影等,同样也可以加入到这个图模型中。 另一 类广为人 知的模 型是 R D F ( R e s our c e D e s c r i pt i on F r a m e w or k ) 模型 , 它 最早由 W 3C 组织于 1999 年提出 。 R D F 用三元 组 (S ubj e c t , P r e di c a t e , O bj e c t ) 来 表 示实 体的 连接 关系 ,每 个元 素有 全局 唯一 的标 识。 目前 R D F 在 知识 图谱 领域 已经有比较成熟的工具链,它与属性图模型之间可以等价转换。 图 模 型 的 处 理 可 以 分 为 两 类 , 一 类 是 面 向 事 务 的 联 机 事 务 处 理 ( O nl i ne T r a ns a c t i on P r oc e s s i ng , O L T P ),主 要解决实时 增删查改的数 据操作;另 一类是 面 向 分 析 的 联 机 分 析 处 理 ( O nl i ne A na l y t i c a l P r oc e s s i ng , O L A P ) , 主 要 解 决 图 上复杂迭代计算的 效率问题 。 图数据库侧重 O L T P , 需要满足 A C I D 的事务特性, 即 原 子 性 ( A t om i c i t y ) 、 一 致 性( C ons i s t e nc y ) 、 隔 离 性( I s ol a t i on ) 、 持 久 性 (D ur a bi l i t y ) 。 在复杂数据 分析方面有所欠缺 , 典型操作为 图上的局部计算 ; 图 分 析引 擎( G r a ph A na l y t i c a l E ngi ne / G r a ph C om put i ng S y s t e m ) 侧
展开阅读全文