人工智能之学术搜索.pdf

返回 相关 举报
人工智能之学术搜索.pdf_第1页
第1页 / 共113页
人工智能之学术搜索.pdf_第2页
第2页 / 共113页
人工智能之学术搜索.pdf_第3页
第3页 / 共113页
人工智能之学术搜索.pdf_第4页
第4页 / 共113页
人工智能之学术搜索.pdf_第5页
第5页 / 共113页
亲,该文档总共113页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
0 清华大学人工智能研究院 北京智源人工智能研究院 清华 -中国工程院知识智能联合研究中心 2020 年 5 月 人工智能之学术搜索 Report of AI-powered Academic Search 2020 年第 2 期 1 目 录 图表目录 . 3 摘要 . 1 报告说明 . 2 1 概述篇 . 3 1.1 相关概念 . 4 1.1.1 垂直搜索引擎 . 4 1.1.2 什么是学术搜索 . 5 1.1.3 学术搜索与网页搜索的区别 . 5 1.1.4 学术搜索的特征与应用 . 6 1.1.5 学术搜索引擎与学术数据库的区别 . 7 1.2 发展历程 . 7 2 技术篇 . 11 2.1 学术搜索的工作原理 . 12 2.2 学术搜索引擎系统架构 . 12 2.3 学术搜索主要技术 . 14 2.3.1 信息抽取技术 . 15 2.3.2 作者识别技术 . 17 2.3.3 命名消歧技术 . 17 2.3.4 信息集成技术 . 18 2.3.5 信息检索技术 . 19 2.3.6 排序技术 . 21 2.3.7 推荐技术 . 24 2.3.8 基于自然语言处理 NLP 和语义分析的用户交互技术 . 28 3 人才篇 . 29 3.1 AI 学术搜索领域的学者总体现状 . 30 3.1.1 学术水平情况 . 30 3.1.2 学者国家分布 . 31 3.1.3 学者数量前十的国家 . 32 3.1.4 学者机构分布 . 33 3.1.5 领先机构学者研究重点 . 34 3.1.6 学者跨机构合作情况 . 35 3.1.7 学者流动情况 . 37 3.2 代表性领域学者介绍 . 38 4 产品篇 . 47 4.1 学术搜索产品的时间演化图 . 48 4.2 产品分类 . 49 4.3 主要产品一览 . 50 4.3.1 谷歌学术 Google Scholar . 51 4.3.2 微软学术 /必应学术 Microsoft Academic . 51 人工智能之学术搜索 2 2 4.3.3 语义学术 Semantic Scholar. 52 4.3.4 百度学术 Baidu Xueshu . 53 4.3.5 AMiner . 54 4.3.6 BASE . 55 4.3.7 CORE. 56 4.3.8 Science.gov . 56 4.3.9 Scopus . 57 4.3.10 ScienceDirect . 58 4.3.11 Web of Science . 58 4.3.12 中国知网 . 59 4.4 产品覆盖的学术资源 . 60 4.5 产品代表性研发人才 . 64 4.6 学术评价指标 . 74 4.6.1 学术期刊指标评价 . 75 4.6.2 论文评价 . 76 4.6.3 学者评价 . 77 4.7 产品功能和技术 . 78 4.7.1 多源异构数据融合与命名排歧 . 78 4.7.2 一般检索与高级检索 . 79 4.7.3 搜索结果显示 . 81 4.7.4 专家检索与审稿人推荐 . 85 4.7.5 网络关系分析 . 86 4.7.6 知识图谱 . 87 4.7.7 可视化分析 . 88 4.7.8 文献管理 . 89 4.7.9 学术资讯推送 . 90 4.7.10 用户个人档案 . 90 4.8 产品功能小结 . 91 5 趋势篇 . 93 5.1 AI 学术搜索的技术发展趋势 . 94 5.2 关于 AI 学术搜索产品性能升级的建议 . 95 5.3 AI 学术搜索的前沿技术热点 . 96 5.4 AI 学术搜索的未来 . 98 参考文献 . 101 附录 1 学术搜索相关的关键词列表 . 103 附录 2 AI 学术搜索专家学者挖掘的来源期刊会议列表 . 104 附录 3 学术搜索领域国内外重要奖项 . 106 版权声明 . 107 3 图表目录 图 1 学术搜索发展历程 . 8 图 2 学术搜索引擎工作原理 . 12 图 3 AMiner 专家与研究者学术网络搜索系统架构 . 14 图 4 微软学术搜索的数据聚合和实体合并图 . 15 图 5 作者识别计算方法 . 17 图 6 2009 至 2019 年领域学者数量趋势 . 30 图 7 领域学者 h-index 值分布 . 31 图 8 领域学者国家分布 . 31 图 9 领域中国学者城市分布 . 32 图 10 学术搜索领域学者数量 TOP10 的国家及该国学者 h-index 均值 . 32 图 11 学术搜索领域学者数量 TOP10 国家学者的论文发表量和篇均引用量 . 33 图 12 学术搜索领域学者数量 TOP10 机构及该机构学者 h-index 均值 . 33 图 13 学术搜索领域学者数量 TOP10 机构的学者论文发表量和篇均引用量 . 34 图 14 机构领域学者的研究重点 . 35 图 15 领域中国学者与其他国家学者合作发表论文情况(篇) . 36 图 16 2009 年 -2019 年与美国合作的中国领域学者数量 . 36 图 17 2009-2019 年期间学术搜索领域中国学者迁入迁出情况 . 37 图 18 学术搜索领域学者迁徙总量 TOP10 国家 . 37 图 19 学术搜索产品的时间演化图 . 48 图 20 AMiner 学者指标雷达图 . 78 图 21 AMiner 学术专家网络关系 . 86 图 22 学者代表性成果与荣誉奖项展示 . 86 图 23 学者的专利与基金项目展示 . 87 图 24 学者未来发展成就预测 . 87 图 25 学者信息可视化展示 . 89 图 26 AI 学术搜索技术发展趋势图 . 95 图 27 AI 学术搜索技术研究热点词云图 . 95 图 28 AI 学术搜索技术预见图 . 97 图 29 AI 学术搜索技术前沿度 . 98 图 30 学术搜索的未来 . 100 表 1 基于资源开放程度的学术搜索产品分类 . 49 表 2 基于覆盖学科的学术搜索产品分类 . 49 表 3 主要学术搜索产品 . 50 表 4 主要学术搜索产品的资源覆盖情况 . 60 表 5 学术搜索产品主要功能对照表 . 81 表 6 学术搜索产品主要功能一览 . 91 1 摘要 学术搜索 ( Academic Search) 为科研工作者 提供 了一个 可以从一 个位置广泛搜索众多学科和资料来源学术文献的简便方法。 随着人工智能 ( AI) 技术 不断引入,学术搜索产品的功能逐渐变得更强大 、 更智能,同时, 结合 AI 技术的 学术搜索 产品 也成为主要 的 发展 趋势。 本报告以 AI 赋能的学术搜索为核心, 在梳理学术搜索概念特征 、发展 历程、工作原理 以及 系统架构 的基础上,重点 研究分析 了 AI 技术在学术搜索领域的 具体 应用情况、 领域 专家 人才 现状 、 典型 产品 的资源覆盖和功能特色 ,以及 AI 学术搜索领域的 未来 发展趋势, 并 探讨 了 学术搜索领域的市场主体如何才能更“智能”、更“聪明”、更“定制化”地为科研用户提供 相关 情报 服务。 人工智能之学术搜索 2 2 报告说明 一、重点 /亮点 展示主流学术搜索产品中已引入的 AI 特色功能; 挖掘 AI 学术搜索 领域 专家 学者 并进行 人才画像 ; 预测 AI 学术搜索技术趋势,为产品性能提升提出建议。 二、 数据来源与 研究方法 1.数据来源 (详见附 录 2) ( 1) 基于 人工智能领域 专家评议 确定 的 领域最有影响力的会议和期刊 ; ( 2)基于中科院期刊分区表中的 计算机大类下的人工智能和信息系统两个小类的一区所有期刊 会议论文 。 2.研究方法 通过 AMiner 大数据平台对近 10 年( 2009-2019 年) 上述 来源的论文数据进行挖掘, 基于“学术 搜索”相关的关键词库(详见附 录 1), 通过关键词智能 匹配 挖掘出所有 相关 论文。 然后, 基于这些论文,进行如下 的进一步 挖掘分析。 ( 1)通过文献分析,挖掘领域发展历程、技术特征; ( 2)通过论文数据 ,挖掘领域关键词及其研究热度, 进行技术趋势预测; ( 3)通过论文作者 相关信息, 挖掘出该领域专家学者 ;通过 抽取 论文中所有学者信息,进行人才相关分析。 3.关键词 抽取 方法 ( 1) 利用 AMiner 技术趋势 产品 搜索 学术搜索 相关 的关键 词, 从中 筛选出 相关的 关键词 , 再 用所选出的关键词进行 搜索, 从中 再次筛选出更多的 相关的 关键词;如此反复 操作, 扩展 筛选 并 去重。 ( 2)通过相关论文的关键词 进行 拓展查找。 最终得到 学术搜索 相关 的关键词共计 112 个 (详见附录 1) 。 概述篇 3 1 概述篇 人工智能之学术搜索 4 科技信息资源是科技创新的物质基础! 当今时代,数字化 学术资源 浩瀚 丰富 、多元互联。 我国在 国家中长期科 学和 技 术 发展规划 纲要 1、十二五科技发展规划 2中都强调了科技情报大数据挖掘与智能服务的重要性。 统计结果显示 3, 2009年至 2019 年,中国科技人员共发表国际论文 260.64 万篇,排在世界第 2 位,数量比 2018 年统计时增加了 14.7%;论文共被引用 2845.23 万次,增加了 25.2%,也排在世界第 2 位。 快速增长的科技文献规模已远远超出了个人的处理能力 ,亟需智能化的科技知识服务系统来辅助科研人员做分析挖掘。 针对此 科研 需求,国内外巨头纷纷推出学术大数据搜索和分析挖掘服务, 尝试 通过 最新 科技 手段, 助力 科研工作者快速、准确、便捷地从 互联网浩瀚的各类文献资源 中查询出所需要 的 知识 文献 、掌握科技研究动态 ,并且能够从大量数据中发现隐含的、有价值的 科技 情报 和科研规律 , 从 而 加快科技创新 速度 、提升创新研究 效率 。 1.1 相关 概念 20 世纪 90 年代互联网应用初 期,科研工作者 们 通过 关键字搜索 方式、 利用如 Google、百度等这样的 通用搜索引擎 来进行信息 或 知识查找。 这种搜索方式返回的结果虽然信息量大,但是存在查询结果不准确、采集深度不够、信息展示无序化 等 缺点。 随 着用户 对某一特定领域、特定 搜索信息 需求 的 增加, 垂直搜索引擎 随之 发展起来。 1.1.1 垂直搜索引擎 垂直搜索引擎 ( Vertical Search Engine ),又 称为 专业搜索引擎( Specialty Search Engines)、专题搜索引擎( Topical Search Engines), 是搜索引擎的细分和延伸 4。 它 针对某一特定领域、特定人群或特定 需求 来 提供信息检索服务。 1 国家中长期科学 和技术发展规划纲要( 2006 2020 年)中华人民共和国国务院,gov/jrzg/2006-02/09/content_183787.htm 2 科技部发布国家“十二五”科学和技术发展规划, 2011 年 07 月 13 日, gov/gzdt/2011-07/13/content_1905915.htm 3 2019 中国科技论文统计结果发布:从求数量到重质量 评价指标变化显著,光 明日报,gov/shuju/2019-11/20/content_5453698.htm 4 许丽丽编著 网络信息资源检索与利用 M哈尔滨:黑龙江人民出版社, 2008.12: 59 概述篇 5 垂直搜索引擎 根据用户的特定搜索请求, 通过对特定领域或行业的 信息 进行深度挖掘与分析整合 、过滤筛选, 以某种形式将结果返回给用户 。 其 关键技术 有聚焦、实时和可管理的网页采集技术 , 从非结构化内容到结构化数据的网页解析技术 , 精准全面的全文索引和联合检索技术 , 以及 高度智能化的文本挖掘技术 5。 垂直搜索引擎 的应用方向很多,比如购物搜索、人才搜索、房产搜索、工作搜索、交友搜索等。基于文献检索的学术搜索就是一个细分的垂直搜索引擎应用。 1.1.2 什么是学术搜索 学术搜索是指专门为学者和科研人员服务,用 于广泛搜索海量且涵盖各类学术期刊、会议论文、专利等学术文献的方法或平台。 简 言之 , 学术搜索就是将 互联网 海 量的 、各种类型的 学术资源进行收集整 合后组成虚拟学术数据库,利用搜索形式为用户提供查询及搜索 服务,使用户获得与搜索主题相关的论文、书籍、技术报告、 专利 等全球文献资源 和 学术科研信息。 学术数据库 的元数据可以是图书馆 的 馆藏文献资源 即数字图书馆中的信息检索系统 ,也可以是采购的商用数据库资源 , 在开放 的 互联网环境下 还 包括了与学术相关的文献、项目、专利、新闻等 资源。 在学术搜索系统中,这些元数据以学科、主题、人物、组织机 构、基金等要素进行标引,构建出元数据仓储知识库,进而为用户提供各种学术文献资源的统一检索、资源揭示、资源调度与全文定位,让用户了解掌握到某领域最重要的学术文献或研究动态。 按照覆盖范围 , 学术搜索 分为 有综合性和专业性两类 , 前者面向各种 学科 类型的学术资源 , 后者则专门针对某类 学科 学术资源 , 例如 用于搜索 化学、生物 医药信息的 专业搜索。 1.1.3 学术搜索与网页搜索的区别 学术搜索和普通 网页 搜索的 主要 区别在于 前者是垂直搜索而后者是通用搜索。 通过 学术搜索平台 , 可以把普通搜索中大量无用的信息进行过滤 ,更加有侧5 刘俊熙,盛宇编著计算机信息检索 M北京:中国铁道出版社, 2009.08: 134-135
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642