人工智能文献推荐系列之一:博采众长,人工智能最新研究成果解读.pdf

返回 相关 举报
人工智能文献推荐系列之一:博采众长,人工智能最新研究成果解读.pdf_第1页
第1页 / 共31页
人工智能文献推荐系列之一:博采众长,人工智能最新研究成果解读.pdf_第2页
第2页 / 共31页
人工智能文献推荐系列之一:博采众长,人工智能最新研究成果解读.pdf_第3页
第3页 / 共31页
人工智能文献推荐系列之一:博采众长,人工智能最新研究成果解读.pdf_第4页
第4页 / 共31页
人工智能文献推荐系列之一:博采众长,人工智能最新研究成果解读.pdf_第5页
第5页 / 共31页
亲,该文档总共31页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
识别风险 , 发现价值 请务必阅读末页的免责声明 1 / 31 Table_Page 金融工程 |专题报告 2019年 1月 29日 证券研究报告 Table_Title 博采众长 , 人工智能最新 研究成果解读 人工智能文献 推荐 系列 之一 Table_Summary 报告摘要 : 人工智能 研究领域百花齐放 得益于数据、算力和算法的提升,人工智能在工业应用和学术研究上都取得了飞速发展。目前,大量的人工智能技术已经接近甚至超过人类水平,其中,机器翻译已经可以媲美人类翻译,图像识别准确率已经超过了人眼的识别水平, AlphaGo 等领域专家系统水平已经领先最强的人类选手。 近两年,人工智能学术研究的前沿领域集中在自然语言处理、计算机视觉、强化学习、迁移学习等方向。每年有大量优秀的学术论文发表在人工智能相关领域的顶级会议中。 本报告将跟进人工智能顶级会议上的优秀论文和知名人工智能研究团队的最新工作进展,解读近期人工智能方 向最有影响力的一批论文。 人工智能在研究和应用上都取得了重要进展 2018 年,自然语言处理领域的语言模型预训练取得了重大突破,相继产生了 NAACL 2018最佳论文提出的 ELMo模型、 OpenAI团队提出的 GPT模型、和谷歌 AI 团队提出的 BERT 模型。其中, BERT 模型是目前最先进的自然语言处理预训练技术,该模型刷新了 11 项自然语言处理任务的最优性能记录。而在自然语言处理的下游应用领域,问答和对话技术、文本生成、文本摘要、机器翻译等是近年来的热点问题。 计算机视觉方向近年来的 研究热点 主要 是在图像检测、图像分 割、图像标注和图像生成等方向。在图像检测和分割方面, Facebook 研究团队提出的 Mask R-CNN模型获得了 2017年 ICCV会议的最佳论文。 CVPR 2018最佳论文提出的 Taskonomy 方法给出了一种优化迁移学习的策略,可以量化不同视觉任务之间的关联,并利用这些关联来最优化学习策略的研究。 在关系推理方面, DeepMind 等团队联合发布的论文提出了一种图网络框架,推广并扩展了各种神经网络方法,为神经网络的关系推理提供了新的思路。 DeepMind 团队的另一篇论文将关系推理与强化学习方法结合,获得了明显的性能提升,为强化学习开辟了新的方向。 风险 提示 本报告 为人工智能 学术论文 解读, 不构成任何投资建议。 Table_Author 分析师: 文巧钧 SAC 执证号: S0260517070001 SFC CE No. BNI358 0755-82797057 wenqiaojungf 分析师: 安宁宁 SAC 执证号: S0260512020003 SFC CE No. BNW179 0755-23948352 anningninggf 分析师: 罗军 SAC 执证号: S0260511010004 020-87579006 luojungf 请注意,罗军并非香港证券及期货事务监察委员会的注册持牌人,不可在香港从事受监管活动。 Table_DocReport 相关研究: 人工智能在资产管理行业的应用和展望 2018-07-30 Table_Contacts 联系人: 童炯潇 020-87572092 tongjiongxiaogf 识别风险 , 发现价值 请务必阅读末页的免责声明 2 / 31 Table_PageText 金融工程 |专题报告 目录索引 一、前言 . 4 二、论文: BERT . 5 1、论文信息 . 5 2、论文主要内容 . 6 三、论文: LEARNING TO ASK GOOD QUESTIONS . 7 1、论文信息 . 7 2、论文主要内容 . 7 四、论文: SENTIGAN . 9 1、论文信息 . 9 2、论文主要内容 . 9 五 、论文: ABSTRACTIVE TEXT SUMMARIZATION . 11 1、论文信息 . 11 2、论文主要内容 . 11 六、论文: MASK R-CNN . 13 1、论文信息 . 13 2、论文主要内容 . 13 七 、论文: ADAPTIVE AFFINITY FIELDS . 18 1、论文信息 . 18 2、论文主要内容 . 18 八、论文: TASKONOMY: DISENTANGLING TASK TRANSFER LEARNING . 21 1、论文信息 . 21 2、论文主要内 容 . 21 九、论文: GRAPH NETWORKS. 23 1、论文信息 . 23 2、论文主要内容 . 23 十、论文: RELATIONAL DEEP REINFORCEMENT LEARNING. 25 1、论文信息 . 25 2、论文主要内容 . 25 十一、论文: THE TRADE-OFFS OF LARGE SCALE LEARNING . 28 1、论文信息 . 28 2、论文主要内容 . 28 识别风险 , 发现价值 请务必阅读末页的免责声明 3 / 31 Table_PageText 金融工程 |专题报告 图表索引 图 1: BERT 模型结构 . 6 图 2: BERT 测试性能 . 7 图 3:根据澄清性问题补充信息的示例 . 8 图 4:模型的整体框架 . 9 图 5: SentiGAN 模型框架 . 10 图 6:生成文本的情感准确度对比 . 10 图 7:引入主题信息的卷积神经网络结构 . 12 图 8:三种 ROUGE 在 Gigaword 语料库中的准确度(左)及其内部测试集的准确度(右) . 12 图 9:三种 ROUGE 在 DUC-2004 中的准确度(左)和在 LCSTS 中的准确度(右)(右下角的分数分为基于单词的分数和基于字符的分数) . 13 图 10:计算机视觉( Computer Version)领域的常见任务 . 14 图 11: Mask R-CNN 能够处理的视觉任务 . 15 图 12: R-CNN 目标检测系统框架 . 16 图 13: Fast R-CNN 目标检测系统框架 . 16 图 14: Faster R-CNN 目标检测系统框架 . 17 图 15: Mask R-CNN 目标检测系统框架 . 17 图 16: AAF 方法概述 . 19 图 17: CRF、 GAN 和 AAF 方 法的主要区别 . 19 图 18: AAF 方法以 PASCAL VOC 2012 数据集, pixel-wise mIoU 在验证集(一)、instance-wise mIoU 在验证集(二)、 boundary detection metrics 在验证集(三)上的表现 . 20 图 19:以 Cityscapes 为训练集,以 GTA5 为测试集, AAF 与基准模型的比较 . 20 图 20:一个通过计算任务分类得到的示例任务结构图 . 22 图 21: Taskonomy 计算过程图 . 22 图 22:不同系统的图网络描述 . 24 图 23: Box-World 智能体架构 . 26 图 24: Box-World 观察值示例(左)、基本图结构(中)和训练曲线(右) . 26 图 25: RRL 的泛化能力比较 . 27 图 26: StarCraft II 游戏中各类动作得分 . 28 识别风险 , 发现价值 请务必阅读末页的免责声明 4 / 31 Table_PageText 金融工程 |专题报告 一 、前言 得益于数据、算力和算法的提升,人工智能在工业应用 和学术研究 上都取得了飞速发展。 目前 ,大量的 人工智能技术 已经接近甚至超过人类水平 , 其中, 机器翻译已经可以媲美人类翻译,图像识别准确率已经超过 了人眼 的识别水平, AlphaGo等 领域专家系统水平已经领先最强的人类选手。 近两年,人工智能学术研究的前沿领域集中在自然语言处理( Natural Language Processing, NLP)、计算机视觉( Computer Vision, CV)、强化学习( Reinforcement Learning, RL)、迁移学习( Transfer Learning)等方向。每年有大量优秀的学术论文发表在人工智能相关领域的顶级会议中:包括 IJCAI( International Joint Conference on Artificial Intelligence,人工智能顶级会议)、 NeurlPS( Conference and Workshop on Neural Information Processing Systems,人工智能顶级会议)、ACL( Annual Meeting of the Association for Computational Linguistics,计算语言学顶级会议)、 NAACL( Annual Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies,计算语言学顶级会议)、 ICCV ( IEEE International Conference on Computer Vision,计算机视觉顶级会议)、 CVPR( Conference on Computer Vision and Pattern Recognition,计算机视觉顶级会议)、 ECCV( European Conference on Computer Vision,计算机视觉顶级会议)等。 本报告 将 跟进人工智能顶级会议上的优秀论文和知名人工智能研究团队的 最新工作进展, 解读近期人工智能 方向 最有影响力的一批论文。 自然语言处理 领域 在 2018年 取得了重 要进展 。 模型预训练 是提高神经网络性能的有效手段 。 对于计算机视觉领域的研究人员来说,在 ImageNet数据集 上预训练模型然后 用自己的任务专用数据训练模型已经成了 行业的 有效 手段 。 但在 自然语言处理 领域, 由于文本数据的多样化、 非结构化和 充斥着噪音的特点, 预训练语言模型是一件不容易实现的任务 。 2018年,语言模型预训练方向取得了重大突破,相继产生了 NAACL 2018最佳论文提出的 ELMo模型、 OpenAI团队提出的 GPT模型 和谷歌AI团队提出的 BERT模型。 其中, BERT模型是目前最先进的 自然语言处理 预训练技术,该模型刷新了 11项 自然语言处理 任务的最优性能记录。 本报告第二节将详细介绍 BERT模型。 而在 自然语言处理 的下游应用领域,问答和对话技术、 文本生成、 文本摘要 、机器翻译等是近年来的热点问题。在问答和对话技术方面, 2018年的 ACL会议最佳论文建立了一个神经网络模型来排序澄清性问题,以帮助机器提出更有价值的问题 。在自然语言生成 方面 , 2018年的 IJCAI会议 的杰出 论文提出了一种 自然语言处理 领域的生成式对抗网络( GAN),即 SentiGAN。 目前,文本的情感分类已经可以实现不错的准确度,但是情感文本生成依然是一大挑战。 SentiGAN模型 通过对抗训练,使用判别器来指导生成器, 可以生成不同情感类别的文本。 在文本摘要方面,腾讯等机构合作在 IJCAI 2018发表的论文 采用 卷积神经网络结合注意力机制进行文本自动摘要,取得了不错的进展。本报告第三节到第五节将 依次 介绍这三篇论文。 图像识别是计算机视觉领域的传统研究内容,从 2015年微软的何 恺 明团队提出残差神经网络 ( Residual Network)结构之后,计算机 图像识别的准确度已经超过了人类水平。近年来,计算机视觉方面主要的研究 热点 是在图像检测、图像分割、识别风险 , 发现价值 请务必阅读末页的免责声明 5 / 31 Table_PageText 金融工程 |专题报告 图像标注和图像生成等方向。 在图像检测和分割方面, 现任职于 Facebook的何恺 明提出了 Mask R-CNN模型,获得了 2017年 ICCV会议的最佳论文。 Mask R-CNN在 COCO系列挑战赛的三个分支中都获得了最佳成绩,包括实例分割、边界对象检测和人体关键点检测。 加州大学伯克利分校研究团队发表的 Adaptive Affinity Fields模型将自适应相似场的概念引入图像的语义分割模型中,并通过对抗训练来学习具有自适应范围的局部关系,为深度学习中的结构建模提供了新的视角。本报告第六节和第七节将介绍这两篇论文。 迁移学习 是机器学习中的一类方法,它可以把给一个任务开发的 机器学习 模型重新用在另一个不同的任务中,并作为 该 任务模型的起点。由于在计算机视觉和自然语言处理上,开发神经网络模型需要大量的计算和时间资源,而且特定任务的训练样本 一般会 较 少。所以,预训练的模型通常会被重新用作计算机视觉和自然语言处理任务的起点。因此,迁移学习是深度学习方向的一种常见方法。 CVPR 2018最佳论文提出的 Taskonomy( Task Taxonomy的简写) 方法 给出了 一种优化迁移学习的策略。 Taskonomy是一项量化不同视觉任务之间关联、并利用这些关联来最优化学习策略的研究。如果两个视觉任务 A、 B具有关联性,那么在任务 A中习得的 表征理应可 为解决任务 B提供有效的信息。 本报告第八节介绍了这篇论文。 深度学习擅长通过监督学习和无监督学习从数据中获取信息,进行特征学习和分类、回归等任务,但深度学习难以进行关系推理。近年来,研究者在这方面做了许多工作,提出了一些可行的方案。结合了深度学习的图神经网络将端到端学习与归纳推理相结合,有望解决深度学习无法处理的关系推理、可解释性等一系列问题。DeepMind等团队联合发布的论文提出了一种图网络框架,推广并扩展了各种神经网络方法,为神经网络的关系推理提供了新的思路。 DeepMind团队的另一篇论文将关系推理与 强化学习方法结合,获得了明显的性能提升,为强化学习开辟了新的方向。本报告的第九节和第十节分别介绍了这两篇与关系推理有关的论文。 此外,本报告介绍了 NeurIPS 2018会议上获得时间检验奖的论文 The Trade-Offs of Large Scale Learning。这是一篇基础理论 方面 的论文。这篇论文研究了机器学习中数据和计算之间的相互 关系 ,显示了如果计算力受限但是 能使用超大型数据集,对许多单独训练样本执行小量运算效率更高,而 对数据子集进行大量计算 的性能会不如前者 。这篇论文充分显示了随机梯度下降算 法的强大之处,大大推进了随机梯度下降算法 在过去十年 的发展。 二、论文: BERT 1、论文信息 论文: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 论文作者: Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 论文来源: arxiv/abs/1810.04805 GitHub地址 : github/google-research/bert/ 识别风险 , 发现价值 请务必阅读末页的免责声明 6 / 31 Table_PageText 金融工程 |专题报告 2、论文主要内容 谷歌 AI团队发布的 BERT( Bidirectional Encoder Representations from Transformers) 是一个通过大规模文本训练出来的预训练模型。 由于 自然语言处理( NLP) 是一个具备不同任务的多样化领域,因此大多数任务特定数据集仅包含几千 到 几十万个人类 标注 的训练样例。然而,基于深度学习的 NLP 模型可以从更大量的数据中获益,在数百万或数十亿的带标签的训练样例中学习得到改善。为了帮助缩小在数据方面的差距,研究人员开发了各种技术,使用网络上无标签的文本训练一个通用的语言表示模型(称为预训练)。基于预训练模型在小数据的 NLP 任务(如问答和情感分析)上进行微调,与从头开始训练 模型 相比,可以显著提高准确度。 语言模型是 NLP中的一种基础任务,其目标是给定一个序列文本,预测下一个位置上会出现的 词。单向语言模型是常用的语言模型,从左到右 “阅读 ”或者从右到左“阅读 ”。以 另外两种 获得很大成功的 OpenAI GPT和 ELMo两种语言模型结构为例,OpenAI GPT使用的是一个需要从左到右的受限制的 Transformer,而 ELMo使用的是双向 LSTM,虽然是双向的,但是也只是在两个单向的 LSTM的最高层进行简单的拼接。 BERT是同时考虑上下文进行语言理解的模型 。 BERT提出一种新的预训练目标:遮蔽语言模型( Masked Language Model, MLM),来克服语言模型中的单向性局限。 MLM的灵感来自完形填空( Cloze)任务。 MLM随机遮蔽模型输入中的一些 Token,目标在于仅基于遮蔽词的语境来预测 其原始词汇。 与从左到右的语言模型预训练不同, MLM目标允许表征融合左右两侧的语境,从而预训练一个深度双向 Transformer。除了遮蔽语言模型之外, BERT还引入了一个 “下一句预测 ”( Next Sentence Prediction)任务,可以和 MLM共同预训练文本对的表示。 图 1: BERT模型结构 数据来源: J Devlin, MW Chang, K Lee, K Toutanova BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 广发证券发展研究中心 从性能上来看, BERT是目前最先进的 NLP预训练技术,刷新了 11项 NLP任务的最优性能记录。包括将 GLUE基准推至 80.4( 7.6的绝对提升),将 MultiNLI准确度提升到 86.7%( 5.6的绝对提升)等。 下图展示了两个 BERT模型( BERT BASE识别风险 , 发现价值 请务必阅读末页的免责声明 7 / 31 Table_PageText 金融工程 |专题报告 和 BERT LARGE)的结果在 9个 GLUE测试中获得了最优的准确率 , BERT模型都取得了最好的结果 。 图 2: BERT测试性能 数据来源: J Devlin, MW Chang, K Lee, K Toutanova BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding, 广发证券发展研究中心 类似于 残差神经网络 在图像领域的巨大 成功 , BERT模型作为 NLP中一种开创性的预训练模型,是一种里程碑式的工作。但是 BERT模型的计算复杂度很高。论文中,训练 BASE版本需要在 16个 TPU上, LARGE版本需要在 64个 TPU上训练 4天。在其他硬件条件下,运行时间要长很多。因此,未来 BERT更有可能作为一种初始化的工具被 NLP中的研究者使用到。 三、论文: Learning to Ask Good Questions 1、论文信息 论文: Learning to Ask Good Questions: Ranking Clarification Questions Using Neural Expected Value 论文作者: Sudha Rao, Hal Daume III 论文来源: arxiv/pdf/1805.04655.pdf 2、论文主要内容 该论文是 ACL 2018的最佳论文之一,是由马里兰大学和微软研究院合作完成,旨在研究如何让机器学会提出有用的问题。 本文认为提问( Inquiry)是沟通的基础,如果机器不会提出问题,那么就无法高效与人协作。该论文建立了一个神经网络模型来排序澄清性问题( Clarification Questions),以帮助机器提出更有价值的问题。 识别风险 , 发现价值 请务必阅读末页的免责声明 8 / 31 Table_PageText 金融工程 |专题报告 图 3: 根据澄清性问题补充信息的示例 数据来源: S Rao, H Daume III Learning to Ask Good Questions: Ranking Clarification Questions Using Neural Expected Value, 广发证券发展研究中心 什么是澄清性问题?如上图所示,用户原始的帖子( Initial Post)想询问如何设置系统的环境变量,但是没有描述具体的场景。图中的 “Question comment”就是一个典型的澄清性问题,提问者接受了这个问题,并对问题背景做了补充,说明这个澄清性问题有用。 该论文设计了这样一个模型,能够根据有用的程度对原始帖子的一系列候选澄清性问题进行排序。具体的应用场景是,当用户遇到问题,发贴求助时,系统会提出一系列澄清性问题来请求更多的信息,这些信息能够帮助回答者更好的了解这个问题,从而给出更加迅速、优质的回复。 模型受到完美信息期望值( Expected Value of Perfect Information)的启发,认为一个问题好不好 , 在 于其预期的回答是否有用。模型的整体框架如下图所示,对于每一个提问的帖子 p,通过文本检索系统 Lucene在系统中找出与 p最接近的 10个帖子;在这 10个帖子中出现的澄清性问题被列为问题候选集 Q,因 这些澄清性问题而对原始帖子作出的编辑(信息补全)被列为答案集 A。对于每一个候选的澄清性问题 ,通过神经网络计算得到答案的语义表达 (,)并且计算候选答案 与 (,)之间的距离。然后,在原帖 p根据候选答案 进行更新后,计算这个帖子的可用性( + )。最后,根据每个候选问题 给予原帖 p的预期的可用性,来对 Q中的问题排序。 识别风险 , 发现价值 请务必阅读末页的免责声明 9 / 31 Table_PageText 金融工程 |专题报告 图 4:模型的整体框架 数据来源: S Rao, H Daume III Learning to Ask Good Questions: Ranking Clarification Questions Using Neural Expected Value, 广发证券发展研究中心 该论文 以 StackExchange论坛上的帖子为基础,构建了包含 7.7万个帖子的数据集。在其中 500个样本上进行测试,结果显示该论文提出的模型能够获得显著高于基准的表现。 四、论文: SentiGAN 1、论文信息 论文: SentiGAN: Generating Sentimental Texts via Mixture Adversarial Networks 论文作者: Ke Wang, Xiaojun Wan 论文来源: ijcai/proceedings/2018/0618.pdf 2、论文主要内容 该论文是 IJCAI 2018的 杰出 论文 ( Distingui
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642