海外TMT行业中期策略:AI算法教学相长,顶级会议百舸争流.pdf

返回 相关 举报
海外TMT行业中期策略:AI算法教学相长,顶级会议百舸争流.pdf_第1页
第1页 / 共22页
海外TMT行业中期策略:AI算法教学相长,顶级会议百舸争流.pdf_第2页
第2页 / 共22页
海外TMT行业中期策略:AI算法教学相长,顶级会议百舸争流.pdf_第3页
第3页 / 共22页
海外TMT行业中期策略:AI算法教学相长,顶级会议百舸争流.pdf_第4页
第4页 / 共22页
海外TMT行业中期策略:AI算法教学相长,顶级会议百舸争流.pdf_第5页
第5页 / 共22页
点击查看更多>>
资源描述
敬请阅读末页信息披露及免责声明 海外 TMT行业中期策略: AI算法教学相长,顶级会议百舸争流 主要观点 : q 歌和 DeepMind占 ICLR总接收论的 20%,具有绝对的影响 歌、DeepMind、Facebok、OpenAI、微软 ,这 5 个科技公司在今年 ICLR 中共贡献了 9 篇 oral(头报告)论和 107 篇 poster(海报展示)论,在会议接受论总数的 23 篇 oral、314 篇 poster 中已经占据了接近半壁江。(歌、 FB、微软重点在于其中的智能研究机构:歌脑 /歌 AI, Facebok 智能研究院,微软研究院) 。每家机构的数量面, DeepMind 2 篇、歌 47 篇、Facebook 25 篇、OpenAI 7 篇、微软 15 篇。歌和 DeepMind 加起来就占了会议总接收论的 20%, 具有绝对的影响 。 q 强化学习是今年研究热点 , 与语相关的论 也成为重要向 强化学习是今年研究热点,不仅 DeepMind 依旧把强化学习作为重要研究对象,其它研究机构也在强化学习面有许多研究,以及把强化学习作为具,研究其它领域的问题。这 106 篇论中有 20 篇左右是关于强化学习的。去年热的 GANs 今年则热度有所下降。另面,与语相关的论也有 22 篇之多, 涵盖的内容包括对语演进的探索、弱监督 /监督翻译、阅读理解、问答等。 q 模型、计算、数据是深度学习 三支柱,需要 多维度更新 深度学习的成功主要归功于三因素 数据、模型、计算。模型技术的发展使得训练模型成为了可能,例如上千层的深度神经络都已经发展成为现实。同时硬件的提升可以实现计算,从 CPU到 GPU,可获取的计算资源越来越丰富。智能的模型算法可以分为两个向:以统计法为主的机器学习,和以神经络架构为主的深度学习。近年来深度学习有了长的发展,神经络被应用到图像识别、语音识别、自然语处理、驾驶等许多细分领域。伴随着 CPU、GPU、FPGA、ASIC等硬件的更迭,深度学习的平台和系统也逐步建立完善。预 计未来硬件和软件的结合将会更加紧密。 q 歌等软 技术公司引领 AI主流,电商和社交巨头耕耘 垂直领域 歌的智能位于全球前 列,在图像识别、语音识别、驾驶等技术上都已经落地。百度实质意义上 扛起了国内的智能的旗,覆盖驾驶、智能助、图像识别等许多层面。苹果 业已开始全面拥抱机器学习,新产品进军家庭智能音箱并打造作站级别 Mac。另外 ,腾 讯 的 深 度学习平台 Mariana已支持了微信语音识别的语音输法、语音开放平台、长按语音消息转本等产品,在微信图像识别中开始应用。通过 Mariana,识别准确率获得了极的提升,目前识别能已经跻身业界流平。从上述全球前科技公司对智能的投程度和应用的实现,智能已经成为 2017年业的风向标,是移动互联之后的科技地所在。业评级: 增持 报告 日期 : 2018-07-02 海外研究小组 港股 /美股 021-609546118 海外 TMT行业 证券研究报告 -行业研究 -中期策略报告 敬请阅读末页信息披露及免责声明 目录 1. ICLR素有深度学习顶会 “冕之王 ”之称, 2018接收论数量最多机构是歌 . 4 1.1 对现有算法的改进仍然是重点 . 4 1.2逻辑、抽象概念学习也出现越来越多的成果 . 5 1.3优化法仍在讨论和快速进步 . 5 1.4尝试开拓深度学习的新领域 . 5 1.5有不少研究安全的论 ,但向较为集中 . 6 2. 歌:歌和 DEEPMIND 加起来就占了会议总接收论的 20%,具有绝对的影响 . 6 2.1 ADAM的指数移动平均值如何导致法收敛 . 6 2.2 ADAM的变体 AMSGRAD . 6 3. 微软:最新研究成果探索出种新的让机器学 会自动化教学的法 . 7 4. 阿里巴巴:神经络的多比特量化压缩加速问 题 . 10 5. 校:巨擘以外孕育创新之地 . 15 5.1个既具表达性,又符合内置的球形旋转不变 性等相关定义的球形 CNN . 15 5.2基于梯度的元学习法,能用于动态和竞争环 境下的连续适应 . 16 6. 智能计算:计算硬件以及深度学习的平 台系统 . 18 6.1 硬件芯片案 . 18 6.2深度学习的平台和系统 . 20 敬请阅读末页信息披露及免责声明 图表目录 图表 1: AMSGRAD算法 . 7 图表 2: AMSGRAD和 ADAM比较 . 7 图表 3: L2T的训 练过程 . 9 图表 4: MNIST上的 MLP训练, CIFAR-10上的 RESNET-32训练,并将其应用于 CIFAR-10上的 RESNET-110训练 . 9 图表 5:使用不同教学策略训练 LSTM得到的 IMDB数据集分类准确率 . 10 图表 6:多比特量化乘法示意 . 11 图表 7:当实系数固定时,最 优 2 比特编码示意 . 12 图表 8:叉搜索树将 次比较降为 K 次比较 . 13 图表 9: CPU 中值乘法与全精度乘法的时间比较 . 14 图表 10:用旋转来代替原来的 FILTER变换 . 15 图表 1: MAML概率模型等 . 17 图表 12: META-LEARNING算法等 . 17 图表 13:智能体在 ROBOSUMO游戏比赛 . 18 图表 14: CPU和 GPU的不同架构 . 19 图表 15: CPU的延迟型设计 . 19 图表 16: GPU的面向对象设计 . 19 图表 17: 歌 TPU架构 . 20 图表 18: 深度学习 主要市场参与者及开源平台 . 21 敬请阅读末页信息披露及免责声明 1. ICLR素有深度学习顶会“冕之王”之称 , 2018接收论数量最多机构是 歌 来自加州学伯克利分校的 Sergey Levine被接收论数量最多; 学者 Bengio提交论数量最多;歌的接收和提交论数量都属机构第;英伟达的接收率排名第;提交和被接收论数量,英国都独占鳌头;中国是继英国之后,提交论数量最多的国家。 歌、DeepMind、Facebok、OpenAI、微软 ,这 5 个科技公司在今年 ICLR 中共贡献了 9 篇 oral(头报告)论和 107 篇 poster(海报展示)论,在会议接受论总数的 23 篇 oral、314 篇 poster 中已经占据了接近半壁江。(歌、FB、微软重点在于其中的智能研究机构:歌脑 /歌 AI, Facebok 智能研究院,微软研究院) 每家机构的数量面, DeepMind 2 篇、歌 47 篇、Facebok 25 篇、OpenAI 7 篇、微软 15 篇。歌和 DeepMind 加起来就占了会议总接收论的 20%,可以说是具有绝对的影响了。 强化学习是今年研究热点,不仅 DeepMind 依旧把强化学习作为重要研究对象,其它研究机构也在强化学习面有许多研究,以及把强化学习作为具,研究其它领域的问题。这 106 篇论中有 20 篇左右是关于强化学习的。去年热的 GANs 今年则热度有所下降。 另面,与语相关的论也有 22 篇之多,涵盖的内容包括对语演进的探索、弱监督 /监督翻译、阅读理解、问答等。 1.1 对现有算法的改进仍然是重点 来自歌的 oral 论 Boosting the Actor with Dual Critic , 基于家熟悉的 actor-critic 模式算法继续做出了改进;同样来自歌的 On the Convergence of Adam and Beyond , 比较了 Adam 等常用优化算法,发现其中存在的问题并提出改进。这篇论也获得了今年的最佳论奖。 Sensitivity and Generalization in Neural Networks: An Empirical Study实际使用中们发现规模的、参数数目过多的络实际上比小规模的络有更好的泛化性,这似乎和 论 对函数复杂度的经典认知相悖。这篇论就探究了这个问题。 来自 Facebok 的 Residual Conections Encourage Iterative Inference分析 +实证 地研究了 ResNet能够带来良好表现的原因,以及如何避免某些使用式下会出现的过拟合问题。 除了针对深度学习领域本身的已有问题做深发掘之外,有越来越多论以深度学习为具,研究和验证类学习、类语演进等面的假说。 DeepMind 这篇 oral 论 Emergence of linguistic comunication from referential games with symbolic and pixel input ,在像素构成的环境中训练强化学习智能体,用语进化学的思路,以紧急状况 沟通任务为环境,研究算法交流模式的进化和学习。同样来自 DeepMind 的 Compositional obverter communication learning from raw visual input和 Emergent comunication through negotiation两篇也是类似地以深度学习法研究类语的演进。 Facebok 也以另种思路探究了智能体学习语的式,在 Mastering the Dungeon: Grounded Language Learning by Mechanical Turker Descent, 他 们 提 出敬请阅读末页信息披露及免责声明 了有趣的 Mechanical Turker Descent 的交互式学习法,让众包参与实验的类在竞争和合作中训练智能体处理字探险游戏中的自然语内容,交互式的学习也给智能体提供了动态变化的、符合它们当前平的训练数据。另篇来自 Facebok 的 Emergent Translation in Multi-Agent Comunication研 究的是当下热门的平语料的翻译问题,他们的环境设置是让两个说不同语的智能 体玩挑图游戏,在游戏过程中学习翻译对的语。这种设置不仅和直接学习个监督的翻译器不同,且还更像是在研究许多都困惑已久的两个语不通的如何沟通、最早学习某种外语的是如何学习的这种问题。 1.2逻辑、抽象概念学习也出现越来越多的成果 DeepMind SCAN: Learning hierarchical compositional visual concepts 和另篇 Can neural networks understand logical entailment?针 对模型捕捉、运用逻辑表达式的能提出了新的模型和数据集 1.3优化法仍在讨论和快速进步 即便在数据和计算能已经不是问题的今天,模型的优化法也仍然是很多研究者关的课题,歌尤其在这面有多篇论。降低分布式训练的带宽需求 Deep Gradient Compresion: Reducing the Comunication Bandwidth for Distributed Training、 Hinton 的分布式在线蒸馏 Large Scale Distributed Neural Network Training Through Online Distilation、 学 习 率 和 批 小 之 间 的 关 系 如 何 Dont Decay the Learning Rate, Increase the Batch Size、 新 提 出 的 优 化 算 法 Neuman Optimizer: A Practical Optimization Algorithm for Deep Neural Networks, 以 及 前 提 到 过 的 On the Convergence of Adam and Beyond, 都展 现了歌的研究员们对这类问题的重视。 微软的 oral 论 On the insuficiency of existing momentum schemes for Stochastic Optimization探究了现有带动量的随机优化算法的问题, Training GANs with Optimism则为训练 Waserstein GANs 带来了新的法。 实际上,百度也有篇论 Mixed Precision Training讨 论 了 在 络 训 练 中使用半精度浮点数不是般的单精度浮点数 ,在缩减超规模络所需存储和计算需求的同时还保持够的络表现。 1.4尝试开拓深度学习的新领域 来自微软的 Deep Complex Networks 为复数值的深度神经络提供了更多基础组件,包括复数神经络的复数批量标准化、复数权值初始化策略等。 来自歌的 Graph Atention Networks 提出了运在图结构的数据上的新的神经络架构 GAT,它 同 时 还 具 有 掩 蔽 自 我 注 意 层 ,以 改 善 以 往 的 基 于 图 卷积及其近似的模型的缺点。 另外值得提的是,三篇 ICLR 2018 最佳论中的 Spherical CNs也是开拓新领域的精彩的尝试。 敬请阅读末页信息披露及免责声明 1.5有不少研究安全的论,但向较为集中 来自歌 Nicolas Papernot等的 Scalable Private Learning with PATE继续研究了深度学习中的隐私问题,实际上 Nicolas Papernot去年就作为第作者以 Semi-supervised Knowledge Transfer for Dep Learning from Private Training Data提出了 PATE 框架获得了 ICLR 2017 的最佳论奖。 除此之外的研究安全性的论基本都是对抗性样本、超出原分布的样本的检测和防御。 2. 歌 : 歌和 DeepMind 加起来就占了会议总接收论的 20%,具有绝对的影响 近年来,学界提出了不少已经成功用于训练深度神经络的随机优化算法,如 RMSProp、Adam、Adadelta和 Nadam等。它们都基于迄今为所有梯度值的平和(阶动量)进梯度更新。但在许多场合下,如输出上限很的情况下,这些算法往往法收敛到全局最优解(非凸问题的临界点)。 论 的研究证实,导致这现象的出现的原因之是算法用的是指数移动平均值。为此 论 设置了个简单的凸优化问题,发现 Adam在上面法收敛到最优解, 论 还探讨了以前关于 Adam算法论中的精确性问题。分析表明,这个收敛问题可以通过对之前所有梯度设置个渐变的 “长期记忆 ”来解决。论 在这基础上提出了个 Adam算法的新变体,它不仅可以修正收敛问题,还可以提经验积累性能。 2.1 Adam的指数移动平均值如何导致法收敛 论 通过提供个简单的维凸优化问题说明了使用指数移动平均值的RMSProp和 Adam为什么法收敛到全局最优解。它们的缺陷在于这个公式: 它基本表现了 “自适应学习率 ”优化算法的学习率的倒数相对于时间的变化。对于 SGD和 ADAGRAD,当 t T时, t始终于等于 0。这是它们的基本梯度更新规则,所以它们的学习率始终是单调递减的。但是基于指数移动平均值的 RMSProp和 Adam却没法保证这点,当 t T时,它们的 t可能于等于 0,也 可 能 小 于 0。这种 现 象 会 导 致 学 习 率 反 复 震 荡 ,继 使 模 型 法 收 敛 。论 可以来看看以下这个 F = 1, 1的简单分段线性函数: C 2。在 这 个 函 数 中 , 论 很轻松就能看出它应收敛于 x = 1。但 如 果 用 Adam,它的阶动量超参数分别是 1 = 0, 2 = 1/(1 + C2),算 法 会 收 敛 在 x = +1这个点。论 直观推理下:该算法每 3步计算次梯度和,如果其中两步得出的结论是 x = -1,次得出的结论是 C,那么计算指数移动平均值后,算法就会偏离正确收敛向。因为对于给定的超参数 2,梯度 C没法控制自带来的不良影响。 2.2 Adam的变体 AMSGrad 论 的目标是设计个能保证梯度收敛的新算法,同时保留 RMSProp和敬请阅读末页信息披露及免责声明 Adam的优势。根据上 论 可知, RMSProp和 Adam算法下的 t可能是负的,所以 论 探讨了种替代法,通过把超参数 1、2设置为随着 t变化变化,从保证 t始终是个非负数。 图表 1: AMSGrad算法 资料来源: ICLR 与 Adam相比, AMSGrad的学习率更小,但只要限制 t始终是个非负数,算法就能保证学习率是不断下降的。它们的主要区别在于后者记录的是迄今为所有梯度值 vt中的最值,并用它来更新学习率, Adam用的是平均值。因此当 t T时, AMSGrad的 t也能做到始终于等于 0。 图表 2: AMSGrad和 Adam比较 资料来源: ICLR Adam和 AMSGrad在维凸优化问题上的收敛表现 3. 微软: 最新研究成果探索出种新的让机器学会自动化教学的法 此次会上,微软亚洲研究院机器学习组发表了最新研究成果 “Learning to Teach”,他们探索出种新的让机器学会自动化教学的法,进提升数据利用率和模型性能。 近年来, “自动学习( AutoML) ”已经成为了个研究热点。通过自动化的式,机器试图学习到最优的学习策略,从避免机器学习从业者低效的动调整式。经典的自动学习法包括用于超参数调节的贝叶斯优化( Bayesian 敬请阅读末页信息披露及免责声明 Optimization), 以 及 用 于 优 化 器 和 络 结 构 调 整 的 元 学 习 技 术 ( Meta learning/Learning-to-Learn)。 除 了 在 学 术 界 引 起 了 泛 研 究 兴 趣 , 自 动 学 习 在 业界也已经得到了实际应用,例如微软 Azure提供的自定义影像( Custom Vision)服务,能够便云计算用户 自动训练用于计算机视觉的机器学习模型。除此之外,还有歌云提供的 AutoML服务等。 不论是传统的机器学习算法还是最近的自动学习算法,它们的重点都是如何让 AI更好地学习:两种学习算法的训练过程都是在固定的数据集上,通过最小化固定的损失函数( Loss Function), 优 化 得 到 位 于 模 型 假 设 空 间 ( Hypothesis Space)里最优的模型。两者差别仅仅在于优化过程是否是自动进的,这疑限制了自动学习技术的潜。 事实上,当 论 回过头来追溯类社会的智能史, 论 会发现 “教学 ”这为,对于类智能的培养 和传承起着不可磨灭的重要作用。礼记 学记曾云: “是故学然后知不,教然后知困。知不然后能自反也,知困然后能自强也。故曰教学相长也。 ”通过和类社会的学习机制对比, 论 发现传统的机器学习和近年来的自动学习都忽略了个很重要的面:它们只学不教。论是训练数据、损失函数,还是模型的假设空间,都对应着类教学过程里的若重要环节。因此 论 试图打破对于训练数据、损失函数和模型假设空间的限制,把教学这重要的概念集成到机器学习系统中,使得智能和机器学习算法得以教学相长。论 将这框架命名为 “学习教学 ”( Learning to Teach,简写为 L2T)。 其 中 涵 盖了若个关键问题: 1.数据教学图为机器学习过程寻找到最优的训练集。训练数据对应类教学过程中的教育材料,例如教科书。 2.损失函数教学图为机器学习过程寻找到最优的损失函数。这类比于类教学过程中,优秀的教师会通过质量的测试过程来评估学的学习质量,并对其进引导。 3.模型空间教学图为机器学习过程定义最优的模型假设空间。例如在训练的初期, 论 可能会倾向于使用简单的线性模型来尽快学习到数据里的规律,在训练的末期, 论 可能更愿意选择复杂的深度模型来使得性能得到进步增强。这类比于教师教授给学的技能集合( Skils Set): 小 学 只 会 学 习 到 简 单 的 数 字运算,中学则会学习到基本的代数知识,到了学,微积分则成为了必备的技能。 为了解决这些问题, 论 定义了两个模型:学模型和教师模型。前者即为通常意义下的机器学习模型,后者则负责为前者提供合适的数据、损失函数,或者模型假设空间。在图 1中, 论 简单展示了两个模型的完全自动化训练过程:在学模型训练的每步 t,教 师 模 型 得 到 学 模 型 的 状 态 向 量( 用 于 反 映 学 模型当前的状态),根据 自身参数输出教学策略,诸如当前需要使用的训练数据、损失函数,或者优化的模型空间,反馈给学模型。学模型基于此进步优化(例如梯度下降),更新其参数。之后学模型会将个奖励信号(例如开发集上的准确率)反馈给教师模型。教师模型基于该信号对自的教学策略进优化更新。这样的过程循环往复直教师模型收敛。 敬请阅读末页信息披露及免责声明 图表 3: L2T的训练过程 资料来源: ICLR 论 以数据教学的实验为例,来展示 L2T在实际中如何帮助更快更好地训练机器学习模型。在 论 的实验中,学模型是用于分类的深度神经络,使用随机梯度下降来进优化。教师模型是个三层的前向络,其职责是负责为学模型的每步更新提供合适的批次数据( Mini-batch Data)。 论 使用强化学习中的REINFORCE算法来进教师模型的训练更新。 图表 4: MNIST上的 MLP训练, CIFAR-10上的 ResNet-32训练,并将其应用于 CIFAR-10上的 ResNet-110训练 资料来源: ICLR 敬请阅读末页信息披露及免责声明 在图 2展示的训练实验中, 论 可以清楚地发现通过 L2T训练出来的教师模型能够帮助学模型更快地收敛。尤其需要注意的是, L2T具有良好的可迁移性:在小数据集、小模型上(例如用于 MNIST的 MLP)训 练 得 到 的 教 师 模 型 可 以 缝迁移到数据集、模型(例如用于 CIFAR-10分类的 ResNet-32)上。 同时,为了进步验证 L2T框架的效果, 论 也在用于 IMDB情感分类数据集的 LSTM络上进了实验,在络训练过程中引 L2T训练出来的教师模型能够显著提络模型的准确率(如下表所示)。 图表 5:使用不同教学策略训练 LSTM得到的 IMDB数据集分类准确率 资料来源: ICLR 总结来说, 论 展示了个新的让机器学会自动化教学的法。初步的实验验证了该法在提升数据利用率、提升模型性能面有着良好的表现。未来 论计划将该法应用于损失函数和模型假设空间的自动学习 ,以 期 对 机 器 学 习 模 型的性能有更的提升,为机器学习技术使用者提供更便、更效的自动化具。 4. 阿里巴巴: 神经络的多比特量化压缩加速问题 循环神经络 (RN) 在语模型、机器翻译、语音识别、成图像标题等很多应用上都取得了非常好的效果。然,这些模型常常是建立在维的嵌 (embeding) 或者多层的循环单元中,包含了量的参数,使得法在资源有限的移动端部署。此外, RNN 的计算依赖于与当前的隐状态,只能被顺序执,因此在执推断时会造成比较的延时。在拥有规模并发请求的服务器端,比如语音识别或者机器翻译等应用,为了满线上苛刻的响应时间要求,需要部署量的机器。在这项作中, 论 考虑通过量化参数到值 -1,+1 上来解决上述问题。考虑将模型的权 重量化成 1 比特,相对于全精度,直接带来 32 倍的内存压缩。对 1 比特参数的矩阵乘法,如果不考虑具体实现,相对于全精度乘法,理论上也会带来 32 倍的加速。然,如果把模型的权重和激活都量化成 1 比特,在循环神经络中,会带来很的精度损失。因此,很自然的折中案就是采用多比特量化。
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642