人工智能芯片的竞争:GPU正红,ASIC拥抱未来.pdf

返回 相关 举报
人工智能芯片的竞争:GPU正红,ASIC拥抱未来.pdf_第1页
第1页 / 共21页
人工智能芯片的竞争:GPU正红,ASIC拥抱未来.pdf_第2页
第2页 / 共21页
人工智能芯片的竞争:GPU正红,ASIC拥抱未来.pdf_第3页
第3页 / 共21页
人工智能芯片的竞争:GPU正红,ASIC拥抱未来.pdf_第4页
第4页 / 共21页
人工智能芯片的竞争:GPU正红,ASIC拥抱未来.pdf_第5页
第5页 / 共21页
点击查看更多>>
资源描述
行业及产业 行业研究 /行业深度 证券研究报告 计算机 2017 年 10 月 16 日 人工智能芯片的竞争: GPU 正红,ASIC 拥抱未来 看好 算法系列报告之十五 相关研究 领军公司仍优势明显! 43 家计算机三季报前瞻 2017 年 10 月 9 日 重点关注 AI 芯首发、软件国产化 申 万 宏 源 算 机 周 报20170814-20170820 2017年 9月 11日 证券分析师 刘洋 A0230513050006 liuyang2swsresearch 研究支持 刘高畅 A0230116100002 liugcswsresearch 联系人 黄忠煌 (8621)23297818转 huangzhswsresearch 投资 要点 : AI 加速需求超过 CPU 计算能力摩尔定律供给。 深度学习是目前 AI 领域最有效算法,深度学习模型需要通过大量的数据训练才能获得理想的效果, CPU 优势为处理各类数据及强逻辑判断能力,解决单次复杂问题能力强。两者需求并非完全匹配,深度学习需要一种替代硬件来满足海量数据的运算需求。 GPU:较成熟生态系统,最先 收益人工智能 爆发 。 GPU 与 CPU 类似,只不过是一种专门进行图像运算工作的微处理器。 GPU 是专为执行复杂的数学和几何计算而设计的,这些计算是图形渲染所必需的。 GPU 在浮点运算、并行计算等部分计算方面可以提供数十倍乃至于上百倍于 CPU 的性能。英伟达公司从 2006 年下半年已经开始陆续推出相关的硬件产品以及软件开发工具,目前是人工智能硬件市场的主导。 GPU 天然具有三个方面局限性。 GPU 作为图像处理器,设计初衷是为了应对图像处理中需要大规模并行计算。因此,其在应用于深度学习算法时,有三个方面的局限性 : 1. 应用过程中无法充分发挥并行计算优势。 2. 硬件结构固定不具备可编程性。 3. 运行深度学习算法能效远低于 ASIC 及 FPGA。 FPGA:能效中等、灵活度高、成本较高的 AI 白板,具有 三类 局限。 FPGA 称为现场可编程门阵列,用户可以根据自身的需求进行重复编程 , 与 GPU、 CPU 相比,具有性能高、能耗低、可硬件编程的特点 。 同时具有三类 局限 : 1. 基本单元的计算能力有限; 2. 速度和功耗有待提升; 3、 FPGA 价格较为昂贵。 ASIC: 顶级能耗、 拥抱未来。 ASIC 是一种为专门目的而设计的集成电路。专为特定目的而设计。不同于 GPU 和 FPGA 的灵活性,定制化的 ASIC 一旦制造完成将不能更改,所以初期成本高、开发周期长的使得进入门槛高。目前,大多是具备 AI 算法又擅长芯片研发的巨头参与,如 Google 的 TPU。 由于完美适用于神经网络相关 算法 , ASIC 在性能和功耗上都要优于 GPU 和 FPGA, TPU1 是传统 GPU 性能的 14-16 倍, NPU 是 GPU 的 118 倍 。寒武纪已发布对外应用指令集,预计 ASIC 将是未来 AI 芯片的核心。 推荐标的:中科曙光(寒武纪深度合作 伙伴 ,预计 AI 服务器将深度合作、 X86 芯片若突破则提升市场份额与毛利率)、中科创达(华为麒麟 970 芯片人脸识别应用提供方)、富瀚微(安防行业解码芯片领军) 请务必仔细阅读正文 之后的各项信息披露与声明 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 2 页 共 21 页 简单金融 成就梦想 投资案件 关键假设点 AI 加速需求超过 CPU 计算能力摩尔定律供给。深度学习是目前 AI 领域最有效算法,深度学习模型需要通过大量的数据训练才能获得理想的效果, CPU 优势为处理各类数据及强逻辑判断能力,解决单次复杂问题能力强。两者需求并非完全匹配,深度学习需要一种替代硬件来满足海量数据的运算需求。 GPU:较成熟生态系统,最先受益 人工智能爆发。 GPU 与 CPU 类似,只不过是一种专门进行图像运算工作的微处理器。 GPU 是专为执行复杂的数学和几何计算而设计的,这些计算是图形渲染所必需的。 GPU 在浮点运算、并行计算等部分计算方面可以提供数十倍乃至于上百倍于 CPU 的性能。英伟达公司从 2006 年下半年已经开始陆续推出相关的硬件产品以及软件开发工具,目前是人工智能硬件市场的主导。 。 有别于大众的认识 GPU 天然具有三个方面局限性。 GPU 作为图像处理器,设计初衷是为了应对图像处理中需要大规模并行计算。因此,其在应用于深度学习算法时,有三个方面的局限性:1.应用过程中无法充分发挥并行计算优势。 2.硬件结构固定不具备可编程性。 3.运行深度学习算法能效远低于 ASIC 及 FPGA。 FPGA:能效中等、灵活度高、成本较高的 AI 白板,具有三类局限。 FPGA 称为现场可编程门阵列,用户可以根据自身的需求进行 重复编程,与 GPU、 CPU 相比,具有性能高、能耗低、可硬件编程的特点。同时具有三类局限: 1、 基本单元的计算能力有限; 2、 速度和功耗有待提升; 3、 FPGA 价格较为昂贵。 ASIC:顶级能耗、拥抱未来。 ASIC 是一种为专门目的而设计的集成电路。专为特定目的而设计。不同于 GPU 和 FPGA 的灵活性,定制化的 ASIC 一旦制造完成将不能更改,所以初期成本高、开发周期长的使得进入门槛高。目前,大多是具备 AI 算法又 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 3 页 共 21 页 简单金融 成就梦想 擅长芯片研发的巨头参与,如 Google 的 TPU。由于完美适用于神经网络相关算法,ASIC 在性能和功耗上都要优于 GPU 和 FPGA, TPU1 是传统 GPU 性能的 14-16 倍,NPU 是 GPU 的 118 倍。寒武纪已发布对外应用指令集,预计 ASIC 将是未来 AI 芯片的核心 。 核心假设风险 中美 IT 合作因 政治原因受阻 。 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 4 页 共 21 页 简单金融 成就梦想 1. AI 加速需求超过 CPU 计算能力摩尔定律供给 . 6 2. GPU 将最早受益于安防等需求爆发 . 8 3. FPGA:能效居中的中间方案 . 10 4. ASIC:能效顶级、拥抱未来 . 11 5. 寒武纪终端闪耀、云端推进 . 15 6. 推荐标的:中科曙光、中科创达、富瀚微 . 19 目 录 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 5 页 共 21 页 简单金融 成就梦想 图表目录 图 1:深度学习是实现人工智能的一种算法 . 6 图 2: AI 具有训练和执行两个过程 . 7 图 3:人工神经网络需要海量数据 . 7 图 4:传统结构已经不能满足计算的需求 . 7 图 5: AI 的三种专用芯片: GPU、 ASIC、 FPGA . 8 图 6: GPU 具有先天的运算能力 . 9 图 7: AI 芯片的云端和终端应用场景 . 15 图 8:蒙代尔不可能三角帮助理解芯片的折中 . 16 图 9:英伟达 V100 加强 AI 能力 . 17 图 10:英伟达主导 GPU 市场 . 17 图 11:华为麒麟 970 芯片核心架构 . 19 表 1: CPU 与 GPU 对比 . 9 表 2:三类 AI 芯片各有优缺 . 11 表 3:主要人工智能 ASIC 芯片对比 . 12 表 4:科技巨头纷纷布局 ASIC 芯片 . 12 表 5: 各科技机构类脑芯片布局 . 13 表 6: ASIC 性能全面领先 . 14 表 7:巨头公司采用英伟达 GPU 芯片 . 16 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 6 页 共 21 页 简单金融 成就梦想 1. AI 加速需求超过 CPU 计算能力摩尔定律供给 人工智能的三大支撑是硬件、算法和数据,其中硬件指的是运行 AI 算法的芯片 与 相对应的计算平台 1。 在硬件方面,目前主要是使用 GPU 并行计算神经网络,同时, FPGA 和ASIC 也具有未来异军突起潜能。目前 AI 芯片按照使用场景可以分为:云端(服务器端)和终端(移动端)芯片。云端主要指公有云、私有云、数据中心等需要用到的神经网络 专用服务器 ,终端指手机、车载、安防、音响、机器人等移动应用终端。有的厂商同时具备云端和终端芯片的设计能力。 机器 学习不断演进,深度学习出现。 人工智能是应用范畴的词汇,机器学习是目前最有效实现人工智能的方法。深度学习是机器学习的子类,也是现有机器学习方法中,最奏效的一类。 图 1: 深度学习是实现人工智能的一种算法 资料来源:电子发烧友网, 申万宏源研究 深度学习的人工神经网络算法与传统计算模式不同。 它能够从输入的大量数据中自发的总结出规律,从而举一反三,泛化至从未见过的案例中。因此,它不需要人为地提取所需解决问题的特征或者总结规律来进行编程,是通过大量样本数据训练建立了输入数据和输出数据之间的映射关系,其最直接的应用是在分类识别方面。例如训练样本的输入是语音数据,训练后的神经网络实现的功能就是语音识别,如果训练样本输入是人脸图像数据,训练后实现的功能就是人脸识别。 传统计算机软件是程序员根据所需要实现的功能原理编程,输入至计算机运行即可,其计算过程主要体现在执行指令这个环节。而深度学习的人工神经网络算 法包含了两个计算过程: 1. 训练: 用已有的样本数据去训练人工神经网络。 2. 执行 : 用训练好的人工神经网络去运行其他数据。 1 云端 为服务器,移动端为 SOC( System on Chip,系统级 芯片 ) 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 7 页 共 21 页 简单金融 成就梦想 图 2: AI 具有训练和执行两个过程 图 3: 人工神经网络需要海量数据 资料来源:申万宏源研究 资料来源:申万宏源研究 CPU 基于低延时的设计 , 有 强 单次逻辑处理能力 , 但面对有限功耗的大量数据处理能力有限 。 中央处理器 CPU 需要很强的处理不同类型数据的计算能力以及处理分支与跳转的逻辑判断能力,这些都使得 CPU 的内部结构异常复杂。 深度学习模型需要通过大量的数据训练才能获得理想的效果。 骤然爆发的数据洪流满足了深度学习算法对于训练数据量的要求,但是算法的实现还需要相应处理器极高的运算速度作为支撑。当前流行的包括 X86 和 ARM 在内的传统 CPU 处理器架构往往需要数百甚至上千条指令才能完成一个神经元的处理,但对于并不需要太多的程序指令,却需要海量数据运算的深度学习的计算需求,这种结构就显得非常笨拙。尤其是在当前功耗限制下无法通过提升 CPU 主频来加快指令执行速度,这种矛盾愈发不可调和,深度学习需要一种替代硬件来满足海量数据的运算需求。 图 4: 传统结构已经不能满足计算的需求 资料来源:申万宏源研究 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 8 页 共 21 页 简单金融 成就梦想 除了 CPU 以外, AI 使用的主流芯片种类有: GPU、 FGPA、 ASIC。 图 5: AI 的三种专用芯片: GPU、 ASIC、 FPGA 资料来源:申万宏源研究 2. GPU 将 最早受益于安防等需求爆发 GPU:图形加速 起家, 较成熟 生态系统,最先 被 引入深度学习。 GPU( Graphics Processing Unit)称为图形处理器,它是显卡的“心脏”,与 CPU 类似,只不过是一种专门进行图像运算工作的微处理器。 GPU 是专为执行复杂的数学和几何计算而设计的,这些计算是图形渲染所必需的。 GPU 在浮点运算、并行计算等部分计算方面可以提供数十倍乃至于上百倍于 CPU 的性能。英伟达公司从 2006 年下半年已经开始陆续推出相关的硬件产品以及软件开发工具,目前是人工智能硬件市场的主导。 GPU 对海量数据并行运算的能力与深度学习需求不谋而合,因此,被最先引入深度学习。 2011 年吴恩达教授率先将其应用于谷歌大脑中便取得惊人效果,结果表明, 12 颗英伟达的 GPU 可以提供相当于 2000颗 CPU 的深度学习性能。 在 CPU 上约有 20%的晶体管是用作计算的,而 GPU 上有 80%的晶体管用作计算。 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 9 页 共 21 页 简单金融 成就梦想 图 6: GPU 具有先天的运算能力 资料来源:申万宏源研究 表 1: CPU 与 GPU 对比 CPU GPU 架构区别 70%晶体管用来构建 Cache 还有一部分控制单元,负责逻辑算数的部分并不多 整个就是一个庞大的计算阵列(包括 ALU 和shader 填充) 非常依赖 Cache 不依赖 Cache 逻辑核心复杂 逻辑核心简单 计算目的 适合串行计算 适合大规模并行计算 运算复杂度高 运算复杂度低 资料来源:申万宏源研究 GPU 天然 具有三个 方面 局限 性 。 GPU 作为图像处理器,设计初衷是为了应对图像处理中需要大规模并行计算。因此,其在应用于深度学习算法时,有三个方面的局限性: 1. 应用过程中无法充分发挥并行计算优势。 深度学习包含训练和应用两个计算环节,GPU 在深度学习算法训练上非常高效,但在应用时一次性只能对于一张输入图像进行处理,并行度的优势不能完全发挥。 2. 硬件结构固定不具备可编程性。 深度学习算法还未完全稳定,若深度学习算法发生大的变化, GPU 无法像 FPGA 一样可以灵活的配置硬件结构 3. 运行深度学习算法能效远低于 FPGA。 学术界和产业界研究已经证明, GPU 计算方式 与深度学习算法 并非 完全匹配,性能峰值无法被完全利用。 运行深度学习算法中实现同样的性能, GPU 所需功耗远大于 FPGA。 例如国内初创企业深鉴科技基于 FPGA 平台的人工智能芯片在同样开发周期内相对 GPU 能效有一个数量级的提升。 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 10 页 共 21 页 简单金融 成就梦想 3. FPGA: 能效居中的 中间 方案 FPGA:能效中等、 灵活度高、成本 较高 的 AI 白板 。 FPGA( Field Programmable Gate Array)称为现场可编程门阵列,用户可以根据自身的需求进行重复编程。 FPGA 比GPU 具有更低的功耗,比 ASIC 具有更短的开发时间和 更低的成本。自 Xilinx 在 1984 年创造出 FPGA 以来,在通信、医疗、工控和安防等领域占有一席之地,在过去几年也有极高的增长率。而进入了最近两年,由于云计算、高性能计算和人工智能的繁荣,拥有先天优势的 FPGA 的关注度更是到达了前所未有的高度。 目前来看, FPGA 在两个领域的应用前景十分巨大:工业互联网领域、工业机器人设备领域。 作为未来制造业发展的方向,工业大数据、云计算平台、 MES 系统等都是支持工业智能化的重要平台,它们需要完成大数据量的复杂处理, FPGA 在其中可以发挥重要作用。 在多轴向运作的精密控制、实时同步的连接以及设备多功能整合等方面,兼具弹性和整合性的 FPGA,更能展现设计优势。如汽车 ADAS 需要对实时高清图像进行及时的分析识别与处理;在人工智能方面,深度学习神经网络也需要进行大量并行运算。 就目前的市场而言,英特尔、 IBM、德州仪器、摩托罗拉、飞利浦、东芝、三星等巨头纷纷涉足 FPGA,但最成功的是 Xilinx 与 Altera。这两家公司共占有近 90%的市场份额,专利达到 6000 余项。 Intel 在 2015 年以 161 亿美元收购了 Altera,也是看中 FPGA 专用计算能力在人工智 能领域的发展。从行业巨头巨头的动作可以看出,由于 FPGA 在计算能力和灵活性上大大弥补了 CPU 的短板,未来在深度学习领域, CPU+FPGA 的组合将成为重要的发展方向。 FPGA 与 GPU、 CPU 相比,具有 性能高、能耗低、可硬件编程 的特点: 性能: 虽然 FPGA 的频率一般比 CPU 低,但是可以用 FPGA 实现并行度很大的硬件计算器。比如一般 CPU 每次只能处理 4 到 8 个指令,在 FPGA 上使用数据并行的方法可以每次处理 256 个或者更多的指令,因此 FPGA 的数据吞吐量远超 CPU。 能耗: CPU 的解码器通常会占总能耗的 50%,而 在 GPU 中,即使其解码器的部分相对较小,也会消耗 10%-20%的能源。相比之下,由于 FPGA 内部结构没有解码器,加之 FPGA 的主频比 CPU及 GPU 低很多,通常 CPU和 GPU 的主频在 1-3GHz之间,而 FPGA的主频在 500MHz 以下,因此 FPGA 的能耗要远低于 CPU 及 GPU。 可编程: FPGA 支持硬件编程。 FPGA 能够使用户较为方便的设计出所需的硬件逻辑,而且可以进行静态重复编程和动态系统重配置,使系统的硬件功能可以向软件一样通过编程来修改,实现灵活而方便的更新和开发,大大提高系统设计的灵活性和通用性。 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 11 页 共 21 页 简单金融 成就梦想 表 2: 三类 AI 芯片各有优缺 CPU GPU FPGA 单次迭代时间(微秒) 80 50 50 单次迭代能耗(毫焦) 5 5 0.4 开发难度 小 较小 大 增加功能 容易 容易 难 性能 /成本 高 低 高 片外存储器 内存,容量大、速度低 显存,速度高、容量大 内存、速度低 开发周期 短 短 长 资料来源:微软 官网 ,申万宏源研究 尽管 FPGA 倍受看好,甚至新一代百度大脑也是基于 FPGA 平台研发,微软、 IBM 等公司都有专门的 FPGA 团队为服务器加速,但其毕竟不是专门为了适用深度学习算法而研发,实际仍然存在不少局限: 1. 基本单元的计算能力有限。为了实现可重构特性, FPGA 内部有大量极细粒度的基本单元,但是每个单元的计算能力(主要依靠 LUT 查找表)都远远低于 CPU 和 GPU 中的ALU 模块。 2. 速度和功耗有待提升。相对专用定制芯片 ASIC, FPGA 在处理速度和功耗方面仍然存在不小差距。 3. FPGA 价格相对较为昂贵。在规模放量的情况下单块 FPGA 的成本要远高与 ASIC,因此 FPGA 更适用于企业级用户,尤其是重 配置、性能需求较高的军工和工业电子领域。 4. ASIC: 能效顶级、拥抱未来 ASIC:功能 特定的最优功耗 AI 芯片 。 ASIC( Application Specific Integrated Circuit)是一种为专门目的而设计的集成电路。专为特定目的而设计,无法重新编程,效能高功耗低,但价格昂贵。 Google 的 TPU 就属于 ASIC,因 Google 规模够大,相关的一次性工程费用可以透过省下的功耗成本加以补贴。 科技巨头纷纷在 ASIC 深度学习芯片上发力。 传统的 神经 网络 算法在通用芯片 (CPU 和GPU)上效率不高,功耗比较大,因此从芯片的设计角度来说,通用型往往意味着更高的成本。于是出现了特定的算法加速器,来加速包括卷积神经网络、递归神经网络在内的各种神经网络算法,专用芯片的最大优势在于其成本和功耗降低。专用深度学习芯片将大幅提升人工智能算法运行效率,推动人工智能产业加速发展。 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 12 页 共 21 页 简单金融 成就梦想 表 3: 主要人工智能 ASIC 芯片对比 名称 公司 介绍 Tesla P100 NVIDIA Tesla P100 芯片安装了 150 亿个晶体管,是目前市场上许多图形处理器的 3 倍 芯片面积 600 平方毫米,双精度运算速度 5.3 万亿次,单精度运算速度 10.6 万亿次,半精度运算速度 21.2 万次 TrueNorth IBM 采用 28nm 硅工艺技术,包括 54 亿个晶体管,分成 4096 个“神经突出内核”( neurosynaptic core)处理核,相当于 100 万个可编程神经元,以及 2.56 亿个可编程突触。 TrueNorth 每个处理核中包含约 120 万个晶体管,大多数晶体管用作数据存储、以及与其他核的通信 随机相变 IBM 2016 年 IBM 制造出世界首个人造纳米级随机相变神经元,该神经元能用于制造高密度、低功耗的认知学习芯片,可实现人工智能的高速无监督学习 神经元芯片 芯片的神经元尺寸最小能到纳米量级,信号传输速度极快,同时功耗较低,具有生物神经元的特性 Knights Mill Intel 下一代 XeonPhi(至强)芯片,专为人工智能深度学习设计的芯片 可以独自充当处理器,不再需要单独的主机处理器和辅助处理器,可以直接接入 RAM 系统,而 NVIDA 的 GPU 和谷歌的 TPU 芯片,都是辅助处理器,必须和 CPU 一起工作。公司目前并未透露更多关于该芯片的细节。 星光智能一号 中星微电子 中国首款嵌入式神经网络处理器芯片,全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片。基于该芯片的人脸识别最高能达到 98%的准确度,超过人眼识别率 采用了“数据驱动”并行计算的架构,单颗 NPU 能耗仅为 400mW,极大地提升了计算能力与功耗的比例,可以广泛应用于高清视频监控、智能驾驶辅助、无人机、机器人等嵌入式机器视觉领域。 DianNao 寒武纪科技 2016 年中国科学院计算技术研究团队所发布了全球首个能够深度学习的神经网络处理器芯片,名为“寒武纪” 寒武纪主要针对智能认知等应用的专用芯片,优势集中在人脸识别、声音识别等方面,而非用于替代 CPU。 DianNao 包含一个处理器核,主频为 0.98GHz,峰值性能达每秒 4520 亿次运算, 65nm 工艺下功耗为 0.485W,面积 3.02mm2。平均性能超过主流 CPU 核的 100 倍,但是面积和功耗仅为 1/10,效能提升可达三个数量级; DianNao的平均性能与主流通用 GPU 相当,但面积和功耗仅为百分之一量级。 其后产品 DaDianNao 和 PuDianNao 进一步扩大处理器规模: 28nm 工艺下, DaDianNao 的主频为 606MHz,面积67.7mm2,功耗约 16W; PuDianNao 的主频为 1GHz,峰值性能达每秒 10560 亿次运算,面积 3.51mm2,功耗为 0.596W( 65nm 工艺下) 资料来源: 寒武纪官网, 申万宏源研究 表 4: 科技巨头纷纷布局 ASIC 芯片 公司 布局 谷歌于 2016 年发布第一代 TPU, 2017 年 5 月公布了第二代 TPU,又称为 Cloud TPU。 TPU( Tensor Processing Unit)是一种专用的加速器芯片,跟谷歌深度学习软件 TensorFlow 匹配。 TPU 针对机器学习进行过裁减,运行单个操作时需要的晶体管更少,目的在于替代 GPU,实现更高效的深度学习。第二代 TPU 和传统 GPU 相比性能提升 15倍,更是 CPU 浮点性能的 30 倍。 NVIDIA 的 Tesla P100 芯片专门用于加速深度学习,这是 NVIDIA 第一次设计专门用于该领域的芯片,专门用于加速人工智能和深度学习,且 NVIDA 决定全力投入人工智能。 Tesla P100 芯片安装了 150 亿个晶体管,是目前许多处理器、图形芯片的 3 倍;芯片面积为 600 平方毫米,双精度运算速度 5.3 万亿次,单精度运算速度 10.6万亿次,半精度运算速度 21.2 万亿次。 Nvidia 同时发布了一款搭载了八个 P100 芯片、可用于深度学习的计算机 DGX-1。 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 13 页 共 21 页 简单金融 成就梦想 2011 年 8 月, IBM 通过模拟大脑结构,首先研制出两个具有感知认知能力的 TrueNorth 芯片原型,可以像大脑一样具有学习和处理信息的能力,但是该芯片“脑容量”的大小仅相当于虫脑水平。 2014 年 8 月, IBM 推出第二代TrueNorth 芯片,采用 28nm 硅工艺技术,包括 54 亿个晶体管和 4096 个处理核,相当于 100 万个可编程神经元,以及 2.56 亿个可编程突触,芯片的工作方式类似于人脑的神经元和突触之间的协同。二代 TrueNorth 芯片性能大幅提高,处理核体积仅为第一代的 1/15。目前, IBM 已经利用 16 个 TrueNorth 芯片开发出一台神经元计算机原型,具有实时视频处理能力。 Intel 宣布,将在 2017 年推出专为机器深度学习设计的下一代 Xeon Phi 芯片,代号 Knights Mill,正式迈入了与 NVIDA 的 GPU 抗衡的战场。 Knights Mill 芯片专为机器深度学习设计,可以独自充当处理器,不再需要单独的主机处理器和辅助处理器,可以直接接入 RAM 系统,而 NVIDA 的 GPU 和谷歌的 TPU 芯片,都是辅助处理器,必须和 CPU 一起工作。 资料来源:谷歌官网,英伟达官网, IBM 官网,英特尔官网,申万宏源研究 ASIC 的另一个未来发展是类脑芯片。 类脑芯片是基于神经形态工程、借鉴人脑信息处理方式,适于实时处理非结构化信息、具有学习能力的超低功耗芯片,更接近人工智能目标,力图在基本架构上模仿人脑的原理,用神经元和突触的方式替代传统“冯 诺依曼”架构体系,使芯片能进行异步、并行、低速和分布式处理的能力,同时具备自主感知、识别和学习能力。 IBM 的 NorthTrue 即属于类脑芯片。目前类脑芯片尚处于初期,距离商业化还存在一段距离,这也是各国正在积极布局的地方。 表 5: 各科技机构类脑芯片布局 时间 公司 芯片名称 研发过程 &目的 性能 2011 IBM TrueNorth 第一代 IBM公司通过模拟大脑结构研制出第一代两个具有感知认知能力的硅芯片模型 能够像大脑一样学习和处理信息,并能够通过经验进行学习,根据相应神经元连接路径进行重组 2014 IBM TrueNorth 第二代 在 DARPA 投资 1 亿美元的“神经形态自适应可塑可扩展电子系统”项目的支持下开发 神经元数量增加到 100 万个,提高 3906 倍,可编程突触数量增加 976 倍,每秒可执行 460 亿次突触计算,总功耗仅为 70 毫瓦 2013 高通 Zeroth 致力于开发突破传统模式的全新计算框架,希望打造全新的计算处理器,模拟人类大脑和神经系统,使终端拥有大脑模拟计算驱动的嵌入式认知 在 2015 年正式上市, Zeroth 也被称为神经处理单元,用户可以使用传统编程语言编写程序,或利用” NPU 训练”终端实现类似人类的运动和行为 2014 斯坦福大学 Neurogrid 建立一种新的神经形态计算架构 速度为普通电脑的 9000 倍,而所需能量低于普通电脑,产品原型为 16 个定制芯片组成,能够模拟 100 万个大脑神经元以及几十亿个突触连接 2014 谷歌 神经网络图灵机 通过核心芯片研发超级计算机 融合传统图灵机和神经网络优势,可在存储信息的同时从信息中学习新知识,并利用新知识执行逻辑任务 2015 英特尔 神经形态芯片 神经形态芯片未来市场规模庞大,增长潜力巨大 芯片设计基于两种技术,横向自旋阀和忆阻器,前者能根据通过的电子自旋方向开关,后者工作方式类似神经元,能复制出大脑处理能力 资料来源: 凤凰网, 申万宏源研究 行业深度 请务必仔细阅读正文之后的各项信息披露与声明 第 14 页 共 21 页 简单金融 成就梦想 性能 上看 , ASIC 全面 领先 GPU/FPGA。 CPU/ GPU/ NPU/TPU/ XPU 的论文表明,ASIC 无论面积 、峰值运算、功耗都优于 GPU、 FPGA, DIANNAO 系列 总体能耗更能达到百倍级 GPU 。 从 应 用 场 景 来 看 寒 武 纪 DIANNAO 系列 芯片( DIANNAO/DADIANNAO/SHIDIANNAO) 应用 场景全面。 表 6: ASIC 性能 全面领先 性能 面积 峰值运算能力 功耗 精度 典型操作 功能和场合 功能适用场合 CPU(例如 Haswell E5-2699V3) 稳定 精度高(浮点最强) 所有控制 可用于训练 频繁访问外部存储 整机速度 GPU1(例如 2012 年NVIDIA K80) 1.2-2.1 倍CPU 8.74TFLOPS 300W 精度高(双精度以上) 所有数据 可用于训练 频繁访问外部存储 图像、视频、游戏 FPGA(例如 Xilinx Virtex7-690T) 1.8TFLOPS 40W 工业领域 ASIC TPU1 14-16倍 GPU 70-200 倍GPU 23TFLOPS 75W 精度偏低 多层神经网络( MLP)、 长短期记忆网络( LSTM)、卷积神经网络 TPU1 不能训练、不能频繁访问存储 搜索、翻译、相册等 DIANNAO 系列 118 倍GPU 3mm2 卷积( Conv)、池化( Pool)、分类( Class) 片上 存储 手机应用(图像、语音、翻译) 、 云端 训练 TPU2( 2017) 15 倍GPU 45TFLOPS 40W 支持半精度浮点 搜索、地图、语音、 无人车等 GPU2(例如 2016年 NVIDIA P40) 250W 资料来源: 寒武纪官网, 申万宏源研究 我们得出以下观点: GPU 在 训练 层 应用广泛, ASIC 在 执行层表现较好 。 根据 Google TPU 论文 ,训练层 神经 网络以浮点计算为主, 同时 已经形成 完整 生态系统 2。所以 GPU 较适合 。 在 应用层面,无论 TPU、 NPU 能耗均 可达到 30-80 倍 K80GPU 水平(优化后 可达到 70-200 倍) GPU、 TPU 和 NPU,适合的人工智能操作也不同。 GPU 的计算能力最强,适合所有操作; TPU 主要从事多层神经网络( MLP)、长短期记忆网络( LSTM),因为谷歌认为这是其最实用的 AI 操作(谷歌称“多层感知 (MLP)占 Google AI 开发工作的 61%。虽然大部份的架构师一直在加速 CNN 设计,但这部份只占 5%的工作负载”); NPU 主要优化了
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642