资源描述
证券研究报告 请务必阅读正文后免责条款部分 2018 年 10 月 31 日 行业研究 评级 :推荐 ( 维持 ) 研究所 证券分析师: 冯胜 S0350515090001 0755-83706284 fengs01ghzq 联系人 : 王可 S0350117080013 wangk05ghzq 人工智能 核“芯”, GPU 迎来发展良机 智能制造 行业 系列 报告 二 最近一年 行业 走势 行业相对表现 表现 1M 3M 12M 芯片国产化指数 -15.5 -23.3 -33.0 沪深 300 -9.6 -7.2 -22.1 相关报告 景嘉微深度 报告 : 新一代 GPU 量产在即,国家产业基金助力前行 2018-10-19 智能制造行业系列报告一 : 政策 +技术双轮驱动,工业互联网步入发展机遇期 2018-06-27 投资要点: 从图形渲染到人工智能, GPU 应用不断拓宽。 GPU 专注并行计算,应用领域从图形渲染、通用计算开始向深度学习扩展,高度契合人工智能发展需求。从人工智能芯片的技术实现路径来看, FPGA、ASIC 或许在性能(包括计算能力、传输能力、储存能力)和功耗(能耗、散热) 等方面 较 GPU 更优,但由于 GPU 具备良好的通用性,目前 已成为 人工智能芯片领域唯一能够实现大规模应用的方案。 人工智能助力 GPU 需求提升,自主可控推动国产品牌崛起。 从全球市场来看,受 PC 和智能手机出货量下滑影响 , 传统 GPU 需求有所降低,但游戏板块仍是亮点。增量 领域上 ,人工智能的快速发展带来了新兴领域的 GPU 市需求,比如云平台、超级计算机等云端需求以及机器人、智能汽车等终端需求。从国内市场来看,国产计算机生态已基本搭建,自主可控进程有望加速,国产 GPU 迎来发展良机 。经测算, 若考虑整个财政供养体系及军队的国产替代, GPU 国产化市场空间 超过 200 亿。 全球 GPU 市场寡头垄断,国内发展起步较晚。 全球 GPU 市场发展相对成熟, PC GPU 市场 Intel、 NVIDIA、 AMD 三足鼎立,独立显卡领域 NVIDIA 目前占据主导地位, AMD 是其 主要 竞争对手; 移动GPU 领域, ARM、 Imagination、 Qualcomm、 Vivante 和 NVIDIA五强基本垄断市场。国内 GPU 市场发展起步较晚,主要有三个派系:一是以景嘉微为代表的自主研发系,二是以西邮微电为代表的学术课题系,三是以中科曙光为代表的技术引进系。 给予国产 GPU 行业推荐评级。 自上而下,全球范围内受人工智能驱动 GPU 市场迎来新的增长点,同时国产品牌在自主可控提速背景下迎来发展良机,给予国产 GPU 行业推荐评级。自下而上,关注优质龙头标的。国产 GPU 发展起步较晚,建议从自主可控、产业化程度、产品参数三个维度进行筛选,其中 自主可控是 当前背景下 的 核心标准。重点推荐三个维度 均处于国产第一序列的景嘉微,建议关注中科曙光、航锦科技。 风险提示 : 人工智能推进不及预期;自主可控行业政策不及预期;国产 GPU 研发及市场推广不及预期 ;推荐公司业绩不及预期 。 证券 研究 报告 请务必阅读正文后免责条款部分 2 重点关注公司及盈利预测 重点公司 股票 2018-10-30 EPS PE 投资 代码 名称 股价 2017 2018E 2019E 2017 2018E 2019E 评级 300474.SZ 景嘉微 36.83 0.44 0.52 0.69 83.7 70.83 53.38 买入 000818.SZ 航锦科技 8.75 0.37 0.74 0.88 23.65 11.82 9.94 买入 603019.SH 中科曙光 40.62 0.48 0.71 1.07 84.57 57.05 37.92 未评级 资料来源: Wind 资讯 ,国海证券研究所 (注: 中科曙光 盈利预测取自万得一致预 期) 证券 研究 报告 请务必阅读正文后免责条款部分 3 内容目录 1、 从图形渲染到人工智能, GPU 应用不断拓宽 . 5 1.1、 GPU 专注并行计算,高度契合人工智能需求 . 5 1.2、 FPGA/ASIC 是在 GPU 在人工智能领域的补充 . 7 1.3、 GPU 的分类及评价方法 . 10 2、 人工智能助力 GPU 需求提升,自主可控推动国产品牌崛起 . 11 2.1、 全球市场:游戏是传统需求亮点,人工智能开辟增量空间 . 11 2.2、 国内市场:自主可控进程加快, GPU 国产替代前景广阔 . 16 3、 全球 GPU 市场寡头垄断,国内发展起步较晚 . 20 3.1、 全球 GPU 行业发展成熟,已形成寡头垄断市场 . 20 3.2、 国内市场:发展起步较晚,涵盖三大派系 . 23 4、 行业评级及投资策略 . 24 5、 风险提示 . 25 证券 研究 报告 请务必阅读正文后免责条款部分 4 图表目录 图 1:主机、显卡与 GPU . 5 图 2: GPU 相比 CPU 有着更多的算术单元 . 5 图 3: 适合用 GPU 解决的问题的特性 . 6 图 4: GPU 通用计算应 用在多个领域 . 6 图 5:深度学习应用于图像识别领域 . 6 图 6: FPGA 布线资源有限,限制了时钟频率 . 7 图 7: GPU 显存接口带宽高于 FPGA 接口带宽 . 7 图 8:矩阵运 算中 GPU 性能由于 FPGA . 7 图 9:小计算量大批次计算中 FPGA 性能优于 GPU . 7 图 10: 2016 年全球 FPGA 市场竞争格局 . 8 图 11: TPU、 GPU 和 CPU 的性能功耗比对比 . 9 图 12: PU, GPU, CPU 和改进的 TPU 的性能对比 . 9 图 13: GPU 分类示意图 . 10 图 14: NVIDIA 的独立 GPU . 10 图 15: 英特尔首款集成 GPU . 10 图 16:全球 PC 出货量及同比变化 . 12 图 17: PC GPU 出户量及环比增长 . 12 图 18:中国游戏市场用户规模 . 12 图 19: 2016 年全球 PC 游 戏市场高中低端份额 . 12 图 20: PC 端集显与独显出货量情况 . 13 图 21:全球智能手机出货量及同比增长 . 13 图 22: iphone XS A12 芯片更新参数 . 13 图 23: 人工智能超级计算机示意图 . 15 图 24: NVIDIA Jetson TX1/2 模块技术规格 . 15 图 25: NVIDIA Jetson TX2 开发者套件 . 15 图 26:自动驾驶实现原理 . 16 图 27:人工智能技术是实现汽车自 动驾驶的关键 . 16 图 28:按指令集分类的国产 CPU 情况 . 18 图 29: GPU 发展历程 . 21 图 30: 2018Q1 全球 PC GPU 市场格局 . 21 表 1: 评价独立显卡的方法 . 11 表 2: 全球 IT 巨头 AI 云平台的芯片及其他情况 . 14 表 3:国家关于自主可控的政策和事件梳理 . 17 表 4:国产 GPU 市场空间测算 . 20 表 5: 2018Q1 独立显卡市占率情况 . 22 表 6:全球主要移动 GPU 厂商对比 . 22 表 7:三大主流国产 GPU 参数对比 . 24 表 8:重点关注公司及盈利预测 . 25 证券 研究 报告 请务必阅读正文后免责条款部分 5 1、 从图形渲染到人工智能, GPU 应用不断拓宽 1.1、 GPU 专注并行计算,高度契合人工智能需求 GPU( Graphics Processing Unit),即图形处理器, 目前主要作为显卡的计算 核心, 主要解决图形渲染问题。 图形渲染需要将大量的 3D 坐标转化为 2D 显示器上的坐标,需要执行大量计算来确定每个像素的颜色,还要处理大量内存缓冲,并描述每一个需要被渲染的对象的纹理的位图信息。 因此,图形渲染的实质是大量数据的快速并行计算 , 具有高并行度以及高吞吐量特性的处理器,才能实现对图形问题的快速解决。 与 CPU( Central Processing Unit,中央处理器)相比, GPU 拥有更多的算数单元。 CPU 虽然有多核,但总数没有超过两位数,每个核都有足够大的缓存和足够多的数字和逻辑运算单元,并辅助有很多加速分支判断甚至更复杂的逻辑判断的硬件; GPU 的核数远超 CPU,被称为众核( NVIDIA Fermi 有 512 个核)。每个核拥有的缓存大小相对小,数字逻辑运算单元也少而简单。 图 1:主机、显卡与 GPU 图 2: GPU 相比 CPU 有着 更多的算术单元 资料来源: 电子发烧友 、 国海证券研究所 资料来源: 中 关村在线、 国海证券研究所 注: 图中 绿色的是计算单元,橙红色的是存储单元,橙黄色的是控制单元 从应用端来看, GPU 向通用计算以及人工智能领域不断拓展。 GPU 从 2006 年底开始 采用统一渲染架构,体系结构的通用化使其能充分利用所有的计算单元,从而向通用性的并行计算发展。 另一方面, 早期 利用 GPU 进行通用计算的 开发难度非常大 , 要求开发者 不仅 熟悉应用领域的并行算法 , 还要熟悉计算机图形学和 GPU 内部工作原理。 NVIDIA于 2006 年 11 月推出为 基于 GPU 的通用计算模型 CUDA, 随后 AMD 于 2008年 12 月推出基于 OpenGL 标准的 Stream 技术 。随着可编程平台的陆续推出,GPU 在 通用计算领域 的普及得以加快 。 证券 研究 报告 请务必阅读正文后免责条款部分 6 图 3: 适合用 GPU 解决的问题的特性 图 4: GPU 通用计算应用在多个领域 资料来源: 搜狐新闻、国海证券研究所 资料来源: CSDN、 国海证券研究所 深度学习助力人工智能发展, GPU 是良好训练平台。 深度学习是人工神经网络算法的进一步发展。人类的思维是从知觉的抽象 -归纳 -概括开始,先形成低层级的抽象概念,在此基础上进行逐级抽象,最终形成低级 -中级 -高级的抽象链。深度学习通过分层结构,用低层次特征的组合形成更加抽象的高层次特征或属性,从输入的海量数据中自发地总结出规律,举一反三泛化至从未见过的案例中 ,从而推动了人工智能发展的浪潮。 从对芯片要求上来看, 深度学习涉及大量参数、激活值、梯度值的缓冲区,其每个值在每一次训练迭代中都要被完全更新,对计算和吞吐能力的需求非常高。由于具有简便的编程模型、强并行能力和高显存带宽,通用 GPU 成为训练深度神经网络的理想平台。 2012 年,多伦多大 学的 Alex Krizhevsky 利用 NVIDIA GPU 训练的深度神经网络在 ImageNet 图像识别挑战赛中大大降低了错误率,打败了工业界的巨头 Google,引起学术界和工业界哗然。此后,工业界开启了大规模的对深度学习的投入,基于 GPU 深度学习计算模式推动人工智能迅猛发展。 图 5: 深度学习应用于图像识别领域 资料来源: Automatic Portrait Segmentation for Image Stylizatio; 国海证券研究所 GPU 适合 处理的 问题 数据 并行性高 数据量 巨大 数据与 CPU 之间传输少 数据 计算密度高 数据 耦合度低 证券 研究 报告 请务必阅读正文后免责条款部分 7 1.2、 FPGA/ASIC 是 在 GPU 在人工智能领域的补充 AI 芯片市场风起云涌, GPU 因其通用性是一个稳定发展的道路。 过去 5 年,英伟达的 GPU 已经成为深度学习的主流芯片,但随着人工智能尤其是机器学习应用大量涌现,处理器市场群雄觊觎,谷歌和微软等公司都探索推出其他的人工智能芯片,包括 FPGA 和 ASIC。 总体来看, GPU 并非 唯一能驱动深度学习计算的处理器 ,在 性能 和 能耗 上较 FPGA、 ASIC 芯片 或有差距 ,但由于 GPU 因良好通用性,是唯一实现大规模应用的方案。 1.2.1、 FPGA: 通用就无法最优 , 以云端 AI 应用为主 FPGA(现场可编程门阵列器件)是一种可编程的“万能芯片”, 具备 并行效率高 、 单位能耗低 、 配置灵活 、 开发风险低 、 上市时间快 、 成本低 等特点。与 GPU相比, FPGA 的峰值性 很低, 二者 在深度学习领域的应用成效 取决于 FPGA 架构优化能否弥补峰值性能的劣势。如在矩阵运算等标准 batch data SIMD bench上, GPU 的平均性能远好于 FPGA,但在频繁请求但每次数据量和计算量都不大的服务器端, FPGA 的平均性能比 GPU 更好。 图 6: FPGA 布线资源 有限 , 限制了时钟频率 图 7: GPU 显存接口带宽高于 FPGA 接口带宽 资料来源: 机器之心 、 国海证券研究所 资料来源: 机器之心 、 国海证券研究所 图 8: 矩阵运算中 GPU 性能由于 FPGA 图 9:小计算量大批次计算 中 FPGA 性能优于 GPU 资料来源: 百度 ,国海证券研究所 资料来源: 百度 ,国海证券研究所 证券 研究 报告 请务必阅读正文后免责条款部分 8 无法摆脱“通用就无法最优”的制约, FPGA 更适合做 探索性的、小批量的产品 。 如果说 CPU 和 GPU 是在架构级别做到“通用”的话, FPGA 就是在更低一级的电路级做到了“通用”。对 一个软 硬件系统而言 ,算法的 影响远大于硬件架构, 硬件架构的影响又远大于电路 ,而 在电路级别做“通用”付出的代价,比起在架构级别做“通用”的代价 要小得多,这是 FPGA 能体现出相当的优势的原因 。 但是 作为 一种硬件可重构的体系结构, FPGA 无法摆脱“通用就无法最优”这一规律的制约, 一旦在某个 专用 架构中 探索 出路径 后, 通常 将 被更加专用的ASIC 芯片所替代。 兼顾 灵活性和平均性能 , FPGA 作为 AI 芯片时以云端 应用 为主。 从下游应用来看,因为 FPGA 需要通过硬件语言对其进行现场编程,而 掌握硬件描述语言 的要求较高, 因此 FPGA 加速器主要 卖给有能力自己开发 FPGA 的企业用户 。在人工智能领域, FPGA 主要应用于 云端服务器的可配置运算, 目前 百度、 腾讯、亚马逊、微软等公司 均 在数据中心 开发基于 FPGA 的深度学习加速器 , 且在不同的应用场合将 FPGA 配置成 不同的加速器 ,如 百度 用 FPGA 实现 的 百度大脑, 已 应用在 语音识别、广告点击率预估模型 等 百度产品中。 从市场格局来看, Xilinx 和 Altera 垄断明显。 Xilinx 和 Altera 两公司占据 全球FPGA 市场份额 的 90%,合计申请专利 6000 多项,其余约 10%的市场份额被Microsemi 和 Lattice 占据,整个市场呈现出 寡头垄 断态势。 图 10: 2016 年全球 FPGA 市场竞争格局 资料来源: 电子发烧友、 国海证券研究所 1.2.2、 ASIC:专注 定制化, TPU、 NPU 不断涌现 ASIC( Application Specific Integrated Circuit)即专用集成电路,是根据产品的需求而特定设计和制造的集成电路,能够在特定功能上进行强化,具有更快的处理速度和更低的能耗。随着人工智能的火爆,专门为 AI 应用设计、专属架构的ASIC 芯片不断涌现 , 如 TPU、 NPU、 VPU、 BPU 等。 但 从应用上来看, ASIC面临 通用性 难题。 与其他芯片相比, ASIC 的研发 周期 较 长, 且 投入 较 多, 技术具备较高 门槛 ,且 一旦芯片做错 或更换算法,产品需要重新更换,因此通用性是制约其发展的重要因素。 证券 研究 报告 请务必阅读正文后免责条款部分 9 TPU: Google 独家定制,在云端与 GPU 互补。 2016 年 5 月, Google 在 I/O大会上首次 公布了 TPU( Tensor Processing Unit),即张量处理器 。 根据 In-Datacenter Performance Analysis of a Tensor Processing UnitTM 资料显示, 将 TPU 与服务器级的 Intel Haswell CPU 和 Nvidia K80 GPU 进行比较,发现应用于同 一时期部署 的 同个数据中心 中 TPU 平均比当前的 GPU 或 CPU 快 1530 倍,性能功耗比( TOPS/Watt)高出约 3080 倍。此外,在 TPU 中采用 GPU 常用的 GDDR5 存储器能使性能 TPOS 指标再高 3 倍,并将能效比指标 TOPS/Watt 提高到 GPU 的 70 倍, CPU 的 200 倍。 图 11: TPU、 GPU 和 CPU 的性能功耗比 对比 图 12: PU, GPU, CPU 和改进的 TPU 的性能对比 资料来源: In-Datacenter Performance Analysis of a Tensor Processing UnitTM 、 国海证券研究所 资料来源: In-Datacenter Performance Analysis of a Tensor Processing UnitTM 、 国海证券研究所 注: Total 包含了主机服务器的功耗, Incremental 则不包含主机服务器的功耗。 GM 和 WM 是几何与加权平均数据。 TPU 并不会取代 GPU 在云端的地位,二者将在云端互为补充。 从定位来看, TPU的出现并非是为了取代 GPU,它 是一款 专门用于在 TensorFlow中的推 理芯片 ,二者 仍需结合使用 。 并且, TPU 目前 只是 Google 内部使用的芯片, 其目的是 利用 TPU 的强大运算能力,驱动旗下所有产品和服务的更新迭代,对外普及暂时没有计划。 NPU:专对神经网络加速,适合嵌入式部署。 NPU 采用了“数据驱动并行计算”的架构,相比于 GPU,它在运算上效率更高,但功耗低很多。 NPU 特别擅长处理视频、图像类的海量多媒体数据,主要是用于推断,因此适合部署到产品上,尤其是嵌入式产品。 NPU 开发的两个主要路径分别是脉冲驱动型和 CNN 神经网络型,前者的特点是功耗相对更低,而后者的优势在于芯片能够支持主流深度学习的软件框架,因此和深度学习配合较好。 目前中星微、寒武纪已分别推出了 NPU 芯片。 中星微 2016 年 6 月率先量产中国首款 NPU“星光智能一号”,也是全球首颗具备深度学习人工智能的嵌入式视频采集压缩编码系统级芯片,其研发耗时三年时间,未来将主要向车载摄像头、无人机航拍、机器人和工业摄像机方面进 行推广和应用。“寒武纪”的研发团队是中国 科学 院计算技术研究,其 2016年推出的寒武纪 1A 处理器( Cambricon-1A)是世界首款商用深度学习专用处理器,面向智能手机、安防监控、可穿戴设备、无人机和智能驾驶等各类终端设备 。目前寒武纪芯片 IP 指令集已扩大范围授权集成到手机、安防、可穿戴设备等终端芯片中。 证券 研究 报告 请务必阅读正文后免责条款部分 10 1.3、 GPU 的分类及评价方法 GPU 的分类具有两种维度:一是 根据与 CPU 的关系, GPU 分为独立 GPU 和集成 GPU。 按照是否呈独立的板卡存在, GPU 可分为独立 GPU 和集成 GPU。独立 GPU( discrete GPU)使用了专用的显示存储器(显存),显存带宽决定了和 GPU 的连接速度。集成 GPU( integrated GPU)与 CPU 集成于芯片组中,和 CPU 共享内存带宽。受限于芯片的面积,移动 GPU 必须牺牲部分性能和带宽来求得性价比和电池续航能力。因此,独立 GPU 运算性能强但功耗和成本高,集成 GPU 则反之。 二是 根据应用端的不同, GPU 可分为 PC GPU、服务器 GPU 与移动 GPU。 PC GPU 既有独立也有 集成 GPU,服务器 GPU 是专为计算加速或深度学习应用的独立 GPU,移动 GPU 一般都是集成 GPU。 图 13: GPU 分类示意图 资料来源: 2018 国产芯片趋势洞察报告、国海证券研究所 整理 图 14: NVIDIA 的 独立 GPU 图 15: 英特尔首款集成 GPU 资料来源: 维基百科,国海证券研究所 资料来源: 游侠硬件,国海证券研究所 GPU 按是否呈独立的板卡存在 独立 GPU 通过独显插到主板相应接口上; 使用了专用显存;计算性能强而功耗大。 集成 GPU 集成于芯片组 , 要占用部分内存容量作为显存;计算能力较弱,功耗成本较低。 按 应用终端 的 不同 PC GPU 应用于 PC端,集成和独立 GPU都有。 服务器 GPU 应用于服务器,可做专业可视化、计算加速、深度学习等应用。 移动GPU 受限于移动端体积和功耗的限制,一般 都是集成 GPU。
展开阅读全文