深度报告-东吴证券-海外观察系列之_从特斯拉_英伟达_Mobileye的视角_看智能驾驶芯片的竞争格局_33页_2mb.pdf

返回 相关 举报
深度报告-东吴证券-海外观察系列之_从特斯拉_英伟达_Mobileye的视角_看智能驾驶芯片的竞争格局_33页_2mb.pdf_第1页
第1页 / 共33页
深度报告-东吴证券-海外观察系列之_从特斯拉_英伟达_Mobileye的视角_看智能驾驶芯片的竞争格局_33页_2mb.pdf_第2页
第2页 / 共33页
深度报告-东吴证券-海外观察系列之_从特斯拉_英伟达_Mobileye的视角_看智能驾驶芯片的竞争格局_33页_2mb.pdf_第3页
第3页 / 共33页
深度报告-东吴证券-海外观察系列之_从特斯拉_英伟达_Mobileye的视角_看智能驾驶芯片的竞争格局_33页_2mb.pdf_第4页
第4页 / 共33页
深度报告-东吴证券-海外观察系列之_从特斯拉_英伟达_Mobileye的视角_看智能驾驶芯片的竞争格局_33页_2mb.pdf_第5页
第5页 / 共33页
点击查看更多>>
资源描述
2022年 6月 26日海外观察系列之:从特斯拉、英伟达、 Mobileye的视角,看智能驾驶芯片的竞争格局研究助理:刘睿哲执业编号: S0600121070038邮箱: 证券分析师 :张良卫执业证书编号: S0600516070001联系邮箱: 证券研究报告 行业研究 半导体 智能驾驶芯片(又可称为自动驾驶芯片、 ADAS芯片等),主要是让车辆能够实现自动驾驶的计算单元,是 人工智能( AI)芯片 的一部分,从计算机视觉( Computer Vision, CV)出发,逐步演化出了针对汽车在驾驶中所遇到场景的算法;算法有自上而下(谷歌、百度)和自下而上(特斯拉、小鹏)两种流派。在相关算法基础上,衍生出了相应的 GPU(英伟达)和 ASIC芯片(特斯拉、高通、 Mobileye、地平线)。 伴随着汽车智能化的加速发展,智能驾驶芯片将迎来快速扩张的阶段,成长空间很大,我们测算 20212025该领域市场规模会从 19亿美元增长到 54亿美元, CAGR为 30%。 由于自动驾驶属于新鲜事物,国内外差距不大 ,且国内整车厂智能化转型很快,对芯片需求很大,中国厂商 存在机会。 我们推荐英伟达( NVDA.O),建议关注特斯拉( TSLA.O)、 Mobileye/英特尔( INTC.O)、地平线(未上市)等。 风险提示:政府减少对自动驾驶领域的扶持政策导致自动驾驶市场增速放缓;自动驾驶相关领域、人工智能相关领域法律趋严,导致商业化项目迟迟无法落地;自动驾驶相关技术无法达到商业化落地预期,整个产业发展缓慢等。核心观点厂家 优势 劣势特斯拉 ( 1)芯片效率更高( 2)可以更容易尝试新方案( 3)一体化带来更快迭代速度 ( 1)可能选错技术迭代方向( 2)如果出货量较少,则研发成本偏高英伟达 ( 1)从原有业务切入,软硬件复用性强,初始成本低 ( 2)人工智能软硬件技术领先 ( 1)通用性较强,可能导致效率偏低( 2)如果赚钱效应不高,则该业务资源投入可能不多Mobileye ( 1)深耕多年,产品得到验证( 2)车企使用成本低,除产品费用外,无需过多投入 ( 1)新算法支持性弱,升级能力存疑( 2)黑盒方案为主,车企无法利用数据资源高通 ( 1)智能座舱的优势地位( 2)拥有芯片研发经验 ( 1)人工智能研发经验较少德州仪器 ( 1)供应链管理能力强( 2)产品落地经验丰富 ( 1)人工智能研发经验较少地平线( 1)算法拥有优势( 2)团队以做自动驾驶芯片为主,全身心投入( 3)中国供应商对中国车企吸引力强( 1)公司规模相对较小华为 ( 1)算法和芯片设计能力均非常丰富 ( 1)受制裁导致流片出现问题2数据来源:各公司官网,东吴证券研究所表:各厂家优劣势对比智能驾驶芯片:概览3数据来源:各公司官网,东吴证券研究所技术路线 /起源 厂家 芯片 架构 车辆配备 /合作商 INT8算力 (TOPS) 芯片价格范围(美 元) 算法支持 每瓦功耗 (W) 制程 (nm) SOP时间传统汽车电子厂商转型瑞萨 V3HCPU+ASIC博世 /海拉 4 / 提供硬件平台,提供一定算法支持2.5 16 2019V3U 60 / / / 2021恩智浦 S32V RTI(软件公司) 4 / 1.5 16 2022E德州仪器 TDA4VM 百度 /博世 /大陆 8 100 1.5 16 2020提供整套解决方案Mobileye(英特尔)EyeQ3CPU+ASIC奥迪 A8/沃尔沃 /凯迪拉克 0.256 1030 自带算法,算法一般是封闭的。目前声称提供修改工具,客户可进行部分优化10 40 2014EyeQ4 蔚来 /理想 /大众 /宝马 /福特 /日产 /广汽 /长城等主力在售车型 2.5 30 1.2 28 2018EyeQ5 宝马 iNext(E)/极氪 001 24 / 0.416 7 2021通用型、平台化硬件 +软件工具链英伟达XavierCPU+GPU+ASIC(少量)小鹏 P7/P5 30 100提供工具链和软件算法参考模型,客户自定义算法1 12 2020Orin 蔚来 ET7/小鹏 P7&G9/比亚迪沃尔沃XC90/上汽 RES33/奔驰 /集度 /理想 L9 254 300500 0.225 7 2022EAtlan 奔驰 1000 / - 5(E) 2023E高通 Snapdragon Ride CPU+GPU+ASIC 宝马 700 / 0.186 5 2022E地平线征程 2CPU+ASIC长安 UNIT/奇瑞蚂蚁 /上汽通用五菱 4 2030 0.125 28 2019征程 3 江淮 /理想 One/博世 /大陆 5 30 0.5 16 2020征程 5/5P 长城 /理想 One长城 /比亚迪 /博世 /大陆 96/128 100 0.195 7 2022E华为昇腾 310CPU+ASIC/ 16 / 0.5 12 2018昇腾 910 北汽 /长城 640 / 0.48 / 2022E黑芝麻 A1000 CPU+ASIC 一汽红旗 (E)、上汽 (E) 40 / 0.2 16 2020A1000 Pro 东风 (E) 106 / 0.24 16 2022E软硬件全栈自研 特斯拉FSD CPU+GPU+ASICModel3/S/X/Y 73.7 /自研1 14 2019升级版 FSD Model3/S/X/Y 210 / / / 2022E注:表格数据截至 2022年 6月,其中车辆配备、芯片价格等数据可能存在短期变动的可能,芯片价格为大致的区间价格,不代表所有厂商的采购价。表:智能驾驶性能汇总目录3、 英伟达:中高端车型的首选方案4、其他中外 竞争对手:创业公司 +传统汽车芯片公司41、自动驾驶芯片:人工智能领域的重要落地场景5 、风险提示2、特斯拉:软硬件一体化的代表 自动驾驶实现方法:环境感知:摄像头、超声波雷达、毫米波雷达、激光雷达、多传感器融合、高精地图与定位;决策规划: AI芯片、软件算法、计算平台(域控制器)、操作系统;控制执行:线控转向制动; 自动驾驶是高阶的 人工智能 。 与人脸、语音识别以及大数据分析等领域相比,对 安全性和实时性要求更高 ,且由于驾驶是要和人类共同参与的,因此需要更高的认知与推理能力。 决策软件(算法)作为自动驾驶的“大脑”,是自动驾驶的核心竞争力: 主要包括视觉算法、雷达算法等传感器数据处理和融合,以及路径规划、行为决策与动作规划等部分。 自动驾驶算法中大量运用了深度学习等 AI领域的算法,因此对于自动驾驶来说,车端需要能够进行推理的 AI芯片,云端需要能够进行大量数据训练的服务器芯片。自动驾驶:高阶人工智能图: 自动驾驶的实现方法图: 感知层使用的人工智能算法5资料 来源:云脑智库,知乎,东吴 证券研究所图: 算法说明芯片:通用芯片 VS 专门芯片6资料 来源: Semiengineering,东吴 证券研究所 最早出现的芯片可被认为是 CPU,用来负责处理通用的任务。 GPU可认为是针对图像领域的 ASIC( Application-specific integrated circuit,特定场景芯片) 。GPU是图形处理单元,在 PC(个人电脑)早期,图形数据较为简单,主要都是由 CPU来进行图形处理。随着图形显示规模的增加, CPU已经很难分出更多精力来处理图形信息,而且 CPU的架构决定了其处理图形信息的效率是偏低的,因此逐渐发展出了专门处理图形信息的 GPU。 随着 AI以及云计算的兴起,市场上开始出现专用程度更高的 TPU、 NPU等 ASIC,但尚未形成完全确定的市场格局。 此类芯片包括 FPGA( Field-programmable gate array,可编程逻辑阵列)和针对某一类 AI计算的 ASIC( Application-specific integrated circuit,特定场景芯片),包括谷歌推出的 TPU(张量计算单元)、特斯拉推出的 NPU(神经网络计算单元)和地平线推出的 BPU,虽然在某些特定计算上效率更高,但目前这些芯片的使用场景比较单一,市场规模还较小。表:不同类型芯片特点总结芯片种类 CPU GPU FPGA ASIC( TPU、 NPU)芯片架构 计算单元和高速存储单元占用的晶 体管数量相当,适合串行计算 晶体管大部分构建计算单元,运算复 杂度低,适合大规模并行计算可编程的逻辑阵列,初始尝试成本很低。可以重新配置芯片一部分,而其余部分依然工作,对于尚未完全确定架构的情况很适合。晶体管根据算法定制,不会有冗余,功耗低、计算性能高、计算效率高擅长领域 没有特定领域 图像处理以及与深度学习类似的人工 智能领域的并行计算等 用于雷达、手机基站、军事通信等 (设计需要经常升级) 市场需求量大的专用领域(十万片以上的 成本可能会优于 FPGA)优点 通用性强 擅长处理图像等矩阵数据,并行运算 能力强 可以根据算法进行不断调整优化 体积小、功耗低、计算性能高、计算效率 高、芯片出货量越大成本越低缺点 针对特定领域效率很低 价格贵、功耗高 成熟度较差,效率一般不够高 算法固定、开发周期长、上市速度慢、一 次性成本高、风险大专用性越来越强,特定领域效率越来越高图: 牧本浪潮 makimoto wave对通用和专用芯片的预测7数据来源: Jon Peddie Research,东吴证券研究所芯片行业特点:寡头格局,竞争壁垒高 在充分的市场竞争条件下,消费级芯片是一个非常典型的寡头市场。 在企业获得先发优势后,可以凭借较大的出货量平摊研发费用,而芯片的高技术壁垒导致研发及流片费用 在数千万美元 以上,竞争者很难进入。 CPU是英特尔和 AMD的天下, GPU是英伟达和 AMD的天下,手机(移动)芯片是高通和联发科的天下。 拥有消费市场是成为搅局者的重要因素。 苹果、特斯拉和华为海思都是凭借自身品牌形象,在手机和汽车领域拥有相当数量的消费群体后,开始进行芯片自研,这保证了芯片研发费用的分摊以及芯片更新迭代的动力。 汽车芯片是一个全新市场,同消费级产品不同的是,汽车对安全性、稳定性的要求更高,设计成本和流片成本相应也更高,市场的参与者主要是传统芯片行业巨头、创业公司以及车企。依靠高性价比获得销量分摊研发及流片费用进行下一代芯片的研发图:芯片行业逻辑 图:芯片成本构成 云(服务器、数字中心)和端侧(手机、智能汽车等移动端)场景中, AI芯片的运算方式有着本质性的差别:1. 云端处理大批量一次性到达的累积数据(扩大批处理量, batch size),车端芯片则需要处理 流数据 ,随着行驶(时间)陆续到来的数据;2. 云端处理可以“等”数据“够了”再开始处理,车端则需要实时完成计算,尽可能得 降低延迟 ,更勿论几秒钟的“等待”;3. 在云端,任务本身是限定在虚拟世界,无需考虑与现实世界的交互。在车端则身处现实世界,每一个任务都需要考虑 交互性 ;4. 功耗和成本 在车端 AI芯片的考量中也占据更重的分量。 因此,云端 AI芯片更侧重于数据吞吐量和支持多种 AI任务的要求,车端的 AI芯片则须保证很高的计算能效和实时性要求,能够实现端侧推断,以及低功耗、低延迟甚至低成本的要求。 我们认为,对于智能驾驶这个全新的场景来说,进行全新架构设计,才能更好地实现效率上的需求。人工智能:边缘芯片 VS云芯片资料 来源: Syslogic,东吴证券研究所图: 车端芯片及控制器示意图 图: 云服务器芯片及机箱示意图汽车芯片:从 MCU到 SoC9 在特斯拉之前,汽车芯片多是指 MCU芯片。 MCU芯片全称为 Micro controller Unit(微控制单元),又称为单片微型计算机或者 单片机 。它是一个是把 中央处理器的频率与规格做适当缩减 ,并将内存、计数器、 USB、 A/D转换、 UART、 PLC、 DMA等周边接口,甚至 LCD驱动电路都整合在单一芯片上,形成芯片级的计算机。通常 MCU只能完成较少的任务,例如开启智能雨刷,或是下车后自动落锁等等。因此,在豪车中可能拥有数百个 MCU,来实现各种智能化功能。 MCU只是芯片级的芯片,而 SOC是系统级的芯片,它集成了 MCU和MPU的优点,即拥有内置 RAM和 ROM的同时又像 MPU那样强大,它可以存放并运行系统级别的代码,即可以运行操作系统。 汽车开始经历像从功能手机到智能手机的升级。 在车辆电气化集中的趋势以及对智能化和娱乐化更高的要求下,原有的 MCU在算力上完全无法适应,因此像平板电脑或手机的高算力 SoC( System on Chip,片上系统)甚至是 PC所采用的高算力芯片开始逐渐被汽车行业所采用,汽车更像是大号的智能手机了。DMIPS: Dhrystone Million Instructions executed Per Second :主要用来衡量 CPU整数计算能力;TOPS: Tera floating-point operations per Second: 1TOPS代表处理器每秒钟可进行一万亿次( 1012)浮点运算操作 ,是衡量 AI运算能力的主要指标之一 。图:典型 MCU架构 图:典型 SoC架构资料 来源:极术社区, 东吴证券研究所智能驾驶芯片市场匡算10 由于智能驾驶芯片市场属于快速发展的时期,很多概念的定义尚未有非常客观的标准。我们参考了市面上的各种技术路线和预测模型,提出了我们的预测数据。 我们将具有以下任一功能的车辆归于高级别智能驾驶的车辆:高速领航、自动泊车以及城市领航。除此之外的辅助驾驶将归于低级别驾驶。 价格方面,我们结合了市场现有主流芯片的售价进行了大致的测算。 在以上假设下,我们测算,智能驾驶芯片市场会从 2021年的 19亿美元增长到 2025年的 54亿美元, 20212025的 CAGR为 30%。数据来源: IDC,东吴证券研究所测算表:车载芯片数量及预测2020A 2021A 2022E 2023E 2024E 2025E低级别智能驾驶汽车(万量) 1874 2392 2665 3018 3495 3900 低级别驾驶芯片组均价(美元) 20 23 25 28 31 34 低级别市场规模(亿美元) 4 6 7 8 11 13 2020A 2021A 2022E 2023E 2024E 2025E高级别智能驾驶汽车(万量) 896 1204 1414 1610 1843 2320 高级别驾驶芯片组均价(美元) 100 110 132 145 160 176 高级别市场规模(亿美元) 9 13 19 23 29 41 目录3、 英伟达:中高端车型的首选方案4、其他中外 竞争对手:创业公司 +传统汽车芯片公司111、自动驾驶芯片:人工智能领域的重要落地场景5 、风险提示2、特斯拉:软硬件一体化的代表特斯拉:给汽车行业带来全面的革新12 特斯拉颠覆了整个汽车行业,从自动驾驶、智能座舱、域控架构、三电系统,甚至到车辆的制造与装配,发展出了一套全新的方案。 从自动驾驶角度来看,特斯拉是目前唯一实现软硬件全自研的公司,且 可能是唯一一个 能够实现软硬件都自研的公司。 自研芯片的好处:( 1)芯片效率更高:从算法出发设计芯片架构,芯片的能耗比更优;( 2)可以更激进地尝试新方案:不需要通过第三方的车规级认证等复杂流程,只需要最终在车端对消费者负责,不需要在芯片端负责;( 3)一体化带来更快迭代速度:由于自动驾驶是个全新的领域,需要芯片、算法和车辆相互配合,这些环节特斯拉均在公司内部流转,迭代速度高于合作模式。自动驾驶智能座舱域控架构三电技术资料 来源: cnBeta, Autoweek, 电动邦,东吴 证券研究所图:自动驾驶说明图图:智能座舱示意图图:域控架构说明图图:三电技术说明图特斯拉:芯片的进化之路 特斯拉经历了早期使用黑盒方案的 Mobileye EyeQ3,到较为开放的 Nvidia Drive平台,再到如今的芯片自研,这期间的变化给我们非常好的观察汽车智能化迭代的窗口。13黑盒方案:权责不清数据归属权不明平台方案:芯片与算法的配合度差采用 PC芯片,智能座舱功能更强软硬件一体化:算法与芯片配合默契可以更好把控核心技术资料 来源:搜狐,东吴 证券研究所图:特斯拉历史进程 各类顶级芯片研发人员聚集,为特斯拉芯片自研奠定基础: 2016 年 1 月, Tesla从 AMD 挖来 传奇芯片架构师 Jim Keller,任命他为 Autopilot 硬件工程副总裁。 Jim是芯片界传奇人物,曾效力于 DEC、 PA semi( Apple收购以后才得以由能力研发自家处理器 A 系列)、 AMD 、 Apple,曾参与设计速龙(Athlon) K7 处理器和苹果 A4/A5/A6 处理器,是速龙 K8 处理器的总架构师,还是制定 X86-64指令集者之一。 2016年 2月, Tesla又从 Apple招到了 研发总监 Pete Bannon, Pete 是 A5 芯片核心的设计工程师,在那之前他是 PA Semi 的架构与验证副总裁。同时期,同样来自 AMD 的 谷俊丽 ,在Autopilot 硬件工程团队下开始组建机器学习小组,这个小组有两个任务:一个是搭建第二代自动驾驶硬件上的 AI 算法和机器学习软件,另一个是参与设计 FSD 芯片的架构和上面的软件。 采用以深度神经网络为主的人工智能模型,再加上车端收集的大量数据,特拉斯 ADAS水平迅速提升: 基于全新深度神经网络的视觉处理工具 Tesla Vision是 Autopilot团队抛开 Mobileye、从零搭建的一套视觉处理工具,它的背后,是全新的底层软件技术架构和云端大数据基础设施。 Tesla Vision能够对行车环境进行专业的解构分析,相比传统视觉处理技术可靠性更高;借助 Tesla售出的车辆搜集的大量数据,反过来又可以对 Tesla Vision的神经网络进行训练和改进,进一步优化 Autopilot。 除车端芯片 FSD的研发外,特斯拉也开始涉足云端训练芯片,试图打通车云系统。 从算力来看,其 1.09EFLOPS的算力水平和 Nvidia用 4096块 A100构建的集群( 1.28 EFLOPS); Huawei用 4096块 Ascend 910构建的集群( 1.05 EFLOPS); Google用 3456块 TPU v4构建的集群( 0.95 EFLOPS)相比,已经不相上下。当然其对称式的设计理念,可能给超算领域带来全新技术路线的可能性。 我们认为,特斯拉的芯片自研的成功,是天时地利人和共同作用的结果,竞争对手的可复制性很弱,主要原因有:( 1)芯片顶级研发人才很难被车企所招聘。特斯拉有很大程度是因为马斯克的个人魅力因素,才说服顶级芯片研发人员加入( 2)自研芯片风险极高, 前期投入较大( 3)如果不能保证使用的数量,则自研芯片性价比很低。因此,对于绝大多数车企来讲,外购芯片才是更好的解决方案。芯片自研:一条难以复制的技术路线14FSD芯片:从算法需求倒推芯片架构,软硬件一体化实现高效算力主要部件 主要功能 特点CPU 负责通用数据处理和计算 Cortex-A72架构,三组、每组 4个核心GPU 负责图形显示以及 NPU无法处理的数据信息,确保车规级安全性 Mali G71 MP12 GPU,支持 FP32和 FP64NPU(ASIC) 负责深度学习以及预测功能,是主 要负责计算功能的芯片2个 NPU,每个 NPU中有一个 9696的MAC矩阵,支持多种激活函数。包含了32MB的内置 SRAM,减少数据向主存储器的移动,有助于降低功耗。ISP图像信号处理器( Image signal processor),针对 Tesla配备的八个 HDR传感器而设计,可以每秒钟处理十亿像素的图像信息。在处理中还加入了色调映射等功能,并且允许芯片自主处理阴影、亮点、暗点等细节,还加入了降噪设计Video Encode可以用于备用摄像机显示、行车记录仪和云剪辑视频等内容,仅支持 H.265( HEVC)其他 MPEG、H.264等不支持,精简了不少芯片规模安全 /加密模块安全模块中包含了一个双核同步CPU,用于对汽车执行器的最终仲裁;加密模块执行的功能是确保FSD Computer只执行经过 Tesla签名授权的代码,保证系统的安全性。安全性和隐私性都得到了保障 FSD芯片从算法需求出发,进行了芯片架构设计。 其核心技术来源于由两颗 NPU组成的 NNA( Neural Network Accelerator,神经网络加速单元)系统。 FSD芯片于 2019年正式流片,代工厂为三星,采用 14nm工艺,整个芯片约有 60亿颗晶体管组成。15资料 来源:博客园, wikichip, 东吴 证券研究所图:芯片示意图表:部件功能及特点 在每个计算周期, NPU都会从内置的 32MB SRAM中读取 256字节的激活数据和另外 128字节的权重数据组合在一起进入乘法累加( Multiply Accumulate, MAC),每个 NPU都有一个 96x96MAC阵列。在完成了 MAC的乘法累加运算后,数据将会被转移到激活( Activations)以及池化部分( Pooling),并等待写入缓冲区汇总结果。在保障 NPU具备强大运算能力的同时,对于它的功耗和成本优化 Tesla也做了不少的努力。 NNA 设计了非常大的片上 SRAM缓存,相较于 Google的 TPU,采用了256256的 MAC,只有 24MB的 SRAM。对于这种特殊的设计, Tesla解释这样做是为了让数据尽可能地在片内周转,而不用频繁地与内存或者其他模块进行读写操作。这样做不但可以提高性能,还可以有效降低功耗,因为( 1)所有数据都在片上完成( 2) NNA处理的神经网络计算并不需要太高的精度,所以设计的芯片只支持 8位乘以 8位整数乘法和 32位整数乘法,不支持任何浮点计算,也无需支持任何其他格式,还可以在很大程度上降低功耗(浮点运算的 32位加法器功耗大约是支持整数计算的 32位加法器的 9倍)。 除了上述计算过程外, Tesla在 NNA的设计中还偏向于将硬件简化,并复杂化软件,这样做可以降低芯片成本。 比如软件可以映射和分配单个 SRAM库,在 Tesla的神经网络编译器的帮助下,还可以执行层融合操作,通过耦合 conv-scale-act-pooling操作允许数据重用。编译器还可以通过执行层平滑处理来确保数据一致的内存访问操作,还可以加入代码压缩、 CRC校验等功能,保证数据的可靠性。在指令方面, Tesla认为之前一些 NNA的设计方案在缓存、寄存器以及逻辑控制方面消耗了大量能量,于是简化逻辑控制,设计了一个简单的指令集:包括 DMA Read、 DMA Write、 Convolution、 Deconvolution、 Inner-product、 Scale、 Eltwidth、Stop,流程控制更是只需要配置 4个信息,简化了操作,可以将资源跟多集中在计算方面。NNA核心体现了成本和功耗的优化16资料 来源: CNBlogs, 东吴 证券研究所图: NPU说明图 图:特斯拉的 NNA设计自动驾驶域:硬件成本约占整体硬件成本的 3.5%项目 型号 供应商 简介 数量 参考价 (人民币 )LPDDR4 8BD77D9WCF 美光 1GB 8 30以太网交换 88EA6321 Marvell 1 360UFS THGAF9G8L 2LBAB7 东芝 32GB 2 55GPS模块 NEO-M8L-01A-81 U-BLOX 1 320解串行 DS90UB960 德州仪器 2 110解串行 DS90UB954 德州仪器 1 40电源管理 MAX20025S Maxim 2 30MCU TC297t 英飞凌 1 260启动 Flash S512SD8H21 Cypress 512Mb 1 50以太网 PHY (估 ) 88EA1512 Marvell 2 130FSD UBQ01B0 特斯拉 三星代工 2 1500 特斯拉自动驾驶硬件成本估算: 特斯拉自动驾驶域的芯片成本约为 5000元,加上外围电路板以及组装、测试成本(组装 厂为中国台湾广达集团), 我们预估总体成本约为 8000人民币,如果以特斯拉的 毛利率计算 ,假设 Model 3的成本为 22.9万元,那么自动驾驶域的成本占特斯拉整车成本约为 3.5%。17资料 来源: Oktesla, 东吴 证券研究所表:项目情况统计图:硬件示意图目录3、 英伟达:中高端车型的首选方案4、其他中外 竞争对手:创业公司 +传统汽车芯片公司181、自动驾驶芯片:人工智能领域的重要落地场景5 、风险提示2、特斯拉:软硬件一体化的代表拥有自动驾驶软硬件解决方案的供应商19资料 来源: CNBeta,与非网,东吴 证券研究所 拿智能手机行业做对比,如果把特拉斯看作汽车界的苹果,那么英伟达可类比为汽车界的高通 +安卓。 英伟达将人工智能领域的优势拓展到智能驾驶领域并拥有近十年的探索经验。 GPU的并行架构适合人工智能领域的计算需求,英伟达敏锐的抓住这个特点,成为人工智能芯片及软件工具链的主要供货商。在进行人工智能领域探索时,英伟达开始涉足智能驾驶及机器人业务,并在该领域拥有近十年的开发经验。 平台化芯片 +完善的工具链是英伟达芯片的主要特征。 虽然拥有容易上手的开发工具,但 较高学习门槛 和 自研智能驾驶算法的花销 可能会阻挡中小客户的使用。硬件优势: GPU架构兼顾效率与通用性: 效率高于 CPU,通用性强于 ASIC;设计壁垒高,垄断性强 用户基数保证规模效应: 与其他业务平摊研发成本,版本迭代快,持续保证性能优势 端到端的解决方案: 车端到云端训练基于同样架构软件(工具链)优势: 开放平台模式: 客户可进行算法自研 软件工具链丰富: 开发了全套软件工具链(公司软件工程师占比超过 70%),不仅通过软件开发推动硬件的优化设计,还给用户提供丰富的示例与教程,帮助用户快速上手使用图:硬件示意图 图:软件说明图汽车芯片与其他业务保持协同20资料来源:公司官 网,维科网,东吴 证券研究所PC: RTX3080专业图显: Quadro数据中心: A100汽车(嵌入式): Orin核心架构核心架构 时间 消费级代表产品 的晶体管数量 主要特点Tesla 2008年 14亿 第一个统一着色器微架构、 首次引入 CUDA单元 、首次支持 DX10、搭载着色器模型 4.0Fermi 2010年 30亿首次支持 DX11、支持 GDDRS显存、双精度浮点性能提升、支持 ECC和统一 64位内存寻址Kepler 2012年 71亿 能效翻倍、支持 PCIe 3.0、动态并行计算、搭载极致流式多处理器,支持 GPU动态超频Maxwell 2014年 80亿 能效翻倍、支持 DX12和 SMM流处理器、搭载动态高分辨率技术Pascal 2016年 153亿 搭载 HBM、 NV link、 GDDR5X显存和 GPU动态超额 3.0技术Volta 2017年 211亿搭载第一代 Tensor单元 、第二代 NV link和HBM2、支持多处理服务、搭载深度学习优化流式多处理器Turing 2018年 186亿搭载第二代二代 Tensor单元、 第一代 RT单元 、 GDDR6显存和 HBM2、 支持深度学习超采样 DLSSAmpere 2020年 283亿搭载第三代 Tensor单元、第二代 RT单元、GDDRX6显存和 HBM2、支持深度学习超采样 DLSS和 PCIe4.0Hopper 2022年 / / 英伟达从帕斯卡到安培架构都以 高拓展性 为核心目标:1. 支持尽可能多种类的神经网络结构以保证算法的 正确率和泛化能力 ;2. 支持能够识别广大数字范围的浮点运算, 以保证较大的 数据吞吐量;3. 支持阵列式结构以能够连接更多的处理单元,以进一步 加大可计算的数据规模 。落地到硬件技术上, Tensor core和 Cuda core并行,以及从 INT1到 FP64的数据精度范围等一系列革新技术,都以支持上述目标为目的。硬件架构:拓展嵌入式移动芯片到汽车领域21 英伟达专注提供高性能服务,借助嵌入式移动芯片,拓展汽车市场。 在智能手机兴起的 2008年时,英伟达试图进入移动芯片市场。为此,公司开发了 Tegra系列芯片,采用了 ARM的 CPU架构,并集成了自家的 GPU芯片,组成了一套 SOC系统。早期的 Tegra芯片注重功耗及效率的表现,主要用在微软的一款 MP3和 Kin手机、小米 3手机上,但后由于基带问题逐渐退出手机市场;后期则更专注于提供高性能,其典型产品是任天堂的 Switch,英伟达的 Tegra X1给任天堂 Switch带来了极高的画面体验。由于自动驾驶中对于画面的实时处理要求很高,因此后续的 Xavier以及 Orin系列也开发了相应的车规级芯片。从移动芯片的发展轨迹来看,英伟达的CUDA核心数量也快速增长, RAM的容量和带宽也迅速提高,移动芯片的性能始终保持竞争优势。表:英伟达移动芯片发展历程数据来源:公司官网,维基百科英伟达词条,东吴证券研究所芯片名称 Tegra 2 Tegra 3 Tegra 4 Tegra 4i Tegra K1 Tegra X1 Tegra X2 Xavier Orin AtlanCPU指令集 ARMv7-A (32 bit) ARMv8-A (64 bit) ARMv8.2-A (64 bit) ARMv9内核 2 A9 4+1 A9 4+1 A15 4+1 A9 4+1 A15 2 Denver 4 A53 + 4 A57 2 Denver + 4 A57 8 Nvidia Carmel 12 Arm Cortex-A78AE Nvidia Grace-NextL1级高速缓存 32/32 KB 128/ 64 KB 32/ 32 KB + 64 / 32 KB128/64 KB + 48 / 32 KB64/64 KB / /L2 级高速缓存 1 MB 2 MB 128 KB + 2 MB 2 MB + 2 MB 8 MB / /L3 级高速缓存 NA 4 MB / /GPU 架构 Vec4 Kepler Maxwell Pascal Volta Ampere HopperCUDA核心数 4+4 8+4 48+24 48+12 192 256 512 2048 /RAM缓存协议 DDR2 DDR3/ DDR3 LPDDR4 LPDDR4/LPDDR4X LPDDR5 LPDDR5X容量 1 GB 2 GB 4 GB 4 GB 8 GB 8 GB 8 GB 32 GB / /带宽 2.7 GB/s 6.4 GB/s 7.5 GB/s 14.88 GB/s 25.6 GB/s 59.7 GB/s 136.5 GB/s 200 GB/s /制程 40 nm 28 nm HPL 28 nm HPM 20 nm SOC 16 nm FF 12 nm FFN / /上市 SOP时间 2010 2013 2014 2015 2016 2022 /平均终端售价(美元) / / / / 100150 300? /代表产品 2009年微软 Zune、 Kin手机; 2012款奥迪车载影音; 2012版特斯拉 Model S车载 系统;小米 3手机 任天堂 Switch; 2016版特斯拉 汽车自动驾驶平台计算平台:可采用多种搭配,灵活度高22表:英伟达车载 AI芯片平台发展历程数据来源:公司官网,维基百科英伟达 Drive词条东吴证券研究所 产品自由度高,客户可根据需求选择合适的芯片平台方案。 在 Tegra系列芯片的基础上,英伟达集成了一些特殊功能的 GPU以及辅助芯片,推出了英伟达 Drive系列车载 AI芯片平台。早期的车载 AI芯片平台与单个移动芯片差别不大,但随着车载系统的要求不断多样化,英伟达 Drive系统也增加了很多选择。例如 Drive PX Xavier仅配备了一块 Xavier芯片,其算力为 30 TOPS,功耗仅为 30W,适合用在 L2级的量产车型中,例如小鹏 P7就采用了此款车载芯片平台;对于 L4级车辆的车载 AI芯片平台,仅仅一个 Xavier芯片算力不够,因此采用了两个 Xavier芯片加上两个图灵架构的 GPU,使算力达到了 320TOPS,其功耗也增加到了 500W;蔚来希望打造自己的计算平台,因此从英伟达这里选购的是独立的 Orin芯片。不同的客户可以依照不同的使用场景选择适合的产品 ,这较大地 增加了英伟达车载 AI芯片的使用场景。图 :英伟达车载芯片平台系统示意图车载系列名称 Drive CX Drive PX Drive PX 2 (Auto Cruise) Drive PX 2 (Tesla) Drive PX 2 (Auto Chauffeur) Drive PX 2 (Tesla 2.5) Drive PX Xavier Drive PX Pegasus Drive AGX Orin发布时间 2015年 1月 2016年 9月 2016年 10月 2016年 1月 2017年 8月 2017年 1月 2017年 10月 2019年 12月芯片构成 1* Tegra X1 2* Tegra X1 1*Tegra X2 (Parker) + 1*Pascal GPU2* Tegra X2 (Parker) + 2* Pascal GPU2* Tegra X2 (Parker) + 1x Pascal GPU1* Tegra Xavier2* Tegra Xavier + 2* Turing GPU2* Tegra Orin2* Tegra Orin + 2* Ampere GPU算力 / / 4 FP32 TOPS 4 FP32 TOPS 8 FP32 TOPS 4 FP32 TOPS 30 INT8 TOPS 320 INT8 TOPS 400 INT8 TOPS 2000 INT8 TOPS 功耗 / 20W 40W 40W 80W 60W 30W 500W 130W 750W代表产品 / / / 2016款特斯拉 英伟达自动驾驶 训练 / 2020款小鹏 P7 英伟达自动驾 驶训练 2022款蔚来 ET7 英伟达自动 驾驶训练总算力 = CUDA Core 算力 + TENSOR Core 算力CUDA Core 算力 = 主频 x SMs数(流处理器单元) x 每个 SM可以计算的最高乘加 x 2 FLOPSTENSOR Core 算力 = 主频 x SMs数 x Tensor Core num Per SM x 64 x 2 FLOPS 软件及系统:易于上手且生态丰富23 不仅算力领先,英伟达易于上手的 软件工具链很大地 了方便了芯片使用者的开发过程,从 DRIVE OS到 DRIVEWORKS、 DRIVE AV、 DRIVE IX,英伟达软件工具链有着极为丰富的功能: 同数据中心基础芯片类似,英伟达十分重视对软件工具链的开发。英伟达不仅花费了大量的研发资金,成立了测试小组专门改装了车辆以提高英伟达的芯片及相关软件工具链的安全性与稳定性,还积极听取客户的意见并对相关要求作出回应。在不断的测试中,软件工具链的可用性也不断提高。安全、可靠且易用的软件工具链不仅可以让软件开发人员快速上手并熟练掌握芯片的调用技巧,还可以保证软件的不会在汽车这个安全性要求极高的领域出现差错,这也是整车厂采用英伟达方案的主要原因之一。英伟达的软件还有一个特点是其软件开放性高。 有丰富软件开发能力的客户可以从底层操作系统开始自行研发,而初入此领域的客户可以从较上层的应用软件开始研发,底层使用英伟达搭建的通用系统。 英伟达灵活的使用方案适配性强,潜在 客户数量较大。图:英伟达汽车软件相关的支持模块数据来源:公司官网,东吴证券研究所软件工具链生态丰富24数据来源:公司官网,东吴证券研究所解决方案 功能 合作商 其他公司方案
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642