资源描述
行业研究 丨深度报告 丨软件与服务 Table_Title 人形机器 人深度报 告:具身 智能奇点 渐进,产 业链有望重 构%1 请阅读最 后评级 说明和 重要声 明 2/25 丨 证券研 究报告 丨 报告要点 Table_SummaryAI 大模型的演化经历了从单模态到多模态,再到世界模型、AGI 的过程,而具身智能是 AI 模型演进的关键节点。随着通用基础模型的不断进化,具身智能的时间节点即将到来。特斯拉、谷歌、OpenAI、英伟达等巨头分别从硬件、软件、芯片和中 间件入手布局人形机器人领域。总体来看,可以 将其分为自下而上和自上而下两条路径。两方从硬件降本和机器人大脑两个核心痛点出发,发挥各自优势,占据市场领先地位。分析师及 联系人 Table_Author 宗建树 范超 SAC:S0490520030004 SAC:S0490513080001 SFC:BQK473%20YBYzQmRtQmNoQsRsPsNqR7NbP6MsQpPsQnRjMrRqMeRsQnQ6MnMmNwMmNsPuOtQnR 请阅读最 后评级 说明和 重要声 明 丨证券研究报告丨 更多研报请访问 长江研究小程序 软件与服务 Table_Title2 人形机器人深度报告:具身智能 奇点渐进,产业链 有望重构 行业研究 丨深度 报告 Table_Rank 投资评 级 看好丨维 持 Table_Summary2 具身智 能节 点即 将到 来 AI 大模型的演化经历了从单模态到多模态,再到世界模型、AGI 的过程,而具身智能是 AI 模型演进的关键节点。随着通用基础模型的不断进化,具身智能的时间节点即将到来。具身智能模型需要具备五种关键能力,包括低复杂场景的多模态感知能力、自主可靠决策能力、实 时精准运控能力,以及高复杂场景的泛化能力和涌现能力。随着机器人算法的迭代,Optimus 等机器人已经较好的掌握了前三种能力;而随着通用大模型的技术推进,高复杂场景所需的泛化能力和涌现能力也在逐渐提升过程中。泛化性是阻碍机器人大规模应用的核心痛点,模型侧是核心瓶颈。当前机器人模型处于 VLM 向VLA 转换的阶段,有望解决机器人模型泛化能力不足的缺点。VLA 方案是完整的端到端模型,具备较高的运行效率。阻碍 VLM 向 VLA 进化的主要瓶颈在于动作数据对齐样本较少。从现状来看,端到端模型指令生成速度慢,生成结果简单,短期仍 需依靠两套系统分别完成决策与控制任务。放眼未来,机器人大脑在一段时间内或采用云端大脑与端侧模型并行的技术路径。巨头纷 纷入 局具 身智 能 随着 AI 基础模型技术持续迭代,特斯拉、谷歌、OpenAI、英 伟达 等巨头也发现了人形机器人的潜在商业机会,分别从硬件、软件、芯片和中间件入手布局人形机器人领域。早在 2021 年的 Tesla AI Day,特斯拉就宣 布其在研发人形机器人 Optimus;随后的几年时间,Optimus 经历了多轮的迭代,机动性和灵活性得到了大幅度提升。谷歌从 2022 年开始,在软件层面 推出了一系列机器人模型,包括 SayCan、Gato、RT-1、PaLM-E、RoboCat、RT-2 和 RT-X,逐步实现了模型自主可靠决策、多模态感知和实时精准运控能力的结合,同时展现出泛化能力和思维链能力。OpenAI 主要通过 模型赋能与投资相关企业的方式布局人形机器人行业。OpenAI投资了人形机器人初创公司 1X Technologies 和 Figure AI,并和 Figure AI 合作推出了 Figure 01 机器人。英伟达 从芯片和中 间件层面布局具身智能产业链,发布了 Jetson 系列边缘计算 芯片、GROOT 机器人基础模型 以及 Issac 软件开发平台,为 机器人 开发者提供了丰富的算力资源以及开发 方案。两条商 业路 径:自下 而上 与自上 而下 从行业整体来看,布局人形机器人的巨头可以分为自下而上和自上而下两条路径,分别以特斯拉和谷歌、OpenAI 为代表。两 方从硬件降本和机器人大脑两个核心痛点出发,发挥各自优势,占据市场领先地位。在软件算法层面,特斯拉机器人复刻了智能驾驶算法的开发模式,由规则驱动转向数据驱动。在人形机器人领域,特斯拉或复刻 汽车 的产品节奏,首先将人形机器人用于高价值量核心场景,待商业循环形成之后,再通过降本的方式逐步提升产品渗透率,并且 在落地过程中找到成本与智能化的平衡点。谷歌与 OpenAI 在 模型领域拥有深厚的技术壁垒,但缺少硬件领域相关能力。因此 两家厂商在未来或选择与机器人制造厂商合作,以软件服务商的角色赋能机器人 OEM 厂商。风险提 示 1、人形机器人技术发展不及预期;2、人形机器人产品需求不及预期。Table_StockData 市场表现 对 比图(近 12 个 月)资料来源:Wind 相关研究 Table_Report 算力产业跟踪:移动采购 招标出炉,智 算需求持续高增2024-04-22 关键词:能源 IT2024 年第 16 周计算机 行业周报2024-04-22 推进自主生态构建,华为未 来战略重点 2024-04-22-46%-27%-8%11%2023/4 2023/8 2023/12 2024/4软件与服务 沪深300 指数2024-04-24%3 请阅读最 后评级 说明和 重要声 明 4/25 行业研究|深度报 告 目录 具身智能节点即将到来.6 巨头纷纷入局具身智能.10 特斯拉:从 硬件 入手.11 谷歌:从软 件入 手.13 OpenAI:模 型赋 能与 风险 投资.16 英伟达:从 芯片 与中 间件 入手.17 两条商业路径:自下而上与自上而下.18 特斯拉:自 下而 上.18 谷歌 与 OpenAI:自上 而下.21 投资指导.22 风险提示.23 图表目录 图 1:AI 模型的 演进方 向.6 图 2:制造 业机器 人的四 个 发展阶段.7 图 3:机器 人实现 从第二 产 业向第三 产业渗 透(2022 年).7 图 4:随着 模态增 加,模 型 应用场景 相应扩 充.8 图 5:VLA 是 端到端 的机器 人系统,具备较 高的运 行效 率.8 图 6:VLA 模 型需要 投喂大 量语言-图像-动作对 齐数据.9 图 7:机器 人模型 的两条 技 术路径.9 图 8:云端 大脑与 端侧模 型 特点对比.10 图 9:人形 机器人 产业链 图 谱.10 图 10:布 局人形 机器人 的 科技巨头,以特 斯拉、谷歌、英伟达 为例.11 图 11:特 斯拉人 形机器 人 系统移植 了 FSD 智 驾系统.12 图 12:特 斯拉 HW3.0 智驾 芯片.12 图 13:Dojo 超算平 台为特 斯拉带来 了什么.12 图 14:到 2024 年 10 月 Dojo 超 算平台 算力有 望达到 100EFlops.12 图 15:英 伟达 NVlink 架构.13 图 16:特 斯拉 Dojo 超 算中 心结构.13 图 17:RT-Trajectory 使用 粗略的轨 迹草图 来提高 机器 人学习任 务的泛 化能力.15 图 18:SARA-RT 把多模 态 模型的二 次方计 算复杂 度简 化成线性 计算复 杂度.15 图 19:超 过 20 个 机器人 使 用 AutoRT 自 主收集 现实世 界数据集.16 图 20:Figure 01 机 器人初 步实现了 具身智 能.17 图 21:英 伟达 Jetson 边缘 计算芯片.17 图 22:通 用机器 人模型 GROOT.17 图 23:ISSAC 数 字孪生 系 统提升了 机器人 可用训 练数 据规模.18 图 24:特 斯拉 FSD V12 彻 底重塑了 智能驾 驶系统 逻辑.19 图 25:L3 级的 人形机 器人 算法转向 数据驱 动.19%4f+BKgwEaBuzbzN4tf/3Z28iCYydMK33bsDsO0TSEcfYsUo4BM0+avFV7Oq33CpoI 请阅读最 后评级 说明和 重要声 明 5/25 行业研究|深度报 告 图 26:特 斯拉纯 视觉传 感 器方案.20 图 27:特 斯拉采 用了从 高 溢价到平 价的产 品发布 路线.20 图 28:特 斯拉 Model 3/Y 历史价格 走势.20 图 29:特 斯拉汽 车在落 地 过程中找 到成本 与智能 化的 平衡点.21 图 30:安 卓给主 机厂做 智 能手机的 系统赋 能与生 态运 营.22 图 31:人 形机器 人产业 链 图谱.22 表 1:具身 智能模 型需要 具 备五种关 键能力.6 表 2:特斯 拉机器 人发展 的 关键节点.11 表 3:谷歌 机器人 模型持 续 迭代,能 力日益 拓展(能力 强弱为主 观定义).14 表 4:OpenAI 参 与的 人形 机器人领 域相关 融资.16%5 请阅读最 后评级 说明和 重要声 明 6/25 行业研究|深度报 告 具身智能 节点即 将到来 AI 大模 型的演化 经历了 从单模态到多模态,再到世界模 型、AGI 的过程。AI 大模型的演化可以 简单分为三个阶段:1)早期阶段,AI 模型各模态独立发展,各自具备一定程度的泛化能力,但难以建立模 型之间、模态之间的 生成与推 理能力。2)第二阶段,各模型之间的壁垒被打通,语言、视觉、听觉、动作等 模态之间得到了较好的融合,可以完成跨模态的生成与推理任务。3)第三阶段,模型具备了 与环境 交互的能力,可以主动探索未来世界,实现自我迭代,从具身智能向 AGI 迈进。图 1:AI 模型 的演进 方向 资料来源:甲子 光年,长江证 券研究 所 具身智能是 AI 模型演进的关 键节点。在 AI 大模型发展的过程 中,具身智能是其关键节点之一,也 是实现 AGI 的必经之路。具身智能是一种能够在物理世界中感知、理解和主动 参 与的 智 能体。这 种 智能 体不 仅 能够 处 理多 种类 型 的输 入,如 视觉、听觉 和触 觉 等,还能够通过与环境的交互来获取知识、提高智能水平。因此,具身智能 建立在多模态模型统一理解和生成的能力上,可以实现模态融合与任务融合。随着通用基础模型的不 断进化,具身智 能 的时间 节点即将到来。具身智能模型 需 要具备 五种关键能力,包括低复杂场景的多模态感知能力、自主可靠决策能力、实时精准运控能力,以及高复杂场景的 泛化能力和涌现能力。随着机器人算法的迭代,低复杂场景所需的三种能力已经基本解决,Optimus 等机器人已经较好的掌握了前三种能力;而随着通用大模型的技术推进,高复杂场景所需的泛化能力和涌现能力也在逐渐提升过程中。表 1:具身智 能模型 需要具 备五种 关键能力 场 景 能 力 能力 简 介 低复杂度 场景 多模态感 知能力 通过摄像 头、雷达等 传感器 实时获 取、理解和关 联 外界 环境信 息,并 对数据实 时 过滤、编 码,投喂 至中 央大脑 自主可靠 决策能 力 将感知数 据投喂 进深度 学习模 型/大 模型算法,通过规 则驱动/数据 驱动,将高层级 的任务 分解为 可执行/可靠的子任 务,做 出任务 规划和 行动 指令 实时精准 运控能 力 以任务目 标为导 向,结 合动态 反馈 的多模态 感知信 息,实 时精准 地完 成运动控 制 多模理解多模生成GPT-4VDALLE3,Sora多模态模型统一理解和生成GPT-5?语言模型视觉模型声音模型GPT-4Whisper世界模型 AGI通往AGI 的路径方向早期阶段各个模态独立发展当前阶段多模态融合:模态融合&任务 融合未来阶段主动探索物理世界模型能力Q*超级对齐System2:复杂任务 规划抽象概念归纳具身智能环境交互figure.ai%6 请阅读最 后评级 说明和 重要声 明 7/25 行业研究|深度报 告 高复杂度 场景 泛化能力 搭载多模 态大模 型的机 器人具 备一 定的泛化 能力,可以 在复杂 场景大 幅度提升 决策的 准确度,减少 Corner Case 的发 生 思维链能力 在现实世 界中,机器 人难以 一次性 完成整个 复杂动 作,思维链 能力可以 将复杂 动作拆 解成多 个简单 步骤 完成;此外,机 器人在 任务过 程中会 受到各种 干扰,环境也 会不断 变化,思维链 能力 可 以让机 器人在 任务 过程中不断 调整任 务目标 资料来源:长江 证券研 究所 泛化性是 阻碍 机 器人大规模应用的核心 痛点,模型侧是核心瓶颈。传统机器人在流程制造业的应用已较为成熟,因此 人形机器人大规模应用的 核心 场景在于离散制造业和服务业,两者都需要具备较强的泛化能力。目前工业机器人虽然技术成熟,但 只能根据算法规则做出相应的判断,无法面对复杂性较高的场景,泛化能力较低,因而 不适应现代制造业柔性生产的需要。相比之下,人形机器人由具身智能大脑驱动,不仅可用于高复杂性场景,还能在环境沟通中自主学习。未来 人形机器人有望 作为工业机器人的补充,与工业机器人共同推进制造业的智能化发展。图 2:制造业 机器人 的四个 发展阶 段 图 3:机器人 实现从 第二产 业向第 三产业渗 透(2022 年)资料来源:Intelligent humanoids in manufacturing to address worker shortage and skill gaps:Case of Teslas Optimus Malik A.et al.,长江 证券研 究所 资料来源:ZDNET,Tesla 官 网,达 闼 官网,Wind,长江证 券研究 所 当前机器人模 型 处于 VLM 向 VLA 转换的阶段。目前大语言模 型(LLM)已有较高的成熟度,图像-语言多模态模型(VLM)也在快速迭代的过程中;而随着图像-语言-动作多模态模型(VLA)的推出,大模型实现了数据与处理任务的跃升。从 LLM 到 VLM 再到VLA,大模型的数据模态逐渐丰富,数据规模的数量级迅速 增长,大模型的应用场景和价值量也成比例扩张。%7 请阅读最 后评级 说明和 重要声 明 8/25 行业研究|深度报 告 图 4:随着模 态增加,模型 应用场 景相应扩 充 资料来源:长江 证券研 究所 VLA 方案是完整 的端到端模型,具备 较高的 运行效率。传统 的机器人算法系统由感知、决策规划、控制三个模块组成,执行流程需要经过两个接口。在机器人活动过程中,每个接口 都要输出一个“Hard Decision”作为下一个 模型的“Prompt”输入,每多一个接口就会多一个 信息损耗的 过程。此外,接口的存在导致大模型只能正向传导信息,无法反向 推导思维链。因此,减少接 口数量不仅能提高模型 性能,也能提升系统稳定性。VLA模型将感知、决策、控制三个模块结合,形成一个完整的端到端的系统,是最接近具身智能的形态。图 5:VLA 是端 到端的 机器人 系统,具备 较 高的运 行效率 资料来源:长江 证券研 究所 阻碍 VLM 向 VLA 进化的主要瓶颈在于动作 数据对齐样 本较少。相比于 VLM 模型,VLA把机器人动作数据也作为一种模态融入大模型算法,因此可以用单个模型完成感知、决策、控制 全 流程 计算。将动 作数 据 作为 模 态融 入后,机器 人动 作 将成 为 思维 链的 一 环,因此决策与控制的衔接更流畅,更具逻辑性。目前 VLA 方 案的瓶颈在于三种模态的 对其数据 集较为稀少,难以训练出高性能的 VLA 模型,未来 仍 需要机器人实体操控与数字孪生方面的 长期积累。LLM VLM VLA文本处理任务 文生图、图像理解 任务 现实世界任务ChatGPT、Claude、LLaMA 等PaLM-E、GPT-4V 等 RT-2 等模态拓展数据 规模扩大应用场景 扩张模态拓展数据 规模扩大应用 场景扩张感知 规划决策 控制感知+规划决策 控制感知+规划决策+控制传统算法VLM 方案VLA 方案HardDecisionHardDecisionHardDecision%8 请阅读最 后评级 说明和 重要声 明 9/25 行业研究|深度报 告 图 6:VLA 模型 需要投 喂大量 语言-图像-动作对 齐数据 资料来源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,Brohan,et al.,长 江证券 研究所 端到端 模型指 令 生成速度慢,生成结果简单,短期仍 需 依靠两套系统分别 完成决策与控制任务。目前主流机器人大模 型偏向于任务理解和拆分,对于机器人运动控制的涉及较少,只是用端到端的训练方式生成了简单且离散分布的机械臂末端位置和底盘移动指令,未考虑连续路径和轨迹规划等更偏机器人领域的内容。以 RT-2 为例,RT-2-PaLI-X-55B 只能做到 1-3Hz 的指令 生成速度,在移动马克笔的任务中,因为其运控速度远低于马克笔的滚动速度而失败;并且其生成的运动指令只是机械臂的末端位置和姿势,未涉及传统机器人运控范畴。因此,目前机器人大模型更擅长任务级和技能级的控制,传统机器人算法擅长底层运控。以 Figure 01 为例,Figure 01 机器人采用了 VLM+控制小模型方案,VLM 部分由 OpenAI 赋能,频率达到了 200Hz,下游连接的控制小模型负责机器人的运控,指令生成速度达到 1kHz,可以较好应用于现 实场景。图 7:机器人 模型的 两条技 术路径 资料来源:高工 移动机 器人,长江证 券 研究所 机器人模型部署 包含云 端大脑和端侧 模型两 条路径。当前条 件下,如何平衡云端的计算延迟与端侧的算力不足是 机器人 AI 大脑的核心矛盾之一。一方面,云端大脑受数据传输速率影响,计算频 率往往只有 1-3Hz,导致机器人动作高 度时延,不 利于日常 作业,因此机器人部分计算 必须由端侧模型完成。另一方面,受限于端侧 芯片的算力不足,目前超过百亿参数的模型难以 下沉至 端侧与边缘测,因此 端侧模型 的参数量需要压缩至百多模态大模型两条技术路线VLM+运控算法时延较低决策能力弱执行成功率高一体化VLA时延较高决策能力强执行 成功率低SayCanPaLM-ERT-2RoboCat%9 请阅读最 后评级 说明和 重要声 明 10/25 行业研究|深度报 告 亿级 以下才具备实用价值。放眼未来,机器人大脑在一段时间内 或采用云端大脑与端侧模型并行的 技术路径:端侧 VLA 模型有望蒸馏至百亿以下,主要负责日常低时延任务场景,同时端侧芯片算力也得到大幅度提升;云端 大脑通过算力集群搭配千亿级别 VLA模型,辅助负责需要高泛化 能力 的场景。图 8:云端大 脑与端 侧模型 特点对 比 资料来源:RT-2:Vision-Language-Action Models Transfer Web Knowledge to Robotic Control,Brohan,et al.,Figure AI X 账号,长 江证券 研究所 巨头纷纷 入局具 身智能 具身智能将带 来 产业链 的重构。传统的机器人产业链主要分 为上游的零部件供应商、软件系统提供商、中游的设备制造商和下游的应用场景。而在具身智能时代,机器人产业链或 将发生重大变化。从上游角度来看,具身智能机器人多为人形机器人,从成本、续航能力、零部件性能等方面对机器人提出了新的需求。在传感器方面,由于机器人多用于复杂场景,所需传感器数量和性能 需求都得到大幅度提升;与此同时,芯片的算力需求也大幅度提升。中游的 OEM 厂商部分会选择自研软件系 统,部分会采购上游的软硬一体化解决方案。最后,下游的应用场景将不断拓展。具身智能机器人可以应用于制造业、服务业、医疗保健等多个领域,应用场景和能力边界都得到了拓展。图 9:人形机 器人产 业链图谱 资料来源:优必 选招股 说明书,行行 查,长江证 券研究 所 云端大脑 端侧模型高时延:约1-5Hz 低时延:约200Hz高泛化性、高思维 链 低泛化性、低思维链模型大小:千亿-万亿级别 模型大小:十亿-百亿级别大型AI 算力集群 端侧ASIC 芯片核心部件各行业应用 原材料及核心部件人形机器人组装与生产系统开发与集成运控算法传感器 电机减速器电池伺服机构控制器 EMSCPUGPU感知算法认知与决策算法整机组装与生产整机软硬件方案设计整机系统集成工业制造物流仓储危险场景安保巡检接待引导科研教育家庭消费2B2C上游 中游 下游%10 请阅读最 后评级 说明和 重要声 明 11/25 行业研究|深度报 告 巨头纷纷入局 人 形机器人。随着 AI 基础模型技术持续迭代,特斯拉、谷歌等巨头也发现了 人 形 机 器 人 的 潜 在 商 业 机 会,分 别 从 硬 件 和 软 件 入 手 布 局 人 形 机 器 人 领 域。早 在2021 年的 Tesla AI Day,特 斯拉就宣布其在研发人形机器人 Optimus;随后的几年时间,Optimus 经历了多轮的迭 代,机动性和灵活性得到了大幅度提升。谷歌从 2022 年开始,在软件层面推出了一系列机器人模型,包括 SayCan、Gato、RT-1、PaLM-E、RoboCat、RT-2 和 RT-X,逐 步实现了模型 自主可靠决策、多模态感知和实时精准运控能力的结合,同时展现出泛化能力和思维链能力。图 10:布 局人形 机器人 的科技 巨 头,以特 斯拉、谷歌、英伟达 为例 资料来源:长江 证券研 究所 特斯拉:从硬件 入 手 Optimus 机器人 发展 包含 6 个重要时间节点:1)2021 年 8 月马斯克首次透露了要造人形机器人(Tesla Bot)的设 想;2)2022 年 10 月 Optimus 人形机器人首次亮相。在Demo 演示中,Optimus 展示 了其搬箱子、浇花、在特斯拉工厂工作的画面;3)2023年 5 月,Optimus 具备了流畅 行走和抓取物体的能力;4)2023 年 9 月,Optimus 大脑快速进化,实现神经网络完全端到端训练,可以自主对物体进行分类;5)2023 年 12月,特斯拉发布 Optimus Gen-2,在 稳定性、灵活性、机动性方面有较大提升。6)2024年 1 月 16 日,Optimus 可以实 现叠衣服功能,动作控制更加精准。表 2:特斯拉 机器人 发展的 关键节 点 时 间 事 件 内涵 2021.08 Tesla 宣布 要造人 形机器 人 特斯拉敏 锐抓住 人工智 能的关 键节 点,尝试 把智能 驾驶汽 车的成 功经 验复制到 机器人领域 2022.10 Tesla 在 2022 AI Day 上发布 人形 机器人BumbleBee 确定了机 器人雏 形 与大 致能力 范围,公布了 人形机 器人的 身高、体重、行走速 度等关键 参数 细节 2023.05 Tesla 公布 了机器 人在工 厂中行 走,以及人类动作 数据示 教的视 频 Optimus Gen-1 机器人 的运控 能力 与感知能 力得到 大幅度 提升 2023.09 机器人实 现神经 网络完 全端到 端训 练,可以自主对 物体进 行分类 机器人泛 化能力 得到提 升 2023.12 Tesla 发布 Optimus Gen-2 机器人稳 定性、灵活性、机动 性方 面有较大 提升,并在手 指搭载 触觉 传感器 2024.01 机器人可 以实现 叠衣服 功能,动作 控制更加精准 思维链额 能力提 升,可 以将复 杂任 务拆解为 简单步 骤;控 制能力 同样 得到了提 升 资料来源:特斯 拉机器人 X 账号,长江 证券研究 所 Optimus Gen-1Optimus Gen-2SayCanGatoRT-1PaLM-ERoboCatRT-2RT-X从硬件入手以特斯拉为例从软件入手以谷歌为例Optimus Gen-3机动性稳定性泛化性灵活性降本 规模化软硬一体BumbleBee基础硬件 基础算法从中间件和芯片入手以英伟达为例Jetson 硬件平台Isaac 软件平台数字仿真平台基础模型 GROOT%11 请阅读最 后评级 说明和 重要声 明 12/25 行业研究|深度报 告 在软件层面,特 斯拉希 望机器人复刻智能驾 驶技术路径。由 于人型机器人算法与智能驾驶系统相类似,特斯拉机器人软件算法 部分移植了 FSD 智 能驾驶系统,计算芯片移植了 HW3.0 智驾芯片。智能驾驶 系统与人形机器人系统具备较高的相似性,都是将 AI 能力赋能于复杂硬件设备,串联起众多传感器、运算芯片与执行器,实现智能体的自主行动。两者软件算法也有较高相似性,都具备了完整的感知、决 策规划、控制的循环链路。这也是特斯拉能够快速切入人形机器人领域的核心原因。人形机器人系统相比智能驾驶系统,在微观层面的要求更高。智能驾驶系统只需要识别道路常见物体,而人形机器人系统不仅在物体识别能力上有更高要求,还需要辨别物体重量、质感、抓取方式等更多要素,因此需要更高的 AI 能力。图 11:特 斯拉人 形机器 人系统 移 植了 FSD 智 驾系统 图 12:特 斯拉 HW3.0 智 驾芯片 资料来源:特斯拉 2022 AI Day,长江 证券研究 所 资料来源:Wikichip,长江证 券研究 所 特斯拉自研 Dojo 超 算 平台支撑人形机器人 的底层算力。特 斯拉机器人 Optimus 采用Dojo 超算平台作为底层 AI 算 力支撑。Dojo 芯片架构平台由 Dojo D1 芯片组成,拥有一个大规模计算平面,极高宽带和低延迟,训练模块最大程度上实现了带宽的保留。D1 芯片本身采用 7 纳 米 制 造 工 艺,算力为 22.6 FlopsFP32,超过英伟达 A100 的19.5FlopsFP32,配合特斯拉 自研的高带宽、低延迟的连接器。预计到 2024 年 10 月,Dojo 超算平台的有望 匹配 30 万块英伟达 A100 芯片的算力。据摩根斯坦利数据显示,特斯拉自研的 Dojo 超算平台有 望为公司节省超过 65 亿美元的 算力投入(对比购入同等算力下的 A100 芯片算力集群)。图 13:Dojo 超算平 台为特 斯拉带 来了什么 图 14:到 2024 年 10 月 Dojo 超 算平台算 力有望 达到 100EFlops 资料来源:摩根 斯坦利,长江 证券研 究 所 资料来源:Verge,长江证 券研 究所%12 请阅读最 后评级 说明和 重要声 明 13/25 行业研究|深度报 告 Dojo D1 超算芯 片 优化了 GPU 通信协议,相比 NVLink 架构效率更高。在大模型训练时,单独一块超算芯片的显存难以储存大模型所有的参数量,而是需要上千块超算芯片的显存分别承载其中一部分;为了保证超算显存之间 的高效联通,就需要英伟达 NVLink这样的 GPU 通信协议。Dojo 超算平台优化了超算芯片结构,将 D1 芯片以 5x5 的方式封装形成一个瓦片(training tile),然后将 6 个瓦片组合成一个 服务器。瓦片之间可以进行快速互联,不需要经过中间步骤。数据可以通过接口处理器进行连接,通过 充电瓦片之间的二维扩展,获得比 GPU 更高的互联带宽。此外,特 斯拉在软件算法方面通过变更自己的 配套式框架支持和编译的 LVM 价值取代驱动,从 应用层到服务器层形成了架构的完整融合。Dojo 超算平台 的架构使其 在功耗、算力和成本方面都优 于英伟达的 GPU。图 15:英 伟达 NVlink 架构 资料来源:nextplatform,长 江证券 研究 所 图 16:特 斯拉 Dojo 超算 中心结 构 资料来源:特斯拉 2022 AI Day,长江 证券研究 所 谷歌:从 软件入 手 谷歌从软件层 面 入手,持续迭代机器人 模型。自 2022 年开 始,谷歌即尝试开发具身智能模型。2022 年 4 月推出的 SayCan 模型将机器人的决策 过程拆分为两部分 Say和 Can,可以将 高层级任务拆解 为可执行的子任务;其后,为了解决机器人的多模态能力,谷歌在 5 月又推出了 Gato 模型,可以将多模态数据 token 化输入 Transformer 架构中;2023 年 1 月推出的 RT-1 距离机器人本身又更近了一步,可以将机器人轨迹数据输入 transformer 架构,得到离 散化动作 token;2023 年 3 月 推出的 PaLM-E 模型建立在 PaLM 通用模型基础上,多模态性能更进一步;6 月推出的 RoboCat 将多模态模型25 个D1 组成1 个tile D1 芯片 6 个tile 组成一个tray 2 个tray 组成一个服务器10 个服务器组成一个算力中心%13 请阅读最 后评级 说明和 重要声 明 14/25 行业研究|深度报 告 Gato 与机器人数据集相结合,使得 RoboCat 具有在模拟环境与物理环境中处理语言、图像和动作等任务的能力;7 月推出的 RT-2 模型是 RT-1 模 型与 PaLM-E 模型的结合,标志着机器人模型从 VLM 进化到 VLA 的第一步,自此机器人具备了初步的具身智能能力;2024 年 1 月推出的 RT-X 在保持原有架构的基础上,实现了具身智能 5 种能力全面提升。表 3:谷歌机 器人模 型持续 迭代,能力日益 拓展(能力强 弱为主 观定义)时 间 模 型 能 力 多 模态 感知能 力 自主可靠 决策能力 实时 精准 运控 能力 泛化能 力 思 维链能 力 2022.4 SayCan 为实现自 主可靠 决策做 出贡献,将 LLM 引入 到机器人决策中,可将 高层级 任务拆 分为 可执行的 子任务-弱-2022.5 Gato 为实现多 模态感 知做出 贡献,将多 模态的信 息 token化,输入 到 transformer 架构中 弱-2023.1 RT-1 为实现实 时精准 运控做 出贡献,基 于包含机 器人轨 迹数据的 transformer 架构,可以 输 出离散化 的机器 人动作 token,同时收 集了大 量的机 器人数据-弱 弱-2023.3 PaLM-E 将自主可 靠决策 和多模 态感知 两种 能力相结 合,将 多模态信息 以类似 语言序 列的方 式,输入到预 先训练 的LLM 中,得到 VLM,输入 端为多 模 态信息,输出端 为文本决策 弱-2023.6 RoboCat 可以自主 生成训 练数据 集,其 将多 模态模 型 Gato 与机器人训 练数据 集相结 合,可 以实 现自我学 习 弱 弱 弱 弱 弱 2023.7 RT-2 有机结 合 5 种 能力,将 token 化 后 的机器人 数据输 入到 VLM 模型 中,得 到 VLA,不仅 实现了自 主可靠决策、多 模态感 知和实 时精准 运控 能力的结 合,同 时展现出泛 化能力 和 思维 链 能力 弱 弱 弱 中等 弱 2023.10 RT-X 有机结 合 5 种 能力,将 token 化 后 的机器人 数据输 入到 VLM 模型 中,得 到 VLA,不仅 实现了自 主可靠决策、多 模态感 知和实 时精准 运控 能力的结 合,同 时展现出泛 化能力 和 思维 链 能力 中等 弱 中等 强 中等 资料来源:谷歌 官网,长江证 券研究 所 2024 年 1 月 4 日,谷歌发布了三项人形机器人模型相关成果,分别为 RT-Trajectory、SARA-RT、AutoRT。三款模型以谷歌之前 发布的 RT-1、RT-2 模型为 基础,分别从任务泛化能力、任 务决策 速度、训练数据规模三 个层面提升了 RT 系列机器人模型的性能。RT-Trajectory:提升机器人 模型泛化能力。传统的机器人模 型面对从未见过的任务,会将其拆解为多个简单动作;例如对于擦桌子,就可以拆解为“合上夹具、向左移动、向右移动”,这种拆解动作的路径 泛化能力较低。RT-Trajectory 使用粗略的轨迹草图来提高机器人学习任务的泛化能力。通过训练时给机器人提供视觉提示,机器人 任务的成功率得到了大幅度提升。凭借 RGB 图像的 2D 轨迹增强数据,RT-Trajectory 将机器人执行从未见过的任务的成功率从 29%提升至 63%。%14 请阅读最 后评级 说明和 重要声 明 15/25 行业研究|深度报 告 图 17:RT-Trajectory 使用粗 略的 轨迹草图 来提高 机器人 学习任 务的 泛化能力 资料来源:ROBOTIC TASK GENERALIZATION VIA HINDSIGHT TRAJECTORY SKETCHES,Gu et al.,长江证券研 究所 SARA-RT:提 升 机器人任务决策速度。谷歌 RT 模型采用 Transformer 架构,底层编码采用二次复杂度的注意力机制;因此面对两倍输入数据规模,RT 模型的算力需求会跃升 至 四倍,而响 应速 度 是机 器人 模 型最 重 要的 评价 标 准之 一;为 了提 高 机器 人的 速 度,谷歌在 RT 基础模型上开发了 SARA-RT。SARA-RT 采用向 上训练的模型微调方法,将原来的二次复杂度转换为线性复杂度,同时保持了任务处理质量;因此大幅度降低了算力需求,保证机 器人任务 决策 速度。SARA-RT-2 模型在获得简短的图像历 史记录后,相比 RT-2 模型的精确度提升 10.6%,速度提 升 14%。图 18:SARA-RT 把 多模态 模型的 二次方计 算复杂 度简化 成线性 计算 复杂度 资料来源:SARA-RT:Scaling up Robotics Transformers with Self-Adaptive Robust Attention,Leal et al.,长江证券研 究所 AutoRT:扩充机 器 人可用训练数据规模。AutoRT 结合了基础 大模型(大语言模型(LLM)、视觉语言模型(VLM)和机器人控制模型(RT-1、RT-2),创 建了一个可以在新环境中部署机器人用以收集训练数据的系统。AutoRT 可以同时指 导多个配备视觉系统和末端执 行 器的 机 器人,在 各 种各 样环 境 中执 行 多样 化的 任 务,以此 来 主动 收 集机 器人 感 知、决策与控制数据。谷歌 AutoRT 项目持续了 7 个月,实验证 明,AutoRT 系统最多时共能协调 52 个机器人的动作。通过指导机器人在各种办公楼内执行各种任务,研究人员收集了涵盖 7.7 万个机器人试 验,6650 个独特任务的多样化 数据集。此外,AutoRT 对%15 请阅读最 后评级 说明和 重要声 明 16/25 行业研究|深度报 告 机器人模型的价值对齐也做出了更新。AutoRT 设置了安全 护栏,它能够在机器人执行基于 LLM 的决策时提供需要遵 守的基本规则。图 19:超过 20 个机器 人使 用 AutoRT 自主 收集现 实世界 数据集 资 料 来 源:AUTORT:EMBODIED FOUNDATION MODELS FOR LARGE SCALE ORCHESTRATION OF ROBOTIC AGENTS,Ahn et al.,长 江证券研 究所 OpenAI:模型 赋能 与风险投 资 OpenAI 主要通 过模型 赋能与投资相关企业 的方式布局 人形机器人行业。OpenAI 投资了人形机器人初创公司 1X Technologies 和 Figure AI。初创 公司 Figure 将 OpenAI 的多模态模型用于 机器人的感知决策 任务中。根据视频显示,在与 OpenAI 合作 13 天之后,目前机器人已经可以通过自然语言流畅实现与人类的多轮对话,完成人类提出的拿出苹果,整理餐具的需求,并对任务总结评价。机器人灵巧手抓取动作稳定流畅,精确度较高,控制层面运动降噪较为成功。据 Figure AI 创始人 Bratt Adcock 称,所有机器人行为都没有经过远程操作,而是通过机器人的自我学习而来;机器人语言功能也是在模型训练之后得到的合成音效,无人类参与。表 4:OpenAI 参与的 人形
展开阅读全文