20230923_长江证券_软件与服务行业人形机器人深度报告:大模型驱动算法升级重塑生产力的未来_28页.pdf

返回 相关 举报
20230923_长江证券_软件与服务行业人形机器人深度报告:大模型驱动算法升级重塑生产力的未来_28页.pdf_第1页
第1页 / 共28页
20230923_长江证券_软件与服务行业人形机器人深度报告:大模型驱动算法升级重塑生产力的未来_28页.pdf_第2页
第2页 / 共28页
20230923_长江证券_软件与服务行业人形机器人深度报告:大模型驱动算法升级重塑生产力的未来_28页.pdf_第3页
第3页 / 共28页
20230923_长江证券_软件与服务行业人形机器人深度报告:大模型驱动算法升级重塑生产力的未来_28页.pdf_第4页
第4页 / 共28页
20230923_长江证券_软件与服务行业人形机器人深度报告:大模型驱动算法升级重塑生产力的未来_28页.pdf_第5页
第5页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
行业研究 丨深度报告 丨软件与服务 Table_Title 人形机器 人深度报 告:大模 型 驱动 算 法升级,重塑生产力 的未来%1 请阅读最 后评级 说明和 重要声 明 2/28 丨 证券研 究报告 丨 报告要点 Table_Summary本轮大模型技术进步大幅度提高了机器人感知、决策、控制系统的技术供给,在降低软件开发门 槛 的 同 时 拓 宽 了 机 器 人 的 应 用 场 景,有 望 驱 动 机 器 人 真 正 实 现 具 身 智 能。图像-文本-动作(VLA)大模型彻底实现模型的端到端方案,大幅度提高人形机器人的泛化能力与思维链能力。当前跨界巨头占据了人形机器人核心生态位,究其原因,是 因为跨界巨头在算法、算力、数据上占据优势。后续 相关板块需要关注爆款场景落地情况,通过降本实现爆款场景到成本敏感场景的发散。分析师及 联系人 Table_Author 宗建树 SAC:S0490520030004%2ZXCXzQsPsRpOtNmPnQpQmN7N8Q6MtRpPsQtQeRoOzQeRoMqO9PqRmRNZnNpOwMmRtM 请阅读最 后评级 说明和 重要声 明 丨证券研究报告丨 更多研报请访问 长江研究小程序 软件与服务 Table_Title2 人形机器人深度报告:大模型驱动算法升级,重塑生产力的未来 行业研究 丨深度 报告 Table_Rank 投资评 级 看好丨维 持 Table_Summary2 具身智 能有 望重 构生 产力 范式 具身智能的本 质 是人工 智能的高技术供给驱 动生产力范 式重构。本轮大模型技术进步大幅 度提高了机器人感知、决策、控制 系统的技术供给,在降低软件开发门槛的同时拓宽了机器人的应用场景,有望驱动机器人真正实现具身智能。而具身智能机器人作为自洽的智能体,在思维方式、行为模式方面高度拟人,可以 提高劳动力供给,在特种 场景替代人类,在长尾制造、柔性制造场景大规模应用,有望极大限度地解放生产力、重构生产力范式。技术供 给节 奏加 快,算法 开发范 式升 级 而近年来兴起 的 大模型 有望重塑人形机器人 的算法开发 模式。当前人形机器人尚未实现具 身智能,主要原因在于传统的强化学习方案与拖拽示教方案效率低下,难以解决长尾问题。大 模型或成为具身智能的必备选项,具身智能或成为大模型在现实世界的具象化形态。在软件算法性能不足的情 况下,大 模型将 首 先搭载于服 务型机器 人,用 于 人机交互场景。后续 的图像-文本-动作(VLA)大模型可以将软 件算法的感知、决策规划、控制三个模块相融合,减少模块间的“hard decision”与 Prompt 摩擦,彻底实现模型的端到端 方案,大幅度提高人形机器人的泛化能力与思维链能力。软件算 法是 人形 机器 人的 核心价 值环 节 特斯拉推出的 Optimus 带动了 本轮人形机器人的高热度。仔细观察即可发现,人形机器人有较多零部件继承自工业机器人,但人形机器人 核心生态位却由跨界巨头占据。究其原因,是 因为跨界巨头具备较强的 AI 能力,可以在算法、算力、数据三个层面保持人形机器人软件层面的核心优势。短期来看,人形机 器人硬件层面的竞争要素在于降本,而从长期角度来看降本是全行业的一致行动,龙头厂商较难保持控本优势,因此零部件控本难以作为优质壁垒。相比之下,AI 算法决定了人形机器人的能力范围,是产业链的 核心价值环节。人形机器人产业的短期观察指标在于爆款场景的落地,而爆款落地会带动产能扩张造成供给端降本,降本会催生新的需求形成飞轮效应。当 制造端成本下降到奇点,即可从爆款场景发散至成本敏感型场景。后续投 资关 注三 条主 线 人形机器人市场空间 有望在 2035 年达到 1540 亿美元。基于 前文的分析,建议关注:1)人形机器人零部件标的,包含减速器、滚珠丝杠、无框力矩电机等高价值量零部件标的;2)智 能驾驶相关标的,包含 IMU、激光雷达、视觉摄像头、智能驾驶芯片等标的;3)大模型算法、算力芯片 标的。风险提 示 1、人形机器人技术发展不及预期;2、人形机器人产品需求不及预期。Table_StockData 市场表现 对 比图(近 12 个 月)资料来源:Wind 相关研究 Table_Report 大模型金融行业 应用展望2023-09-19 计算机行业 2023 半年报综述:营收仍 受需求压制,毛利现金等 已有改善2023-09-06 政策提振市场信 心,看好金融 IT 和 AI 超跌反弹2023-08-30-10%14%38%62%2022/9 2023/1 2023/5 2023/9软件与服务 沪深300 指数2023-09-23%3 请阅读最 后评级 说明和 重要声 明 4/28 行业研究|深度报 告 目录 具身智能有望重构生产力范式.6 具身智 能腾 飞在 即,市场 空间广 阔.6 技术供给节奏加快,算法开发范式升级.11 传统算 法开 发路 线效 率低 下.12 具身智 能是 大模 型的 具象 化形态.13 大模型 重塑 人形 机器 人算 法开发 范式.15 软件算法是人形机器人的核心价值环节.21 当前产 业生 态:跨界 巨头 或占据 核心 生态 位.21 未来商 业模 式:从制 造走 向运营,数 据与 算力 是核 心要素.24 后续投资关注三条主线.26 风险提示.27 图表目录 图 1:涌现 效应推 动 AI 供 给能力大 幅提升.6 图 2:一图 看懂具 身智能 的 影响.6 图 3:我国 劳动力 短缺已 成 必然之势.7 图 4:我国 制造业 人口平 均 工资连年 增长.7 图 5:波士 顿动力 机械狗 用 于矿洞勘 察.7 图 6:宇树 科技机 器狗用 于 消防侦擦.7 图 7:工业 机器人 与具身 智 能机器人 特点比 较.8 图 8:制造 业机器 人的四 个 发展阶段.8 图 9:规模 生产与 柔性制 造 曲线.8 图 10:机 器人实 现从第 二 产业向第 三产业 渗透(2022 年).9 图 11:机 器人的 市场空 间 可以比拟 智能手 机或电 动汽 车.9 图 12:AI 训练 难以覆 盖长 尾场景.11 图 13:决 策规划 算法是 机 器人算法 的核心 成分.12 图 14:强 化学习 算法多 次 试错后可 以得到 最佳策 略图.12 图 15:机 器人可 以复现 拖 动轨迹.13 图 16:第 一人称 与第三 人 称交互方 式.13 图 17:第 一人称 与第三 人 称智能的 区别.13 图 18:传 统机器 人系统 由 大量算法 组合而 成.14 图 19:早 期特斯 拉自动 驾 驶功能难 以应对 小概率 场景,造成车 祸.14 图 20:PaLM-E 机 器人可 以把任务 拆解成 多个步 骤完 成.14 图 21:大 模型通 过预训 练+调参提高 泛化性.15 图 22:参 数量扩 大涌现 出 思维链能 力.15 图 23:大 模型数 据与处 理 任务的跃 升.15 图 24:一 图看懂 机器人 应 用场景分 类和技 术供给 节奏.16 图 25:人 形机器 人可分 为 服务型和 劳动型 两类.16%4 请阅读最 后评级 说明和 重要声 明 5/28 行业研究|深度报 告 图 26:交 互能力:大模 型+语音算法.17 图 27:动 作控制:机器 视 觉+决 策控制 算法.17 图 28:ChatGPTforRobotics 可以根据自然 语言生 成控 制代码.18 图 29:多 模态大 模型具 备 图像逻辑 思维能 力.18 图 30:谷 歌 PaLM-E 大模 型具备较 高泛化 性和逻 辑推 理能力.19 图 31:VLA 模型需 要将机 器人动作 作为模 态编入 大模 型.19 图 32:RT-2 可 以将复 杂任 务拆成简 单多步 骤完成.20 图 33:RT-2 具 备较强 的视 觉符号理 解、推 理、人 类识 别能力.20 图 34:RT-2 模 型建立 在 PaLM-E 和 RT-1 基础上.20 图 35:VLA 是端到 端的系 统,具备 最高的 运行效 率.21 图 36:2022 年的 Optimus 机器人.21 图 37:最 近的 Optimus 已进入特斯 拉工厂.21 图 38:特 斯拉 Optimus 零部件一览.22 图 39:工 业机器 人厂商 市 占率(2023 年一季 度).22 图 40:支 撑特斯 拉入局 人 形机器人 的五大 因素.23 图 41:人 形机器 人会从 爆 款场景发 散到成 本敏感 型场 景.23 图 42:特 斯拉人 形机器 人 系统移植 了 FSD 智 驾系统.24 图 43:特 斯拉 HW3.0 智驾 芯片.24 图 44:算 力是支 撑模型 训 练与推理 的核心 要素.24 图 45:Dojo 超算平 台.24 图 46:Dojo 超算平 台为特 斯拉带来 了什么.25 图 47:到 2024 年 10 月 Dojo 超 算平台 算力有 望达到 100EFlops.25 图 48:英 伟达 NVlink 架构.25 图 49:特 斯拉 Dojo 超 算中 心结构.26 图 50:马 斯克认 为特斯 拉 的长期价 值增长 来源于 AI 和机器人.26 表 1:我国 出台了 一系列 人 形机器人 发展刺 激政策.10 表 2:国产 人形机 器人梳 理.22%5 请阅读最 后评级 说明和 重要声 明 6/28 行业研究|深度报 告 具身智能 有望 重 构生产力 范式 具身智能的本 质 是 人工 智能的高技术供给驱动 生产力范式重构。本轮大模型技术进步大幅度 提高了机器人感知、决策、控制系统的技术供给,在降低软件开发门槛的 同时拓宽了机器人的应用场景,有望驱动机器人 真正实现具身智能。而具身智能机器人作为自洽的智能体,在思维方式、行为模式方面高度 拟人,可以在绝大部分劳动 作业场景替代人类,有望极大限度地解放生产力、重构生产力范式。图 1:涌现效 应推动 AI 供给 能力 大幅提升 资料来源:Emergent Abilities of Large Language Models,长 江证券 研究所 具身智能 腾飞在 即,市场空 间广阔 图 2:一图看 懂具身 智能的 影响 资料来源:长江 证券研 究所 具身智能机器 人 有望解 决 我国劳动力 缺口。我国人口老龄化 已成为 不可逆转的趋势,对未来劳动力短缺与用人成本上升造成长期且难以逆转的影响。我国人口老龄化程度不断提高,60 岁及以上人口占比从 2011 年的 13.7%持续提升至 2022 年的 19.8%,劳动力缺口日益扩大。作为全世界制造业产值最高的国家,我国 拥有庞大的制造业基础,对应了广阔的 劳动力 需求。具身智能机器人通过 AI 的高技术供 给解放生产力,有望解决我国劳动力缺口和用工成本上升的问题。具身智能高泛用性 高智能性提升劳动力供给 特种场景应用 长尾制造、柔性制造重塑生产力范式%6 请阅读最 后评级 说明和 重要声 明 7/28 行业研究|深度报 告 图 3:我国劳 动力短 缺已成 必然之 势 图 4:我国制 造业人 口平均 工资连 年增长 资料来源:Wind,长 江证券 研究所 资料来源:Wind,长 江证券 研究所 具身智能机器 人 可以在 高危、特种场景代替 人类作业。具身 智能机器人在高危和特种场景中可以发挥重要作用,可以在巡检、紧急救援、核电站和化工厂、探险和勘察、矿山和建筑工地、火灾扑救、军事应用 等场景代替人类从事危险、艰苦、高风险或者无法适应 的 任务,大幅 提高 了 作业 的 安 全 性和 效 率,减少 人 类工 作者 暴 露于 危 险环 境的 风 险。图 5:波士顿 动力机 械狗用 于矿洞 勘察 图 6:宇树科 技机器 狗用于 消防侦 擦 资料来源:波士 顿动力 官网,长江证 券 研究所 资料来源:宇树 科技官 网,长 江证券 研 究所 工业机器人无 法 用于长 尾制造端和柔性制造 场景。在当前阶 段,工业机器人由多关节机械手或多自由度的机器装置 组成,具备一定的智能化水平,已 广泛用于电子、物流、化工等 领域。工业机器人的缺点在于其定制化程度较高,只能用于大规模制造场景,而无法用于长尾制造端。此外,高度定制化的特点导致其响应更新速度较慢,无法用于柔性制造。0%5%10%15%20%25%7.307.407.507.607.707.807.90劳动力人口(亿)60岁以上老年人口占比(右轴)0%2%4%6%8%10%12%02468102013 2014 2015 2016 2017 2018 2019 2020 2021 2022我国制造业人口平均工资(万元)YoY(右轴)%7 请阅读最 后评级 说明和 重要声 明 8/28 行业研究|深度报 告 图 7:工业机 器人 与 具身智 能 机器 人特点比 较 资料来源:长江 证券研 究所 具身智能 机器 人 有望重构生产范式。柔性制造已成为工业制 造重要组成部分;相比于传统 制 造模 式,柔 性制 造 可以 快速 响 应市 场 需求,缩 短 交货 周期,降低 库 存和 过剩 产 能,因此日益受到制造业厂商的重视。具身智能机器人不以任务为导向,泛用性较高,智能性与机动性强度接近人体之后即可完美替代人类作业,无需对机器人本身做场景定制化;因此 具身智能机器人 可以大规模用于长尾制造端和柔性制造场景,有望重构制造业的生产范式。图 8:制造业 机器人 的四个 发展阶 段 图 9:规模生 产与柔 性制造 曲线 资料来源:Intelligent humanoids in manufacturing to address worker shortage and skill gaps:Case of Teslas Optimus Malik A.et al.,长江 证券研 究所 资料来源:Intelligent humanoids in manufacturing to address worker shortage and skill gaps:Case of Teslas Optimus Malik A.et al.,长江 证券研 究所 人型 机 器人有 望 在第三 产业快速渗透。在当前阶段,工业机 器人在汽车、电子、纺织服装、化工石化等规模制造业的渗透率较高,已经进入 1-10 的放量阶段;相比之下,机器人在第三产业 刚刚进入 0-1 的产业落地初期阶段。因此工业机器人在第二产业的发展节奏可以映射人形机器人在第三产业的发展节奏;而 映 射到第三产业,需要机器人从机械臂的形式转 向 更加拟 人化的人形机器人。未来随着具身智 能 技术赋能,人形机器人有望快速提高在第三产业的渗透率,实现服务业的智能化升级。工业机器人泛用性低高度定制化轻度智能化造价低具身智能 机器人泛用性高轻度定制化高度智能化造价高%8 请阅读最 后评级 说明和 重要声 明 9/28 行业研究|深度报 告 图 10:机 器人实 现从第 二产业 向 第三产业 渗透(2022 年)资料来源:ZDNET,Tesla 官 网,达 闼 官网,Wind,长江证 券研究 所 人型 机 器人的 市 场空间 广阔。根据高盛 预测,在理想状态下,若机器人软硬件在短期内产生重大技术突破,实现具身智能的同时年均 降本达到 20%,人形机器人全球市场空间有望 在 2035 年达到 1540 亿美 元,接近 2021 年智能汽车的市 场空间,2025-2035 年复合增长率达到 94%;若是在乐 观情况下,人形机器人的出货量有望在 2035 年达到 100万台,市场空间 2025-2035 年 复合增长率有望达到 59%;而 即使是在 悲观推测下,人形机器人市场空间在 2035 年也有望达到 60 亿美元。从劳动 力替代角度来看,预计 2025年-2028 年人形机器人厂商达 到两年投资回报期,2030 年-2035 年客户端达到两年投资回报期。图 11:机 器人的 市场空 间可以 比 拟智能手 机或电 动汽车 资料来源:高盛,长江 证券研 究所 第二产业GDP 48.3 万亿元 占比39.9%第三产业GDP 占比63.9 亿元 占比52.8%汽车制造、电子制造、纺织服装、化工石化、电力、建筑 医疗、酒店、教育、文娱、金融、旅游 长尾化、泛用化、拟人化、智能 化机器视觉、云计算、物联网 大模型、仿生技术.全球电动汽车出货量全球智能手机出货量人形机器人出货量(理想 推测)人形机器人出货量(乐观 推测)人形机器人出货量(中性 推测)人形机器 人出货 量(悲观推 测)全球电动汽车出货量全球智能手机出货量人形机器人出货量全球电动汽车出货量全球智能手机出货量人形机器人出货量厂商两年投资回报期区间客户两年投资回报期区间%9 请阅读最 后评级 说明和 重要声 明 10/28 行业研究|深度报 告 我国出台了一 系 列政策 以鼓励人形机器人 产 业发展。当前人型 机器人板块明确获政策支持,有望缩短技术迭代周期,加速产业链形成。4 月 29 日 山东 首先提出要加快人形机器人技术攻关,补齐产业链短板;随后上海、深圳、北京纷纷给出了人形机器人发展指导意见,其中北京发布的 北 京市机器人产业创新发展行动方案(2023 2025 年)对人形机器人落地和核心零部件 落地节奏 提出了明确要求。此外,8 月 16 日北京发布的北京市促进机器人产业创新发展的若干措施 提出设立 100 亿元规模的机器人产业基金,给人形机器人初创企业提供了孵化环境。表 1:我国出 台 了 一 系列人 形机器 人发展刺 激政策 发 布 时 间 部门 文件 名称 核心内 容 2021/12/21 工业和信 息化部 等十五部门“十 四五”机器人 产业发展规划 面向制造 业、采矿 业、建 筑业、农 业等行业,以及家 庭服务、公共 服 务、医疗健 康、养老助残、特 殊环境 作业等 领域需 求,集聚优势 资源,重点推 进工业 机 器人、服务 机器人、特种机器 人重点 产品的 研制及 应用,拓展机 器人产 品系列,提升 性能、质量和 安全性,推动产品 高端化 智能化 发展。2023/1/18 工业和信 息化部 等十七部门“机 器人+”应用行 动实施方案 到 2025 年,制造业 机器人 密度 较 2020 年 实现翻 番,服务机 器人、特种 机器人 行业应用深度和 广度显 著提升,机器 人促 进经济社 会高质 量发展 的能力 明显 增强。聚 焦 10 大应用重点 领域,突破 100 种以上 机器人创 新应用 技术及 解决方 案,推广 200 个以 上具有较高技 术水平、创新 应用模 式和 显著应用 成效的 机器人 典型应 用场 景,打造 一批“机器人+”应 用标杆 企业,建设一 批 应用体验 中心和 试验验 证中心。2023/4/29 山东省工 业和信 息化厅 山东省 制造业 创新能 力提升三年行 动计划(2023 2025 年)1、强化产业 基础技 术攻关,加快突 破机器人 等核心 领域,精 准补齐 基 础零部件、基础元器件、基 础材料、基础 软件、基础 工艺等“五基”短板;2、加快 布局未 来产业。研究 制定山 东省未来 产业高 质量发 展行动 计划,加快 布局人 形机器人、元 宇宙、量子科 技、未 来网 络、碳基 半导体、类脑 计算、深海 极地、基 因技术、深海空天 开发等 前沿领 域,推 进 6G 技术研 发和应 用。2023/5/18 上海市政 府 上海市 推动制 造业高 质量发展三年 行动计 划(2023-2025 年)1、到 2025 年,工 业机器 人使用 密度力争 达 360 台/万 人;2、打造智 能机器 人终端 品牌;3、推动传 统制造 业企业 加快机 器 人应用;4、瞄准人工 智能技 术前沿,构建通 用大模型,面向垂 直领域 发展产 业 生态,建设 国际算法创新基 地,加 快人形 机器人 创新 发展。2023/5/31 深圳市政 府 深圳市 加快推 动人工 智能高质量发 展高水 平应用 行动方案(2023 2024 年)1、聚焦 智能机 器人等 领域,实施重 大专项扶 持计划,开 展通用 型具身 智能机器 人的研 发和应用;2、加快组 建广东 省人形 机器人 制 造业创新 中心,开展人 形机器 人规 模化应用;3、打造全 域场景 应用,孵化高 度 智能化的 生产机 器人。2023/6/16 北京市政 府 北京市 机器人 产业创 新发展行动方 案(2023 2025年)1、到 2025 年,培 养 100 种 高技术 高附加值 机器人 产品、100 种具有 全国推广 价值的 应用场景,万 人机器人 拥有量 达到世 界领先水 平,全市机 器人核 心产业 收入达 到 300 亿元以上;2、加 紧布局 人形机 器人,以 小批量 生产和 应用为 目标打通 基础条 件、集中突 破关键 技术、推动 相关软 硬件的 研制与 应用,支持上 下游企 业联合 攻关与 产线 建设,加 速全产 业链自主化;3、发挥机器人 产业基 础优势,提升 医疗健康、协作、特种、物流四 类 机器人技 术水平 和市场竞争 力;4、打通创新 链条,增 强人工 智能大 模型、产业 关键核 心技术、关键零 部件等基 础支撑 能力,推动 机器人 产业稳 链、补 链和 强链;5、面向医疗、制 造等领 域重点 需 求,开展一批“机器人+”应用示 范,加快形成 标志性场景、标 志性服 务、标 志性模 式和 标志性业 态;6、围 绕机器 人研发 设计、中 试验证 等产业 环节,加快建设 一批开 放共 享的公 共服务 平台,全 面提升 机器人 产业要 素配置 水平,建立“资 源统筹 创新 协同 环境优 化”的产业发展新 生态;7、立足 产业组 织优化 和产业链 协作,推动 机器人 创新链 和产业 链对接 融合、产业布 局和区域资源 高效匹 配,加 快打造 机器 人产研结 合示范 区、产 用结合 集聚 区,全面 提升机 器人产业对 内吸引 集聚和 对外辐 射带 动的作用;8、通过国 家级项 目布局、制定 专 项政策、加强人 才培养 等措施 保障 机器人行 业发展。2023/8/16 北京市经 济和信 息化局 北京市 促进机 器人产 业创新发展的 若干措 施 在创新突 破、“机器 人+”、产 业集聚、要素 保障等方 面提出 了若干 措施,扶持 促进机器 人产业发展。措施 支持机 器人企 业融资上 市,设 立 100 亿元 规模 的机器人 产业基 金,首期规模 不低 于 20 亿元。资料来源:中国 政府网,山东 政府网,上海政府 网,北 京政府 网,深 汕网,长 江证券研 究所%10 请阅读最 后评级 说明和 重要声 明 11/28 行业研究|深度报 告 技术供给 节奏加 快,算法 开发范 式升级 目前人型机器 人 尚未实 现具身智能。目前已经出现了一些能 够在特定任务上表现出色的人工智能系统,如语音助手、图像识别系统和自动驾驶汽车等。这些系统可以感知环境、处理信息并做出一些决策,但它们的智能还是局限于特定的任务领域,无法像人类一样在各种不同情境下进行全面的智能互动。人形机器人系统也是如此,当前人形机器人只能遵循预设的软件算法执行特定场景的任务目标,若出现 长尾 任务场景,或在作业过程中遭受干扰,机器人往往无法应对。图 12:AI 训练难 以覆盖 长尾场 景 资料来源:medium,长江 证券研 究所 决策规划算法 是 当前具 身智能主要 发展痛点。机器人的软件 算法可以分成感知、决策规划、控制三个部分:感知算法伴随着智能驾驶技术的多年迭代,已有较为成熟的技术方案,算法与传感器耦合程度较高。感知算法的 发展瓶颈在于感知的精准度 和范围等方面仍有提升空间;控制算法总体较为简单,发展瓶颈在于 硬件 层的性能与精准度;而决策规划算法是当前具身智能的主要发展痛点,可以类比成大脑的认知能力,认知能力会随着算法训练 层次提高而增长,相比感知、控制算法 具备较高的发展上限。%11 请阅读最 后评级 说明和 重要声 明 12/28 行业研究|深度报 告 图 13:决 策规划 算法是 机器人 算 法 的核心 成分 资料来源:Founder Park,长江证 券研 究所 传统 算法 开发 路 线 效率低下 当前人形机器 人 决策规 划算法有两条技术路线,分别是强化学习反馈路线 和小样本学习路线,两者互 相 兼容、优势互补,共同组成 了机器人软件算法的决策规划 系统。强化学习反馈 方 案:强化学习 算法是机器人决策规划系统的主要组成部分。在强化学习训练过程中,机器人会 通过无数次虚拟世界和现实 的试错来找到任务最优解决方案。在此过程中,机器人系统会积累 大量 现实世界的反馈,并且根据反馈做出方案总结。强化学习反馈方案的优点在于训练 过程 覆盖了绝大多数小概率事件(Corner Case),缺点在于大多数试错属于无效过程,所以训练效率较低。图 14:强 化学习 算法多次 试错 后 可以得到 最佳策 略图 资料来源:samyzaf,长江证 券研究 所 拖动示教 方案:拖动示教是机 器人软件 训练的捷径。机器人无需以强化学习的方案通过试错来得到最优解,而是 直接通过 模仿少量案例达到任务的最优解。具体而言,开发者感知规划/决策 状态 记忆/经验/反应 知识储备控制工具反馈 成功/失败 结果 奖励观察Policy人 型机器人环境起点终点%12 请阅读最 后评级 说明和 重要声 明 13/28 行业研究|深度报 告 可以按住机械臂的“金手指”,通过拖拽 的方式实现机械臂的位移;机械臂会通过 IMU、六维力矩传感器 等方式来记录,并复现机械臂拖拽流程。相比于强化学习,小样本学习方案 抛弃了训练反馈过程,大幅度减少了算法开发的难度和周期;但小样本学习方案只能给机械臂提供少数几种动作模式,所以必须和强化学习相结合才能让机器人 根据环境的变化做出反应。图 15:机 器人可 以复现 拖动轨 迹 资料来源:semanticscholar,长江 证券 研究所 具身智能 是大模 型 的具象化 形态 具身智能 机器 人 需要以 第一人称身份融入环 境。具身智能机 器人 是一种能够在物理世界中感知、理解和 主动参与的智能 体。相比之下,第三人称只能做到旁观学习,而第一人称视角的系统 不仅 能通过传感器来吸纳现实世界的 信息,还能够与环境进行实际的互动,并且能在互动中不断学习,不断更新自身的任务目标与决策规划。因此,具身智能不仅需要具备机器视觉、路径规划、行为控制等基础智能,还需要具备较强的泛化能力和思维链能力。图 16:第 一人称 与第三 人称交 互 方式 图 17:第 一人称 与第三 人称智 能 的区别 资料来源:机器 之心,长江证 券研究 所 资料来源:机器 之心,长江证 券研究 所 具身智能 需要 具 备高泛化性的 能力。具身智能机器人需要与 复杂世界进行互动,因此决策控制系统需要高泛化性。当前机器人的感知、决策、控制系统由大量传统算法组合而成,如 SLAM 算法、路径规划算法等;而传统算法模型即使经历大量的训练,仍存在较%13 请阅读最 后评级 说明和 重要声 明 14/28 行业研究|深度报 告 多小概率场景(corner case)难以覆盖,泛化能力较低。以特 斯拉自动驾驶系统 Copilot为例,2021 年特斯拉辅助自动驾驶系统错误地把卡 车的白 色货厢识别成了天空,导致Model Y 撞上货车发生车祸。纯白的货车停在十字路口属于小概率场景,自动驾驶算法由于没有经过同场景训练,所以无法生成对应决策。图 18:传 统机器 人系统 由大量 算 法组合而 成 图 19:早 期特斯 拉自动 驾驶功 能 难以应对 小概率 场景,造成车 祸 资料来源:CSDN,长江证 券研究 所 资料来源:新智 元,长 江证券 研究所 具身智能需要 具 备较强 思维链能力。在现实世界中,机器人 难以一次性完成整个复杂动作,因此需要将复杂动作拆解成多个简单步骤完成;此外,由于现实世界远比机器人训练场景复杂,机器人不是唯一客体,所以在任务过程中会受到各种干扰,环境也会不断变化;因此具身智能机器人需要 较强的思维链能力。以谷歌 PaLM-E 模型为例,向 PaLM-E 机器人发出任务指令:“把零 食从抽屉中拿给我”,机器人 会 将其拆解为 5 个步骤。在执行过程中,即使 人类把机械臂抓取的零食打落回抽屉,搭载 PaLM-E 的机械臂仍能调整任务目标,完成任务。图 20:PaLM-E 机器 人 可以 把任 务拆解成 多个步 骤完成 资料来源:PaLM-E:An Embodied Multimodal Language Model Danny Driess et al.,长江证 券研究 所 大模型 凭借高 泛 化性与思维链能力,成为具 身智能系统必备选项。大模型的出现有望彻底颠覆机器人的软件开发范式。预训练赋予了大模型知识压缩的能力,因此 模型可以通过大规模的预训练实现高泛化能力,不仅可以覆盖绝大多数小概率场景(corner case),同时也 降低了算法开发的复杂度。此外,当模型的参数扩大到一定的量级,大模型会涌现出思维链能力,可以将复杂任务逻辑化拆解,大幅度提高了可用性。大模型的泛化能力与思维链能力解决了当前具身智能技术的两大痛点,因此大模型是具身智能机器人的必备选项。%14 请阅读最 后评级 说明和 重要声 明 15/28 行业研究|深度报 告 图 21:大 模型通 过预训 练+调 参提 高泛化性 图 22:参 数量扩 大涌现 出思维 链 能力 资料来源:清华 NLP 团队,openBMB,长江证 券研究 所 资料来源:Chain-of-Thought Prompting Elicits Reasoning in Large Language Models Jason Wei et al.,长江 证券研 究所 具身智能是大 模 型 在现 实世界的具象化形态。从文本处理到 图像 处理再到现实世界,具身智能是大模型的终极应用场景。目前大模型技术已从单纯的大语言模型(LLM)发展到图像-语言多模态模型(VLM);而随着谷歌图像-语言-动作多模态模型(VLA)的推出,大模型 实现了数据与处理任务的跃升。从文本到图像再到现实世界,大模型的数据模态逐渐丰富,数据规模的数量级迅速增长,大模型的应用场景和价值量也成比例扩张,具身智能有望在未来成为大模型终极应用场景。图 23:大 模型 数 据与处 理任务 的 跃升 资料来源:长江 证券研 究所 大模型 重 塑人形 机 器人算法 开发范 式 大模型推动了 机 器人算 法开发范式的升级。随着 ChatGPT 商业化落地的成功,大模型证 明 了其 在 人工 智能 领 域的 价值。未来 大 模型 有望 通 过高 技术 供 给重 塑 具身 智能 场 景。由于大模型仍处于技术发展初期阶段,多模态能力技术仍需迭代,所以 大模型在具身智能领域 的技术供给可以分为三个阶段:1)短期阶段:以大语 言模型(LLM)为主,LLM可以 赋能人形机器人和人之间的交互,大幅度提高服务场景的智能化水平;但 LLM 无法参与机器人的规划控制,所以无法在动作控制方面施加影响力;2)中期阶段(1-3 年):图像-语言模型(VLM)有望赋能具身智能系统,直接参与机器人的决策规划系统,但由于缺少动作模态,所以决策系统与控制系统契合度较低;3)远期阶段(2-5 年):图像-语言-动作多模态模型(VLA)。把动作作为模态融合进入大模型,得到了高度泛化 能力和思维链能力的 VLA,VLA 模型 成熟之后可基本实现具身智能功能。模型预训练(Pre-training)模型微调(Fine-tuning)最终模型大规模无标注数据任务特定训练数据数据预训练+调参=目标 模型泛用性增强 根据场景调整 得到特定所需大语言模型 图像-语言 多模 态模 型图像-语言-动作多模态模型文本处理任务 文生图、图生文任务 现实世界任务ChatGPT、Claude、LLaMA、讯飞 星火 等PaLM-E、DALL-E 等 RT-2 等模态拓展数据规模扩大应用场景 扩张模态拓展数据规模扩大应用场景扩张%15 请阅读最 后评级 说明和 重要声 明 16/28 行业研究|深度报 告 图 24:一 图看懂 机器人 应用场 景 分类和技 术供给 节奏 资料来源:长江 证券研 究所 按照使用场景 的 不同,人形机器人可以分为 服务型机器人和劳动型机器人。服务型机器人主要用于 服务业 接待场景,此类场景对 机器人的人机交互 能力有较高需求,因此服务型机器人通常外表高度拟人,配备了人机交互系统,有成熟的语言识别、合成算法,具备一定的语言处理和逻辑推理能力;但因其很少承担劳动任务,所以 机械硬件配置较低,机动性差,难以完成精细动作。相比之下,劳动型机器人主要用于工业、电力巡检、安防等场景,可以将人力从简单重复劳动或者重体力劳动中解放出来。劳动型机器人重视精准动作控制,通常配备高性能电机、高强度关节,机动性较强,但难以完成复杂的人机交互。图 25:人 形机器 人可分 为服务 型 和劳动型 两 类 资料来源:达闼 官网,特斯拉 官网,长 江证券研 究所 由于大模型仍处于技术发展的初期阶段,无法覆盖全场景,所以需要依据人形机器人应用场景给出不同的赋能方案;后期多模态大模型技术成熟之后,大模型有望赋能全场景的具身智能系统。需要应对从未见过的场景需要拆解复杂任务以及根据环境变化调整动作高泛化性 思维链能力大模型具身智能机器人服务场景机器人 劳动场景机器人短期方案:LLM+感知算法+决策 控制算 法短期方案:感知算法+复杂决策控 制算法远期方案:VLA 大模型改良方案:微软ChatGPTforRobotics当前已有项目:谷歌RT-2中期方案:多模态大模型+控制算 法当前已有项目:谷歌PaLM-E传统软件开发算法服务型机器人适用于接待、客服等场景机动性差交互能力强硬件性能低劳动型机器人适用于工业、安防等场景交互能力差机动性强硬件性能高人形机器人%16 请阅读最 后评级 说明和 重要声 明 17/28 行业研究|深度报 告 服务型机器人 的 短期方 案:大语言模型(LLM)+感知算法+决策控制算法。大语言模型的出现给服务型机器人带来了巨大的技术供给。在大模型出现之前,服务型机器人的人机交互主要靠深度学习模型完成,但深度学习没有文本生成能力,所以针对不同的问题只能 提供固定互动方式,且由于泛化性较低只能解决常见问题。在大模型出现之后,机器人人机交互能力大幅度提高,只需在大模型下游搭配语音算法即可解决覆盖绝大部分服务场景。机器人的大模型系统搭载于云端,全部语言交互由云端计算生成。在运动控制方面,由于服务型机器人不需要精准动作行为,所以决策控制算法相比劳动型机器人较为简单。服务型机器人的大模型仅仅用于人机交互方面,无法对机器人的决策控制产生影响。图 26:交 互能力:大模 型+语 音算 法 图 27:动 作控制:机器 视觉+决策 控制算法 资料来源:长江 证券研 究所 资料来源:长江 证券研 究所 劳 动型 机器 人的 短期方 案:感知 算法+复杂 决策 控制 算法。短时间内,由 于多模 态大模型发展尚不成熟,大模型仅能在人机交互方面为机器人赋能,在运动控制方面仍需技术迭代,所以劳动型机器人仍需采用传统算法方案。此外,由于 劳动型机器人的动作控制相比服务型机器人更加复杂,所以需要更加复杂的强化学习训练流程以得到更具鲁棒性的决策控制算法。此外,由于机器视觉技术仍存在短板,所以机器人往往还需要激光雷达/IMU 等传感器配合其感知环境。微软推出了 ChatGPTforRobotics 模式,可以大幅度提高算法开发效率。ChatGPTforRobotics 通过新思路对 传统算法的 开发模式做 出了改良。在人类 用自然语言指派任务 后,ChatGPT 可以迅速根据 任务生 成相应的 代 码,下游的 机器人 会根据代码完成对应任务。相比于传统 算法开发范式,ChatGPTforRobotics 可以大幅度降低新任务的算法开发 工作量,缩短开发周期。但 ChatGPTforRobotics 模式的缺点在于本质上任务所有 决
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642