资源描述
中 泰 证 券 研 究 所 专 业 领 先 深 度 诚 信 证 券 研 究 报 告 2024.03.01人工智能的下一站:文生3D分析师:闻学臣执业证书编号:S0740519090007联系人:刘一哲摘要 以大模型、生成式为代表的新一代人工智能技术与产业变革如火如荼,从Chat GPT 代表的文生文,到DALL E 代表的文生图,再到Sora 代表的文生视频,“暴力美学”在持续突破技术的天花板,多模态也成为了共识的发展趋势,继文本、代码、图片、视频之后,我们认为 下一个有可能实现突破的模态大概率是3D。AI+3D 建模技术具备广阔的发展前景,但其当前也面临较多挑战,如3D 数据与资产缺乏、AI 训练难度高、AI 实时渲染技术有限、商业化落地难度大等问题。目前海外在AI+3D 技术上主要分为工业场景探索与非工业场景探索。非工业场景应用探索主要以谷歌的DreamFusion 和英伟达的Magic3D 为代表,主要面向游戏、元宇宙中的3D 资产设计;工业场景应用则主要以衍生式设计软件为主,如PTC 的Creo 以及Autodesk 的Fushion 360 均提供衍生式设计能力。投资建议:产业视角建议持续跟踪关注文生3D建模领域 的进展,标的视角BIM 领域重点关注广联达、盈建科;CAX 领域重点关注中望软件、索辰科技、浩辰软件;EDA 领域重点关注华大九天、概伦电子。风险提示:AI 技术发展不及预期;核心AI 技术授权断供的风险;行业竞争加剧的风险;产品研发打磨不及预期;研报使用信息更新不及时的风险等0YEVyRqNpMnMoQnOqNsNrQ8OcM9PtRqQpNmQiNoOsRiNqQtP9PrRzRNZmQsPMYmPsN目 录CONTENTS 3D AI+3D AI+3D 1234CONTENTSCCONTENTS专 业 领 先 深 度 诚 信中 泰 证 券 研 究 所1 3D 5不同模态对应的人工智能技术与应用展望图表:生成式AI 达到人 类创作 者水平 的时间资料来源:红杉 汇,中 泰 证券 研究 所61.1 文生文(Text to Text)文生文(Text to Text)是AIGC行业最先实现的功 能,也 是ChatGPT 等 一 系列 大模型 诞生以 来被大 家体验 最多的 功能。目 前,文 生 文模 型 中被 应 用较 多 的是OpenAI 的GPT 系 列 大 模型。ChatGPT率先支持以更连贯自 然的 语 法对 输 入的 问题 进 行回 答。GPT 系 列基 于Transformer 架 构 对 序 列数 据中的 长距离 依 赖 进 行 建模,同时OpenAI 使 用 了来 自互联 网的大 量文本 数据,包括书 籍、文 章和网 站,来 对GPT 模 型 进行无 监督学 习 训 练。目前,GPT 系 列已 被用于 广泛的 自然语 言处理 任务,包括语 言翻译、文本 补全和 文本生 成。GPT-1:发布于2018年6 月,参 数量1.17亿;GPT-2:发布于2019 年2 月,参 数量15亿;GPT-3:发布于2022年5 月,参 数量1750亿;ChatGPT:发布于2022年11 月,参 数量15亿,专门 为会话 任务而 设计和 训练。图表:ChatGPT 中文对 话示例资料来源:腾讯 新闻,中 泰证 券 研 究所图表:ChatGPT 英文对 话示例资料来源:腾讯 新闻,中 泰证券 研 究所71.2 文生代码(Text to Code)ChatGPT的出现,不仅让人 机 对话 更 为连 贯、自 然、有 条 理,且ChatGPT 本 身 即具 备丰富 的代码 知识积 累,可 根据人类 语言 提 示自 动生 成代 码,也 可为 用户 回 答一 般编 程问 题、代 码测 试与 改 进、代码 翻译 等 功能。不过,ChatGPT的诞生并不专门针 对代 码,并 且 可能 无 法无 缝 集成 到 用户 的 工作 流 程中。除ChatGPT 外,目 前市 面上已有很多专业AI 工具 在文生 代码方 面具备 相当的 水平。具有代 表性的 工具如GitHub Copilot、Codex等。GitHub Copilot:Github 与OpenAI共同开发的AI 驱动的编程助手。它 能 够 直 接在 用户的 编辑器 中提供 代码片 段或者整 个函数 的建议,以帮助 用户更快 地编写 和完成代 码。这 一工具可 以被看 作是一个 自动的 代码完成 工具,它能理解 自然 语 言,也 能理 解 代码 本 身的 上 下文。Copilot 在 GitHub 上 可 用 的 公共 存储库 上接受 过训练,能够 处理各 种编程 语言和 框架。Codex:OpenAI公司推出的 GPT-3 的 多 个 派 生 模 型 之 一。它是基 于GPT 语 言 模型、使用代 码数据 进行 Fine-Tune 而训 练 出 的 专 门用于 代码生 成与文 档生成 的模型。Codex 能 够 帮 助 程 序员自 动补全 代码、直接生 成代码、自动 补充测 试样 例,并 支持多种 编程语 言。图表:ChatGPT 生成代 码示例资料来源:腾讯 云开发 者 社区,中 泰证券 研究所图表:GitHub Copilot 生成代码示例资料来源:少数 派,中 泰 证券 研究 所81.3 文生图像(Text to Image)2022 年 前,文 生 图的 模型以 生成性 对抗网 络(GANs)为主。但因 为在实 践中存 在明显 不足,甚至还 不如用Photoshop 等 工 具 直 接 创作,无法 用 于商 业 化。从2021 年OpenAI提出DALL E模型和CLIP(Contrastive Language-lmage Pre-training,对 比 图 文 预 训练)开始,各大公 司 开 始 不 断推出 新的文 生图模 型,从 生成效 果和效 率上相 对于以 前的文 生图方 法都提 升了一 大截。特别是2022年8月Stable Diffusion 正 式 面世 引领AIGC 的 行 业发 展,其 作为一 个迅速 火出圈 的AI 技 术,以极 快的速 度吸引 了大量 关注。同 时,这 也 奠定了Diffusion 模型 在 文本生成 图像领 域的核 心方法 地位。图表:AI 文生图模型阵 营及简 史资料来源:中国 AIGC 文生图产业白皮书 2023,中泰证券研究所91.3 文生图像(Text to Image)代表公司 Midjourney 目 前,通 用 文生图 主要公 司及产 品工具 包括Midjourney、Stability.AI、Disco Diffusion、DALL E 模 型 等,垂 直文生 图主 要 公 司 及 产品 工 具则 包 括looka(Logo 与 网 站 设 计)、NovelAI(二 次 元形 象生 成),Scenario(游戏 资 产生 成),以及Lensa(头 像生 成)。Midjourney:Midjourney 是一款由Midjourney 研 究 实 验 室开 发的人 工智能 程序,可根据 文本生 成图像,于 2022年3 年正 式 面 世,用户通 过与 Midjourney bot 进 行 对 话 式 交互,提交 Prompt(文本提示词)来 快 速获 得 想要 的 图片。Midjourney 参考了 CLIP 及 Diffusion,构 建了自 己的闭 源模型,抓取 公开数 据进行 训练,并构建 了 Discord 中的Midjourney bot 应 用。作 为 应用 层公 司,Midjourney 收 集 用 户 反馈 数据,迭加 技 术的 进 步,不 断迭 代 模型。Midjourney 采取 SaaS 订阅制 模式。最初 使用时,用户可 以免费生 成 25 张照 片。之 后按照 订阅制收 费。月 付制为 10、30、60 美 元,或 者使 用年付 制,价 格为 8、24、48 美元/月。2022 年 3 月,Midjourney 启动邀请制 Beta 版 本。因 为 文生 图本身 具有极 强的吸 引力,且 Midjourney 创作的图片质量 很 高,所 以很快 就吸引 了大量 用户。后续经 多次迭 代后,目前Midjourney 已迭代至v6 版。图表:Midjourney Discord 社群界面资料来源:36Kr,中泰证券 研究所图表:Midjourney 生成图片效果示例资料来源:36Kr,中泰证券 研究所101.4 文生视频(Text to Video)相 较文生 图像,受 制于文 生视频技 术难度、计算难 度、数 据要求、多领域 融合技术 挑战等 因素,文 生视频 领域的进 展则 较 为 缓 慢。直 到2023 年2 月Runway 发布首个AI 编 辑模 型Gen-1,文 生 视频 领域 才 迎来 属 于自 己 的iPhone 时 刻,自 此之 后一年 内,文生 视频技 术飞速发 展,生 成的视频 从时长、连续性、视频 质量、视 频合理 性均有大 幅提升。文生视频的iPhone 时 刻:Runway 先后发布Gen-1、Gen-2。1)2023 年2 月,之 前参 与开发Stable Diffusion 最初版本的Runway 提出了首个AI 编 辑 模型Gen-1,Gen-1 可 以 在 原 视频 的基础 上,编 辑出用 户想要 的视频。2)2023年3月,Runway 很快又推出了Gen-2 的 内 测 版 本,并于6 月份正 式对外 发布。Gen-2 刚 开 始 发布时 还只能 生成4 秒钟 的视频,每个 用 户 的 免 费试用 额度为105秒,到 了8 月份,生成 视频的 最大长 度便从4s 提升 到了18s;9 月,新增 导演模 式,可 以控制 镜 头 的 位 置和移 动速度。3)2023年11 月3 日,Runway 的Gen-2 发 布 里 程 碑 式 更新,支持4K 超逼 真的清 晰度作 品,并于11 月21日上线“涂 哪动 哪”的 运 动笔 刷 新功 能。2023 年11 月16日,Meta 发 布 生 成 式 视 频 模 型Emu Video。该 模 型 既 支 持灵活 的图像 编辑,也支持 根据文 本和图 像生成 高 分 辨 率 视频。根据展 示的demo,Emu VIDEO 已 经 可 以 支持 4 秒 的 视 频 生成。2023 年11 月18 日,字 节 发 布PixelDance。PixelDance 给 出了两 种不同 的视频 生成模 式。1)基 础 模 式(Basic Mode),用 户 只 需 要提 供一张 指导图 片+文本 描述,PixelDance 就 可 以 生 成 有高 度一致 性且有 丰富动 态性的 视频,其中 指导图 片可以是 真实图 片,也可 以利用 现有的文 生图模 型生成。2)高 级 魔 法 模 式(Magic Mode),在这 种模式下,用 户 需 要 提 供两张 指导图 片+文本 描述,可以 更 好地 生 成更 有 难度 的 各种 炫 酷特 效 镜头。2023 年11 月21日,Stability AI发布了自家的生成式视频模型Stable Video Diffusion(SVD),该 模 型 支 持 文 本到视频、图 像 到 视频生 成,并 且还支 持物体 从单一 视角到 多视角 的转化(即3D 合成)。2023 年11 月29日,Pika 结 束 测 试 版 运 行,正 式 发 布Pika 1.0。Pika 1.0 可 支 持 对 于 视频 的实时 编辑和 修改,可根据 已有 的素材 直接扩展 视频,生成不同 高宽比 的内容,亦可直 接在视频 中添加 想要的素 材。111.4 文生视频的重大突破:OpenAI发布Sora 2024 年2 月16日,OpenAI 正 式 发布文 生视频 大模型Sora。该 模型被 视为文 生视频 领域的 革命性 突破。Sora的能力:Sora 是 一 种 基 于 扩散 模 型 和 Transformer 架构的 Al 视 频 生 成 模 型,它可 以 根据 用 户提 供 的文 本 指令 生成 最高 长 达 一分钟 的复杂 视频内 容。与 传统的 视频生 成工具 相比,Sora 能 够 细 致 地 理解 用户提 示中的 内容,并生成 具有 视觉品 质和连贯 性的视 频,展现 出了对 现实世界 的深刻 理解。图表:Sora 生成视频案例:东京街 头漫步 的女子(时长 一分 钟)资料来源:OpenAI,CSDN,中泰证券研究所图表:Sora 生成视频案例:野外 雪 地与 狗 玩耍(时长4 秒)资料来源:OpenAI,CSDN,中泰证券研究所121.4 文生视频的重大突破:OpenAI发布Sora 图表:Sora 生成“两艘海盗 船在一 个咖啡 杯中航 行、互 相战斗 的逼真 特写视 频”资料来源:OpenAI,机器之 心,中 泰证券 研究所 归纳而言,Sora 的 突 破之处 主要体 现在三 点:生 成 视 频 时 长 实 现 突 破,可 达 一 分 钟。之 前的 较 多文 生 视频 模 型都 只 支持 生 成4 秒的 短视 频,而Sora 可 支持 长达 生 成一 分钟的 视频,且 视频质 量始终保 持较高 水准。生 成 视 频 可 保 持 三 维 空 间 的 连 贯 性。Sora 能 生 成 带 有动 态视角 变化的 视频。当摄像 机位置 和角度 变动时,视频 中的人物 和 场 景 元 素能够 在三维 空间连 贯移动,而且 即使人 物、动 物或物 体被遮 挡或移 出画面,Sora 也 能 保 持 长时 间视频 的连 续性。同样,它 能在同 一视频样 本中多 次展示同 一角色,并确保 外观一 致。具 备 初 步 的 物 理 规 则 理 解 能 力,不 过 当 前 理 解 复 杂 场 景 和 规 律 有 难 度,且 对 事 物 发 生 的 因 果、时 序 和 空 间 关 系 理 解 不足。OpenAI 将 Sora 视 为“能 够 理解和 模拟现 实世界 的模型 的基础”,英 伟达高 级科学 家 Jim Fan也认为“Sora 实际上 是 一 款 基 于 数 据 的 物 理 模 拟 引 擎,它能 够模拟 出真实 或虚构 的世界。”不 过,就 已生成 的案例 来看,Sora 在 深 刻理解 物理规 律上仍然 存在可 提升的地 方,例 如不能准 确模拟 许多基本 交互的 物理现象,如玻 璃碎裂。其他一 些形式的 交互,如吃 食物,也 并不总 能产生正 确的物 体状态变 化。图表:Sora 生成“玻璃杯打 碎溢出 红酒”时产生bug资料来源:OpenAI,机器之 心,中 泰证券 研究所131.4 SORA之后的下一步:文生3D Sora 之 后 的 新 方 向:AI 赋能文生3D 建 模 或 成 为 新 发 展 趋 势。除 了 视 频 时 长、多 角度拍 摄连贯 性上之 外,Sora 最 大的 突破在 于其对 物理规 律开始 有了真 正意义 上的理 解,但 也可以看到,Sora 对 物 理规 律的理 解仍然 有较大 的提升 空间,而这一 步的提 升或对 应相应 的产业 潜在机 会。未 来 随 着 数 字化的 持续发 展,3D 资产 数量的 快速增 长,3D 建 模的自 动化生 成或成 为新的 发展风 口,而 以各种 大模型 为代表的AIGC 生 产 能 力赋 能3D 建模,以及 文生3D 需求 持续 增 长,都 将促 进AI 赋能3D 建模 的快 速 发展。14CONTENTSCCONTENTS专 业 领 先 深 度 诚 信中 泰 证 券 研 究 所2AI+3D 152.1 何为3D建模图表:3D 建模与应用资料来源:头豹 研究院,中泰证券 研究所 什么是3D建模:3D 建 模 指 的 是 使 用 软 件 来 创 建 三 维 对 象 或 形 状 的 数 学 表 示 形 式 的 过 程。3D 建模 技术和3D 模 型广泛 应用 于医 疗、传 媒娱 乐、建 筑工 程、科学 研 究等 多个 行业 领 域。162.1 3D建模的两种技术方式 曲 面 建 模 和 多 边 形 建 模 是3D 建 模 两 大 流 行 的 建 模 方 式。曲 面 建 模 使 用 数 学 语 言 精 确 描 述 各 种 曲 面 形 体,用 于 工 业 制 造行 业;多 边 形 建 模 使 用 网 格 单 元 拟 合 集 合 体,多 用 于 娱 乐 影 视 行 业。图表:曲面建模(NURBS 建模)的特点与步骤资料来源:头豹 研究院,中泰证券 研究所 曲 面 建 模,也 叫 做NURBS 建 模,是 一 种 基 于 几 何 基 本 体和绘制曲线的3D 建 模 方 式,其 建 模 底 层 逻 辑 是 用 数 学 语言 精 确 描 述 各 种 曲 面 形 体。曲 面建模 的模型产 品是由 曲线构建 曲面组 合而来,由于曲 线具有 平滑和最 小特性,使得曲 面建模 对于构建 各种有机 3D 形 状 十 分 有 用。使用 曲 面建 模 能够 制 作出 任 何形 状 的、精 度非常 高的三 维模型,这一 优势使 得ISO 颁布的STEP 中把NURBS 作 为定义 工业产 品几何 形状的 唯一数 学方法。曲 面 建 模 常 用 于 参 数 化 的 造 型 设 计 中,用 于 支 持 高 精 度的 数 字 化 制 造 产 业,但 其 高 精 度 的 特 点 也 使 得 曲 面 建 模算 法 复 杂,难 度 较 高,模 型 计 算 时 间 较 长。多 边 形 建 模,是 将 一 个 完 整 的 模 型 由 无 数 个 多 边 形 面 组合 而 成,其 建 模 底 层 逻 辑 是 用 网 格 单 元 去 拟 合 几 何 形 体。建 模 过 程 中,三 角 形 数 量 越 多,模 型 精 度 越 高,建 模 速度 越 慢。多 边形建 模通过合 并三角 形来减少 三角形 数量,从 而提高 计算性 能,加快 计算速 度,但也 使得模 型产品精 度不足,难以 用于对追 求精确 的工程软 件中。早 期,多 边形建模 主要用 于游戏,到现在,多 边 形 建 模已 经 广 泛 应 用 于 各 种 对 计 算 速 度 要 求 较 高、而 精 确 性 要求 不 高 的 场 合,包 括视觉 渲染、影 视特效 等场景。图表:多 边形建 模的特 点 与步骤资料来源:头豹 研究院,中泰证券 研究所172.1 3D建模市场现状与预测 2021年,中国3D 建 模 软 件 市 场 空 间 达 到103.4 亿 元,娱 乐 是 当 前 市 场 增 长 主 要 推 动 力。未 来,随 着 元 宇 宙 等 新 概 念 赋能,市 场 空 间 将 持 续 扩 张,预 计 到2026 年,市 场 规 模 将 达 到195.7亿元。在 中 国,3D 建 模 软 件 当 前 主 要 用 于 工 业 行 业、建 筑 行 业、动 漫 影 视 行 业 和 游 戏 行 业。2022 年中 国3D 建模 软件市 场中,游 戏 市 场 应 用占比34.3%位 列第 一,3DCAD 和BIM 分别以31.3%、30.5%位列二三位。图表:中国3D 建模软件市场规模 及预测(单位:亿元)资料 来源:头豹 研究 院,中泰证券 研究所103.4195.70501001502002502021 2026中国3D 建模软件市场CAGR=13.6%图表:2022 年中国3D 建模软件市场规模 占比资料 来源:共研 产业 咨 询,中泰证 券 研究 所34.3%31.3%30.5%3.9%游戏3DCADBIM动漫影视182.2 AI赋能3D建模:创意与技术的结合 什么是AI+3D建模:AI+3D 建 模 是 利 用 人工智 能技术,自动 化地生 成高质 量的 3D 模 型 的 过 程。传统 的 3D 建模需要用户 花 费 大 量 时间 和 精力 进 行手 工 创作,而 AI+3D建模则通过训练机器 学习 算 法,使 计算 机能 够 自动 学 习和 生成 3D 模型,极大 地提高了 效率和 准确性。AI+3D建模特点与功能:高效快速:AI 赋能3D 建 模能够 在短时 间内完 成大量 的 3D 模 型 生 成 任 务,省 去了 人 工制 作 的繁 琐 过程,大大 提 高了 生产 效率。高精度准确:借 助机 器 学习 和 深度 学 习算 法,AI 赋能3D 建 模能 够 分析 海 量的 3D 数 据,并 根 据学 习到 的 规律 生 成高 度准确的 3D 模 型,减 少了 人为误 差。多领域适用:无 论是游 戏、影 视、建 筑、产 品设计 还是虚 拟现实 等领域,AI 赋能3D 建 模都能 够提供 可定制 化的解 决方案,满足 各行各业 的需求。AI 赋能3D建模的意义:3D 建 模 是 未 来 内 容 创 作 者 工 作 中 的 一 个 环 节,但 未 来 的3D 世 界 需 要 足 够 庞 大 的3D 资 产 作 为 其中 的“基 建”,其 建 设 效 能 提 高 有 着 重 要 的 意 义。192.2 AI赋能3D建模有望提升相关研发设计软件市场规模 在 工 业 设 计 领 域,AI+3D建模主要可以应用 于CAD、BIM、EDA 三大设计工具。对于CAD而言,AI 赋能CAD 可以 加 快三 维 模型 的 设计 过 程;对于BIM,AI赋能BIM 可 以帮 助BIM 软 件优 化工程 设计如 管线排 布方案,提升 工程项 目的生 产效率、提高 建筑质 量、缩短 工期、降低建造 成本。对于EDA,随着2.5D/3D IC 设 计 的 加 速 发展,AI 赋能EDA 有 望快 速 实现 系 统级 全 流程3D 设计。综上,AI赋能3D 建 模进 一步提 升了CAD、BIM、EDA 三 类研发 设计类 工具的 价值量,从而 有望扩 大其当 前市场 规模。图表:全球BIM 市场规模及预测(单位:亿美元)资料来源:Transparency Market Research,中泰证券研究所图表:全球CAD 市场规模(单位:亿美元)资料来源:CIMdata,e-works,中泰 证 券研 究 所图表:全球EDA 市场规模及预测(单位:亿美元)资料来源:CIMdata,e-works,中泰 证 券研 究 所556065707580852017 2018 2019 2020 2021全球CAD市场规模15.9%15.6%15.9%15.9%15.9%14.6%15.2%15.8%14.8%15.8%15.4%14%14%15%15%16%16%17%020406080100120140160全球BIM 行 业 市 场 规模 增速9.0%11.1%2.1%9.6%17.4%0%2%4%6%8%10%12%14%16%18%20%0204060801001201402016 2017 2018 2019 2020 2021全球EDA市场空间 增速20AI+3D建模的挑战点 AI+3D建模发展前景远大,但当前也 面临 较 多挑 战:目前来看,AI 主 要 被用于 辅助3D 建模,例 如 自动 化 和简 化 流程、智 能 化 几 何 形状 生 成、纹 理映 射、材 质 匹配 等。长 远 来看,AI 在3D 建模 中从 辅 助变 为 主导 力 量是 发 展的 大 趋势,但这一 趋势也 面临较多 的挑战,主要包 括以下 几方面:3D 数 据 与 资 产 缺 乏:AI 创 作 对于数 据,算 法等有 着极高 的要求。3D 内容因 其发展 历史短、覆盖 行业少、公开 传播内 容少,导致3D 数据 具有天 然稀缺 性,目 前比较 大的3D 数 据集基 本在百 万级别,相比 于十亿 级别的 图像数 据集有 三个数 量级 的差 距,并 且数 据质 量 和一 致性 较差,制约 了模 型的“想象 力”,比 如 没有 见过 的物 品 或者 组合。这 些 因素 限制 下,目前3D 数 据 集难 以训练 出高质 量的3D 模 型。AI 训练难度高:三 维 模 型 的 数 据量、复杂度 远高于2D 的 文字和 图片,直接计 算学习 的难度 和成本 远高于2D 数据,AI 如果直接使用2D 扩 展成3D 模 型,即 使拥有 足够的 数据,但极大 的计算 量会导 致速度 的劣势。同时,撰写 脚本使 其创作 符合 要求 的 作品 也是 一个 巨 大的 难题。AI 实时渲染技术有限:目前AI 渲 染能 力 暂时 无 法满 足 真正 的 使用 需 求,多 次输 入 相同 关 键词 的 情况 下,渲 染 的图 会 逐渐 变得模 糊甚至走 形。商 业 化 落 地 难 度 大:目 前一些 较火的 建模工 具都尚 未开源,AI 的3D 创 作在落 地场景、可行 性的商 业化路 径、技 术风险等 方面都 尚无法达 到工业 化的生产 标准,更多仍处 于前期 探索阶段。21CONTENTSCCONTENTS专 业 领 先 深 度 诚 信中 泰 证 券 研 究 所3 AI+3D 223.1 非工业场景、生成式AI+3D建模的两大路线 从 实 现 路 径 上,生 成 式3D 可 以 粗 略 划 分 为“原 生 3D”和“2D 升 维”两 种 不 同 技 术 路 线。核 心 区 别 在 于 是 直 接 文 字 到3D,还是先到2D 图 像 再 进 一 步 通 过 扩 散 模 型 或 者NeRF生成3D。两 种 路 径 的 选 择 对 于 模 型 的 生 成 质 量、速 度 和 丰 富性 有 决 定 性 的 影 响。图表:3D 生成技术路线及典型模 型资料来源:读树 一帜,腾 讯网,中 泰证券 研究所233.1 非工业场景、生成式AI+3D建模的两大路线各有优缺点 原生3D派:原生3D 路 线 主 要 特 点 是 使 用3D 数 据 集 进 行 训 练,从 训 练 到 推 理 都 基 于 3D 数 据,通 常 也 是 基 于diffusion模型和transformer模型的方法进行训 练,实 现从 文 字/图 片 输 入 直 接 到3D 资 产 的 生 成。优势:1)生 成 速 度 快:2D 升维通 常利用 2D 扩 散 生 成 模 型来 指导 3D 表示(如 NeRF)的 优 化,需 要很 多 步迭 代 导致非常耗时,而3D 原生的 生成通 常可以 在1min 以内完 成,类 似2D 的文生 图;2)生 成 质 量 高:在特 定范围 内能够 生成质量较高的3D 资产,比如 通过高 质量的3D 人脸数 据可以 训练出4k 以 上高质 量的3D 人脸,同时 避免了2D 升 维的多 面等问题;3)兼 容 性 好:通常 有几何 和纹理 的分别 生成,可以直 接在标 准图形 引擎中 进行后 续编辑。劣势:丰 富 性 不 足,原生3D 生成 的问 题 在于 缺 乏高 质 量、大 规模 的3D 数 据集。代表模型:Get3D(Nvidia)、Shap-E(OpenAI)、Dreamface(影 眸科技)2D升维派:通过 2D 生成模型(如 Imagen、diffusion model)生成多个视角的 3D 视图,然后用 NeRF 重建。背后核心逻辑是3D 数 据 集 的 匮 乏 难 以 满 足 丰 富 的3D 生 成 需 求,在2D 的 文生图 红红火 火的背 景下开 始越来 越多的 研究者 试图基于海量的2D 图像 数 据来 实 现3D 的生 成,并 取得 了 飞速 的 进展。优势:可 以 利用大 量的2D 图 像数据 进行预 训练,数据的 丰富性 使生成 的3D 模型复 杂度提 高,富 有“想 象力”。劣势:1)生 成 速 度 慢:NeRF 的 训练 和推理 过程都 需要大 量的计 算资源。因为 需要对3D 空 间进行 密集的 采样,这也导致 了 生 成 速 度较慢;2)生 成 质 量 较 低:NeRF 更擅长 合成视 角而非 精确重 建,受 限于采 样数量、视角 数量及 计算资 源的平衡,目前2D 升维生 成3D 在分 辨率、纹理 细 节都 还 比较 粗 糙,以 及2D 升维3D 过 程中的 一些非 理想效 应的存 在,导致 整 体 的 生 成质 量 还有 较 大提 升 空间;3)兼 容 性 问 题:NeRF 格式 无法 直 接在Unity 等3D 引 擎 中 进行 后 续的 编 辑,需要 经过一 定的转换 处理才 能编辑。代表模型:Dreamfield、Dreamfusion(Google)、Point-E(OpenAI)、Magic3D(Nvidia)、ProlificDreamer(生数科技)、One-2 3 45。243.1.1 3D 原生派:OpenAI 的Shap-E 2023 年5 月,继 文本 生成图 片模型 DALL E 之后,OpenAI 再次发布了 Shap E 模 型。用 户可 以直接 输入文本,用于创 建 逼 真 且 多样 化 的 3D 模型。Shap E 并 不 仅 只 是一 个3D 模 型 生 成 器,而 且可 以 直接 生 成隐 式 函数(implicit functions)的 参 数,而这些 参数可 以渲 染 纹 理 网 格(textured meshes)和 神 经 辐射 场(NeRF)。这 意 味着 Shap E 和 当 前 仅 输出 点云(point clouds)或体素(voxels)的模型 不同,可 以 生 成 具 有 细 粒 度 纹 理 和 复 杂 形 状 的 高 质 量 3D 资 产,这 使 得 生 成 的 模 型 可 以 轻 松导入到3D 软 件 中 进 行 后 续 处 理。Shap E 的 具 体 训 练过程 如下:训练一 个3D 编码 器,将3D 资源 确 定性 地 映射为 隐含函 数的 参 数;在 编码器 的 输出上 训练一 个条件 扩散模 型。在 大量成 对的3D 和文 本数据 集上训 练后,Shap E 能 够在 短短几 秒钟内 生成复 杂 且 多 样 化的3D 资源。较上一代3D 生成 模型Point-E而言,Shap-E收敛速度 更 快,生 成 质 量 更 好。OpenAI 展示了 Shap E 的 一 些 实 操 结果,例如一碗 食物,一只企鹅,一只 体素化的 狗,一 个篝火,一 把鳄梨 形的椅子 等,结 果显示整 个图片 可以在几秒 内完 成 渲染。图表:Shap-E 一些生成3D 模型的示例资料来源:IT之家,中 泰证券 研究所253.1.2 2D 升维派:Google 的DreamFusion 2022 年9 月29日,Google 发 布了文 生3D 的技术DreamFusion。DreamFusion 利用 预训练 的 2D 文 本 到 图 像扩 散模型,首次在无需 3D 数 据 的 情 况 下完 成开 放 域的 文 本到 3D 的合成。DreamFusion的工作原理:通过 2D 生成模型(如 Imagen)生 成 多 个 视 角 的 3D 视图,然后用NeRF(神 经 辐 射 场)重 建,合 成 得 到 物 体 的3D模型。具体如 下:文本转2D:利用Imagen 模 型,将文本 提示生 成为对 应二维 图像;DreamFusion的优化迭代:1)随 机采 样摄 像 头和 光 线,2)渲染来 自该摄 像头的NeRF 图 像,并 使用光 线着色,3)计算SDS(分 数蒸 馏采 样,Score Distillation Sampling)损 失相 对于NeRF 参数 的梯 度,4)用 优化 器 更新NeRF 参 数。DreamFusion的优势与不足:优势:无需3D 数 据即可 完成文 本到3D 的 生成;不足:1)受 限于Imagen 分 辨 率,3D 合 成 模 型 往往 缺乏精 细细节,而使 用更高 分辨率 的的扩 散模型 和更大 的 NeRF 则会 产 生 多 层 迭代带 来的生 成效率 问题;2)不同 摄像头 视角间 的一致 性较难 以保证。图表:DreamFusion 的优化迭代步骤图 示资料来源:AI-Scholar,中泰 证券 研 究所图表:NeRF 工作原理图解资料来源:AI-Scholar,中泰 证券 研 究所263.1.2 2D升维派:NVIDIA 的Magic3D 2022 年11 月,英 伟 达 推 出 了AI 工具 Magic3D,可以基于文本描 述自 动 生成 3D 模 型,对 标 谷 歌 的 DreamFusion。与 DreamFusion 使 用 文 本 到 图像 模型 生 成 2D 图 像,然 后优 化为 体 积 NeRF(神经 辐 射场)数据 的 方式 类 似,Magic3D 的 渲 染 过 程 也 分为两 个步骤,将低 分辨率 生成的 粗略模 型优化 为高分 辨率,最终生 成高保 真的 3D 内容,并且 很容易 在标准图 形软件 中导入和 可视化。第一阶段,Magic3D 优 化 了 类 似于 DreamFusion 的 粗 略 神 经场 表征,以实现 具有基 于哈希 网格(hash grid)的内存和 计算的 高效场景 表征。第 二 阶 段,该方 法 切换 到 优化 网 格表 征。这 一 步骤 在 高达 512 512 的 分 辨 率 下 利用 扩散 先 验。由 于 3D 网格适用于快 速图形 渲染,可 以实时 渲染高分 辨率图 像,因此 该方法 利用基于 光栅化 的高效微 分渲染 器和相机 特写来 恢复几何 纹理 中的高 频细节。图表:Magic3D 技术pipeline 图示资料来源:NVIDIA,将门创投,中 泰证券 研究所273.1.2 2D 升维派:NVIDIA 的Magic3D Magic3D 还 可 以 执 行 基 于提示 的 3D 网 格 编 辑:给 定低分 辨率 3D 模 型 和 基 本 提示,可以更 改文本 从而修 改生成 的模型 内 容。此 外,作 者还 展 示了 保 持画 风,以 及 将 2D 图 像 样 式 应用 于 3D 模型的能力。Magic3D生成效果对比:为了对 比实际 应用效 果,英 伟达的 研究人 员把 Magic3D 和谷歌的 DreamFusion 在 397 个文本 提 示 生 成 的内容 上进行 了比较。平均 而言,粗略模 型生成 阶段花 费 15 分 钟,精 细 阶段则 训练 25 分 钟,所 有 运行 时间均在 8 块英伟达 A100 GPU 上测得。无论是DreamFusion还是Magic3D,目前 而言他 们更多 的可能 用途可 能均集 中于给 游戏和 元宇宙 世界提 供制作 海量 3D 模 型,而 且让 所有 人都 可 以上 手使 用。图表:Magic3D 生成图片示例资料来源:NVIDIA,将门创投,中 泰证券 研究所图表:Magic3D 可修改提示词来修改生成的模 型资料来源:NVIDIA,将门创投,中 泰证券 研究所283.2 AI+3D之于工业场景:衍生式设计(生成式设计/创成式设计)和 非 工 业 场 景有所 区别的 是,由 于 工 业 生 产 制 造 场 景 对 准 确 度、精 度 的 要 求 较 高,目 前AI 赋能3D 建 模 在 工 业 制 造 领 域主 要 集 中 于 研 发 设 计 阶 段,且 目 前 仍 以 辅 助 式 手 段 的 角 色 存 在。在工 业 生产 制 造领 域 内,AI+3D 主要 以衍 生 式设 计(又 称 生 成 式设计/创 成式设 计)的 形式存 在。衍 生 式 设 计 是 模 仿 自 然 的 进 化 设 计 方 法。设计师或 工程师 将设计目 标输入 到生成设 计软件 中,以及 材料,制造方法 和成 本限制 等参数。软件会 探索解决 方案的 所有可能 排列,快速生成 设计备 选方案,然后软 件自己测 试并从 每次迭代 中学 习哪些 有效,哪 些无效。具体步 骤如下:设 计师 根 据重 量,成本,材料,体 积和 强 度等 约束 条件 输 入要 求。计 算 机 使 用 算法和AI 生 成数 千种设 计,同 时对每 种设计 进行性 能分析。设 计师研 究选项,并允许 改变设计 目标,允
展开阅读全文