20240225_华福证券_计算机行业:Sora技术深度解析_21页.pdf

返回 相关 举报
20240225_华福证券_计算机行业:Sora技术深度解析_21页.pdf_第1页
第1页 / 共21页
20240225_华福证券_计算机行业:Sora技术深度解析_21页.pdf_第2页
第2页 / 共21页
20240225_华福证券_计算机行业:Sora技术深度解析_21页.pdf_第3页
第3页 / 共21页
20240225_华福证券_计算机行业:Sora技术深度解析_21页.pdf_第4页
第4页 / 共21页
20240225_华福证券_计算机行业:Sora技术深度解析_21页.pdf_第5页
第5页 / 共21页
亲,该文档总共21页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
请务必阅读报告末页的重要声明证券研究报告|行业专题报告计算机行业行业评级 强 于 大 市(维持评 级)2024年2 月25日Sora技术深度解析证券分析师:施晓俊 执业证书编号:S0210522050003研究助理:李杨玲王 思 华福证券投资要点 Sora横空出世引领多模态产业革命。美国时 间2 月15 日,文生 视频大 模型Sora 横空 出世,能够根 据文本 指令或 静态图 像生成1 分钟 的视频。其中,视频生成包含精细复杂 的场景、生动 的角色 表情以 及复杂 的镜头 运动,同时也 接受现 有视频 扩展或 填补缺 失的帧。总体而言,不管是在视频的保真度、长度、稳定 性、一 致性、分辨率、文字 理解等 方面,Sora 都做到 了业内 领先水 平,引 领多模 态产业 革命。此外,当 Sora 训练的数据量足够大时,它也展现 出了一 种类似 于涌现 的能力,从而 使得视 频生成 模型具 备了类 似于物 理世界 通用模拟器的潜力。拆解视频生成过程,技术博采众长或奠定了Sora文生视频领军地位。从 技术报 告中,Sora 视 频生成 过程大 致由“视频编 码+加噪降 噪+视频解码”三个步骤组成,视频压缩网络、时空patches、transformer 架构、视频 数据集 等技术 与资源 在其中 发挥了 重要作 用。视频压缩网络:过往VAE 应用于视频领 域通常 需插入 时间层,Sora 从头训 练了能 直接压 缩视频 的自编 码器,可同时 实现时 间和空 间的压缩,既节省算力资源,又最大程度 上保留 视频原 始信息,或为Sora 生成长 视频的 关键因 素,并 为后续 处理奠 定基础。时空patches:1)同时考虑视频中时间和空间 关系,能够捕 捉到视 频中细 微的动 作和变 化,在 保证视 频内容 连贯性 和长度 的同时,创造出丰富多样的视觉效果;2)突破 视频分 辨率、长宽比 等限制 的同时 显著提 升模型 性能,节约训 练与推 理算力 成本。Transformer架构:1)相比于U-Net 架构,transformer 突显Scaling Law 下的“暴力美学”,即参数规 模越大、训练 时长越 长、训练数据集越大,生成视频的效果更好;2)此外,在transformer 大规模 训练下,逐步 显现出 规模效 应,迸 发了模 型的涌 现能力。视频数据集:Sora 或 采用了 更丰富 的视频 数据集,在原 生视频 的基础 上,将DALLE3 的re-captioning 技术应用于视频领域,同时利用GPT 保障文字-视频数据集质量,使得模型具 有强大 的语言 理解能 力。投资建议:我们认为,在视频压缩网络与时空patches提高计算效率与利用原生视频信息的基础上,transformer或取代U-Net成为扩散模型主流架构。可拓展性更强的transformer需要更为有力的算力支持才能保障视频生成质量,同时相比于大语言模型,视觉数据的训练与推理算力需求更大,因而算力有望成为确定性最高的受益赛道。此外,Sora发布有望形成多模态产业“鲇鱼效应”,激励其他多模态厂商的良性发展。建议关 注:1)AI算 力:云 赛智联、思特 奇、恒 为科技、海光 信息、寒武纪、景嘉 微、中 科曙光、浪潮信息、拓维信息、四川长虹、工业富 联、神 州数码 等;2)AI+多模态:万兴 科技、虹软科 技、当 虹科技、中科 创达、大华股 份、海 康威视、漫步者、萤石网络、汉仪股份、美图 公司、云从科 技。风险提示:技术发展不及预期、产品 落地不 及预期、AI伦 理风险 等。2 华福证券0YEVuNqNoNpOsMpMnQsNmN8OcM6MoMoOpNrNiNrRmOfQnPsMaQrRyQNZtQqQvPnPsM目录3 1.Sora引领多 模态革 命,技 术与资 源突显 优势 2.博采众长,Sora技术开拓创 新 3.投资建议 4.风险提示 华福证券41.1 Sora横空出世,引领多模态产业革命 美国时间2月15日,文生视频大模型Sora横空出世,能够根据文本指令或静态图像生成1分钟的视频。其中,视频生成包含 精细复 杂的场 景、生 动的角 色表情 以及复杂的镜头运动,同时也接受现有视频 扩展或 填补缺 失的帧。总体而言,不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面,Sora都做到了业内领先水平,引领多模态产业革命。此外,当 Sora 训练的数据量足够大时,它也展现出了一种 类似于 涌现的 能力,从而使 得视频 生成模 型具备了类似于物理世界通用模拟器的潜 力。资料来源:data learner,新浪新闻图数室,华福证 券研究 所图表:Sora 与业内主流视频生成模型对比图表:Sora 和其他模型优势对比总览公司名称 生成功能 最长时长 时长可延展 相机控制(平移/变焦)动作控制Runway文生视频4S 图生视频视频生视频Pika文生视频3S 图生视频Genmo文生视频6S 图生视频Kaiber文生视频16S 图生视频视频生视频Stability 图生视频 4S Sora文生视频60S 图生视频视频生视频资料来源:data learner,新浪新闻图数室,华福证 券研究 所 华福证券51.2 Sora视频生成过程:视频编码+加噪降噪+视频解码 从技术报告中,Sora视频生成过程大致由以下三个步骤组成:视频编码:Visual Encoder 将原始视频压缩为低维潜在空间,再将视 频分解 为时空patches后拉平 为系列 视频token 以供transformer 处理。加噪降噪:在transfomer 架构 下的扩 散模型 中,时 空patches融 合文本 条件化,先后 经过加 噪和去 噪,以 达到可 解码状 态。视频解码:将去噪后的低维潜在表示 映射回 像素空 间。总体而言,我们认为Sora 技 术报告 虽未能 详尽阐 述视频 生成技 术细节,但从 参考技 术文献 中,可 初步窥 探出时空patches、视 频压缩网络、Transformer 技术架 构、独 特文本 标注视 频数据 集等技 术与资 源优势,这些 或为Sora 占 据业内 领先地 位的原 因。资料来源:魔塔ModelScope社区,华福证券研究所图表:Sora 技术架构猜想 图表:Sora 视频生成过程图视频编码 加噪降噪 视频解码 华福证券目录6 1.Sora引领多 模态革 命,技 术与资 源突显 优势 2.博采众长,Sora技术开拓创 新 3.投资建议 4.风险提示 华福证券72.1 视频压缩网络实现降维,或为长视频生成基础 OpenAI训练了降低视觉数据维度的网络,该网络接受原始视频作为输入,并输出在时间和空间上都被压缩的潜在表示。Sora在这个 压缩的 潜在空间上进行训练,并随后 生成视 频。与 之对应,Sora训练了 相应的 解码器 模型,将生成 的潜在 表示映 射回像 素空间。压缩网络本质上是将高维数据映射至低维空间,低维空间中每个点通常对应原始高维数据的潜在表示,在复杂性降低和细节保留之间达到最优平衡点,实现提升视觉保真度的同时降低算力资源消耗的作用。VAE 为图片生成 领域的 常见图 片编码 器,应 用到视 频领域 则需要 加入时 间维度 以形成 视频框 架。例 如,2023 年发布 的VideoLDM 通过将 视频拆解为每一帧,之后插入时 间对齐 层,从 而实现 了视频 生成。Sora从头训练了能直接压缩视频 的自编 码器,既能实 现空间 压缩图 像,又 能在时 间上压 缩视频。我们认为,在时空维度上压缩视频,既节省了算力资源,又最大程度上保留视频原始信息,或为Sora生成60s长视频的关键因素,并为后续时空patches和transfomer架构处理奠定基础。资料来源:Medium,Towards Data Science,华福证券研究所图表:VAE技术原理图,由编码器和解码器组成 图表:VideoLDM 在图片编码器基础上加入时间维度资料来源:Blattmann et al.Align your Latents:High-Resolution Video Synthesis with Latent Diffusion Models,华福证券研究所 华福证券82.2 时空patches统一视频分割,奠定处理和理解复杂视觉内容的基石 Sora借鉴LLM 中将文本信 息转化 为token 的思路,针对 视频训 练视觉patch,实 现视觉 数据模 型的统 一表达,实现 对多样 化视频 和图像 内容的 有效处理和生成,之后通过视频压缩网络分解为时空patches,允许模型在时间和空间范围内进行信息交换和操作。从Sora技术报告来看,时空patches或借鉴谷歌ViViT操作。ViViT 借鉴ViT 在 图片分 割上的 思路,把输入 的视频 划分成 若干个tuplet,每个tuplet 会变 成一个token,经 过spatial temperal attention 进行空间和时间建模获得有效的 视频表 征token。传统方法可能将视频简单 分解为 一系列 连续的 帧,因 而忽略 了视频 中的空 间信息,也就 是在每 一帧中 物体的 位置和 运动。我们认为,由于连续帧存在时空连续性,Sora的时空patches可同时考虑视频中时间和空间关系,能够更加精准生成视频,捕捉到视频中细微的动作和变化,在保证视频内容连贯性和长度的同时,创造出丰富多样的视觉效果,灵活满足用户的各种需求。资料来源:Google Research ViViT:A Video Vision Transformer,华 福证券 研究所图表:ViViT 可利用时空tuplet 在时空联合建模图表:ViViT 将视频划分为若干tuplet 华福证券92.2 Sora时空patches突破视频长宽比、分辨率等限制 OpenAI 表示,过去的图像和视频生成方法通常会将视频调整大小、裁剪或修剪为标准尺寸,而这损耗了视频生成的质量。例如,ViT 通常需要将图像调整为固定的分辨率与尺寸进行处理,并仅能分解为固定数量的patches,因而限制了灵活处理不同尺寸、分辨率视频的建模。Sora或借鉴谷歌NaViT中“Patch nPack”的方法,在训练效率、模型适应性和推理灵活性等方面具有显著优势。1)允许从不同图像中提取多个patch 打包在一个序列中,从而实现可变分辨率并保持宽高比。2)NaViT 相比ViT 具有较高计算性能。例如,使用四倍少的计算量,NaViT 到达顶级ViT 的性能。此外,NaViT 可以在训练和微调过程中处理多种分辨率的图像,从而在各种分辨率下都能表现出优秀的性能,在推理成本方面给NaViT 带来了显著的优势。我们认为,经过patch 化之后,Sora 无需对数据进行裁剪,就能够对不同分辨率、持续时间和长宽比的视频和图像的原始数据进行训练,既极大程度上利用原始信息保障生成高质量图片或视频,又显著提升模型性能,节约训练与推理算力成本。资料来源:Google Research,Brain Team AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE,华福证券 研究所图表:NaViT 突破分辨率、宽高比限制图表:ViT 需调整图像为标准尺寸并分解为固定数量patches资料来源:Google DeepMind Patch n Pack:NaViT,a Vision Transformer for any Aspect Ratio and Resolution,华福证券研究所资料来源:Google DeepMind Patch n Pack:NaViT,a Vision Transformer for any Aspect Ratio and Resolution,华福证券研究所图表:NaViT 相比ViT 具有显著的计算性能 华福证券10 根据技术报告,Sora在原视频训练有以下优势:采样灵活性:Sora 可 以采样 宽屏1920 x1080p 视 频、竖 屏1080 x1920 视 频以及 介于两 者之间 的所有 格式。这使得Sora 能够直 接按照不同设备的原生宽高比创建内容。它 还允许 在使用 同一模 型生成 全分辨 率内容 之前,快速原 型化较 小尺寸 的内容。改进的构图和画面组成:将Sora 与 一个版 本的模 型进行 了比较,该模 型将所 有训练 视频裁 剪成正 方形。在正方 形裁剪 上训练 的模型有时会生成主体只部分出现在视野中 的视频。相比 之下,来自Sora 的 视频具 有改善 的取景。资料来源:OpenAI,华福证券研究所图表:Sora 改进的构图和画面组成(右图)图表:Sora 采样具有较高灵活性2.2 Sora时空patches突破视频长宽比、分辨率等限制 华福证券112.3 Transformer架构突显Scalling Law的“暴力美学”扩散模型定义了扩散步骤的马尔科夫 链,先 通过向 真实数 据添加 随机噪 声,后 反向学 习扩散 过程,从噪声 中构建 所需数 据的样 本,逐步降噪输出图片或视频。其中,U-Net为扩散模型的重要架构之一,通过训练U-Net预测噪声,逐步去噪后输入结果。U-Net为卷积神经网络模型(CNN),在视频生成领域存在需裁剪数据与额外引入时间层等缺陷。1)卷积神经网络由于架构限 制,存 在分辨 率与长 宽比约 束,输 入与输 出的结 果均需 调整至 标准化 大小,可能产 生 性能 损失与 效率低下等问题。2)U-Net 的去噪模型在处理视频数据时,需 额外加 入一些 和时间 维度有 关的操 作,比 如时间 维度上 的卷积、自注 意力。在该过 程涉及到时间注意力块嵌入位置问题,因而或 较难处 理长视 频较多 帧数的 时间嵌 入。资料来源:Semantic Scholar,Cao et al.A Survey on Generative Diffusion Model,华福证券研究所图表:基于U-Net 架构的DDPM 模型降噪加噪图表:加入时间注意力块的3D U-Net资料来源:Ho et al.Video Diffusion Models,华福证券研究所 华福证券122.3 Transformer架构突显Scalling Law的“暴力美学”OpenAI 在 2020 年首次提出了模型训练的秘诀Scaling Law。根据 Scaling Law,模型性能会在大算力、大参数、大数据的基础上像摩尔定律一样持续提升,不仅适用于语言模型,也适用于多模态模型。Sora替换U-Net为DiT的transformer作为模型架构,具有两大优势:1)transformer可将输入视频分解为3D patch,类似DiT 将图片分解为图块,不仅突破了分辨率、尺寸等限制,而且能够同时处理时间和空间多维信息;2)transformer延续了OpenAI 的Scaling Law,具有较强的可拓展性,即参数规模越大、训练时长越长、训练数据集越大,生成视频的效果更好。例如,Sora 随着训练次数的增加,小狗在雪地里的视频质量显著提升。U-Net 为扩散模型主导架构,主要系Transformer 中全注意力机制的内存需求会随输入序列长度而二次方增长,高分辨率图像处理能力不足。在处理视频这样的高维信号时,这样的增长模式会让计算成本变得非常高。然而,我们认为,OpenAI背靠微软云计算资源,具有较强的算力禀赋支持其再次打造“ChatGPT”时刻的Sora,此外通过视频网络空间降维技术可起到节约算力资源的作用,进一步促成Sora的成功与巩固OpenAI的龙头地位。资料来源:Peebles&Xie Scalable Diffusion Models with Transformers,华福证 券研究 所图表:采用transformer架构的DiT图表:随着计算次数增加Sora 生成的视频质量明显提升图表:DiT 中将图片分解为图片块资料来源:Peebles&Xie Scalable Diffusion Models with Transformers,华 福证券 研究所资料来源:OpenAI,华福证券研究所 华福证券132.3 Sora在Transformer大规模训练下涌现模拟能力 Sora在大规模训练的“暴力美学”下,未经过明确的3D、物体等归纳信息的训练,逐步显现出规模效应,迸发了模型的涌现能力:3D一致性:Sora能够生 成具有 动态相 机运动 的视频。随着 相机的 移动和 旋转,人物和 场景元 素在三 维空间 中保持 一致地 移动。长距离连贯性和物体持久性:Sora通常 能够有 效地建 模短距 离和长 距离依 赖关系。例如,即使 在人、动物和 物体被 遮挡或 离开画 面时,也能持 续保持它们的存在;在单个 样本中 生成同 一角色 的多个 镜头,并在整 个视频 中保持 其外观。与世界互动:Sora有时可以模拟 一些简 单的动 作来影 响世界 的状态。例如,画家 可以在 画布上 留下随 时间持 续存在 的新笔 触,或 者一个 人可以 吃一个汉堡并留下咬痕。模拟数字世界:Sora可以在同时 控制 我的世 界中 的玩家 采用基 本策略 的同时,还能 以高保 真度渲 染世界 及其动 态。资料来源:OpenAI,华福证券研究所图表:3D 一致性 图表:长距离连贯性和物体持久性图表:与世界互动 图表:模拟数字世界 华福证券142.4 数据来源或更为丰富,视频重标注技术展示强大语言理解能力 缺乏丰富的视频数据集以及如何对视频标注文本为文生视频的主要难点之一。从 流行的Gen-2、Emu Video 等应用来 看,这 些模型 通常先 利用CLIP 技术训练生成文 本-图像对,之后加 入时间 层对视 频进行标注,因而或许面临视频 数据质 量保证 问题。Sora训练数据集具有如下特点:数据来源 或更 为丰富。Sora 技术报 告未 披露训练 数据 的详细情 况,而我们认 为从 其涌现能 力表 现来看,Sora在训练数据中或许容纳了众 多电影、纪录 片、甚 至游戏 引擎等 合成数 据。原生视频处理。不对视频/图片进 行裁剪 等预处 理,从 而保证Sora生成的灵 活性。Sora 建立在过去DALL E3和GPT 模型 的研究 基础之 上,构 建视频re-captioning,使得模 型具有 强大的语言理解能力。原始的 文本可 能并不 能很好 的描述 视频,可以通 过re-captioning的方式 为视觉 训练数据生成高度描述性的字 幕。因 此,该 模型能 够在生 成的视 频中更 忠实地 遵循用 户的文 字提示。资料来源:澎湃、AI 新智 界,量 子位,Runway Structure and Content-Guided Video Synthesis with Diffusion Models,GenAI,Meta EMU VIDEO:Factorizing Text-to-Video Generation by Explicit Image Conditioning Stability AIStable Video Diffusion:Scaling Latent Video Diffusion Models to Large Datasets,华福证券研究所图表:DALLE 3 利用文本重新标注技术渲染更好结果资料来源:Betker et al.Improving Image Generation with Better Captions,华福证券研究所图表:Sora 根据文本说明生成高质量视频资料来源:OpenAI,华福证券研究所公司 产品 推出时间 模型 架构 数据集 文本条件生成方法Runway Gen-2 2023.06 扩散模型 U-Net2.4亿张图片640万视频片段CLIPMeta Emu Video 2023.11 扩散模型 U-Net3400万视 频-文本对CLIPStability AIStable Video Diffusion2023.11 扩散模型 6亿个样本数据集CoCa、V-BLIP、LLM、CLIP图表:主流文生视频模型数据集情况 华福证券目录15 1.Sora引领多 模态革 命,技 术与资 源突显 优势 2.博采众长,Sora技术开拓创 新 3.投资建议 4.风险提示 华福证券163 投资建议 我们认为,在视频压缩网络与时空patches提高计算效率与利用原生视频信息的基础上,transformer或取代U-Net成为扩散模型主流架构。可拓展性更强的transformer需要更为有力的算力支持才能保障视频生成质量,同时相比于大语言模型,视觉数据的训练与推理算力需求更大,因而算力有望成为确定性最高的受益赛道。此外,Sora发布有望形成多模态产业“鲇鱼效应”,激励其他多模态厂商的良性发展。建议关注:1)AI算力:云赛智联、思特 奇、恒 为科技、海光 信息、寒武纪、景嘉 微、中 科曙光、浪潮 信息、拓维信 息、四 川长虹、工业富联、神州数码等。2)AI+多模 态:万兴 科 技、虹软 科 技、当虹 科 技、中科 创 达、大华 股 份、海康 威 视、漫步 者、萤石网 络、汉仪股 份、美图公 司、云从科技 华福证券目录17 1.Sora引领多 模态革 命,技 术与资 源突显 优势 2.博采众长,Sora技术开拓创 新 3.投资建议 4.风险提示 华福证券184 风险提示 产品落地不及预期。垂直领域产品推出速度缓慢,商业化 进行较 慢。技术迭代不及预期。AI多模态技术发展未能取得新的突破。AI伦理风险。AI技术滥用导致的数据安全、隐私安 全等问 题。华福证券分析师声明及一般声明分析师声明本人具有中国证券业协会授予的证券投资咨询执业资格并注册为证券分析师,以勤勉的职业态度,独立、客观地出具本报告。本报告清晰准确地反映了本人的研究观点。本人不曾因,不因,也将不会因本报告中的具体推荐意见或观点而直接或间接收到任何形式的补偿。一般声明华福证券有限责任公司(以下简称“本公司”)具有中国证监会许可的证券投资咨询业务资格。本报告仅供本公司的客户使用。本公司不会因接收人收到本报告而视其为客户。在任何情况下,本公司不对任何人因使用本报告中的任何内容所引致的任何损失负任何责任。本报告的信息均来源于本公司认为可信的公开资料,该等公开资料的准确性及完整性由其发布者负责,本公司及其研究人员对该等信息不作任何保证。本报告中的资料、意见及预测仅反映本公司于发布本报告当日的判断,之后可能会随情况的变化而调整。在不同时期,本公司可发出与本报告所载资料、意见及推测不一致的报告。本公司不保证本报告所含信息及资料保持在最新状态,对本报告所含信息可在不发出通知的情形下做出修改,投资者应当自行关注相应的更新或修改。在任何情况下,本报告所载的信息或所做出的任何建议、意见及推测并不构成所述证券买卖的出价或询价,也不构成对所述金融产品、产品发行或管理人作出任何形式的保证。在任何情况下,本公司仅承诺以勤勉的职业态度,独立、客观地出具本报告以供投资者参考,但不就本报告中的任何内容对任何投资做出任何形式的承诺或担保。投资者应自行决策,自担投资风险。本报告版权归“华福证券有限责任公司”所有。本公司对本报告保留一切权利。除非另有书面显示,否则本报告中的所有材料的版权均属本公司。未经本公司事先书面授权,本报告的任何部分均不得以任何方式制作任何形式的拷贝、复印件或复制品,或再次分发给任何其他人,或以任何侵犯本公司版权的其他方式使用。未经授权的转载,本公司不承担任何转载责任。19 华福证券特别声明及投资声明评级特别声明投资者应注意,在法律许可的情况下,本公司及其本公司的关联机构可能会持有本报告中涉及的公司所发行的证券并进行交易,也可能为这些公司正在提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。投资者请勿将本报告视为投资或其他决定的唯一参考依据。投资评级声明备注:评级标 准为报告发布 日后的612 个月内公司股 价(或行业指 数)相对同期 基准指数的相 对市场表现。其中,A 股市 场以沪深300 指数为基准;香港市场以恒生指数为基 准;美 股市场 以标普500 指数 或纳斯 达克综 合指数 为基准(另有 说明的 除外)。类别 评级 评级说明公司评级买入 未来6 个月内,个股相对 市场基 准指数 涨幅在20%以上持有 未来6 个月内,个股相对 市场基 准指数 涨幅介 于10%与20%之间中性 未来6 个月内,个股相对 市场基 准指数 涨幅介 于-10%与10%之间回避 未来6 个月内,个股相对 市场基 准指数 涨幅介 于-20%与-10%之间卖出 未来6 个月内,个股相对 市场基 准指数 涨幅在-20%以下行业评级强于大市 未来6 个月内,行业整体 回报高 于市场 基准指 数5%以上跟随大市 未来6 个月内,行业整体 回报介 于市场 基准指 数-5%与 5%之间弱于大市 未来6 个月内,行业整体 回报低 于市场 基准指 数-5%以下20 华福证券诚信专业 发现价值联系方式华福证券研究所 上海公司地址:上海市浦东新 区浦明 路1436号陆 家嘴滨 江中心MT 座20楼邮编:200120邮箱:华福证券
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642