20240218_华福证券_计算机行业:多模态AI大模型新一轮革命_28页.pdf

返回 相关 举报
20240218_华福证券_计算机行业:多模态AI大模型新一轮革命_28页.pdf_第1页
第1页 / 共28页
20240218_华福证券_计算机行业:多模态AI大模型新一轮革命_28页.pdf_第2页
第2页 / 共28页
20240218_华福证券_计算机行业:多模态AI大模型新一轮革命_28页.pdf_第3页
第3页 / 共28页
20240218_华福证券_计算机行业:多模态AI大模型新一轮革命_28页.pdf_第4页
第4页 / 共28页
20240218_华福证券_计算机行业:多模态AI大模型新一轮革命_28页.pdf_第5页
第5页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
行 业 研 究 行 业 专 题 报 告 证券研究报告计算机2024 年 02 月 18 日诚信专业 发现价值 1 请务必阅读报告末页的声明计 算 机多 模 态,A I 大 模 型 新 一 轮 革 命投资 要点:多 模 态 推 动 人 工 智 能 迈 向 A G I,底 层 技 术 日 臻 成 熟相 比 单 模 态,多 模 态 大 模 型 同 时 处 理 文 本、图 片、音 频 以 及 视 频等 多 类 信 息,与 现 实 世 界 融 合 度 高,更 符 合 人 类 接 收、处 理 和 表 达 信息 的 方 式,与 人 类 交 互 方 式 更 加 灵 活,表 现 的 更 加 智 能,能 够 执 行 更大 范 围 的 任 务,有 望 成 为 人 类 智 能 助 手,推 动 A I 迈 向 A G I。就 技 术 架构 而 言,多 模 态 技 术 可 拆 解 为 编 码、对 齐、解 码 与 微 调 等 步 骤,逐 步挖 掘 多 模 态 关 联 信 息,输 出 目 标 结 果。文 生 图 C L I P 模 型 为 最 先 成 熟 的多 模 态 技 术,目 前,多 模 态 已 不 再 局 限 于 图 文 两 层 信 息。例 如,M e t a-T r a n s f o r m e r 可 同 时 理 解 并 处 理 1 2 种 模 态 信 息。O p e n A I 谷 歌 开 启 多 模 态 军 备 竞 赛,S o r a 和 G e m i n i 各 领 风 骚海 外 龙 头 具 备 先 发 与 技 术 优 势,引 领 多 模 态 大 模 型 前 进 方 向:1)O p e n A I 近 期 密 集 剧 透 G P T-5,相 比 G P T-4 实 现 全 面 升 级,重 点 突 破 语音 输 入 和 输 入、图 像 输 出 以 及 最 终 的 视 频 输 入 方 向,或 将 实 现 真 正 多模 态;此 外,2 月 发 布 文 生 视 频 大 模 型 S o r a,能 够 根 据 文 本 指 令 或 静态 图 像 生 成 1 分 钟 的 视 频,其 中 包 含 精 细 复 杂 的 场 景、生 动 的 角 色 表情 以 及 复 杂 的 镜 头 运 动,同 时 也 接 受 现 有 视 频 扩 展 或 填 补 缺 失 的 帧,能 够 很 好 地 模 拟 和 理 解 现 实 世 界。2)G o o g l e 推 出 原 生 多 模 态 大 模 型G e m i n i,可 泛 化 并 无 缝 地 理 解、操 作 和 组 合 不 同 类 别 的 信 息;此 外,2月 推 出 G e m i n i 1.5 P r o,使 用 M o E 架 构 首 破 1 0 0 万 极 限 上 下 文 纪 录,可 单 次 处 理 包 括 1 小 时 的 视 频、1 1 小 时 的 音 频、超 过 3 万 行 代 码 或 超过 7 0 万 个 单 词 的 代 码 库。3)M e t a 坚 持 大 模 型 开 源,建 设 开 源 生 态 巩固 优 势,已 陆 续 开 源 I m a g e B i n d、A n y M A L 等 多 模 态 大 模 型。国 内 大模 型 厂 商 有 望 沿 着 复 制 海 外 先 进 技 术 与 发 挥 生 态 禀 赋 优 势 的 两 大 路径,与 海 外 大 厂 逐 步 缩 小 差 距。多 模 态 提 升 大 模 型 泛 化 能 力,垂 直 领 域 应 用 场 景 广 阔强 调 技 术 与 业 务 的 融 合 以 推 动 业 务 的 数 字 化 转 型 和 智 能 化 升 级,才 能 够 最 大 化 的 发 挥 大 模 型 价 值 同 时 激 励 大 模 型 创 新 升 级,实 现 业 务效 率 提 升 与 技 术 创 新 的 良 性 循 环。多 模 态 大 模 型 的 应 用 场 景 和 价 值 正在 不 断 扩 展 和 提 升。从 语 音 识 别、图 像 生 成、自 然 语 言 理 解、视 频 分析,到 机 器 翻 译、知 识 图 谱 等,多 模 态 大 模 型 都 能 够 提 供 更 丰 富、更智 能、更 人 性 化 的 服 务 和 体 验。在 强 大 泛 化 能 力 基 础 上,大 模 型 可 以在 不 同 模 态 和 场 景 之 间 实 现 知 识 的 迁 移 和 共 享,将 大 模 型 的 应 用 扩 展到 不 同 的 领 域 和 场 景。投 资 建 议我 们 看 好 具 有 算 法、数 据 等 先 发 优 势 的 国 产 大 模 型 厂 商,同 时 多模 态 提 升 大 模 型 泛 化 能 力,多 元 信 息 环 境 下 实 现“多 专 多 能”,在 垂 直领 域 具 有 广 阔 的 应 用 场 景 和 市 场 价 值。建 议 关 注:1)A I+多 模 态:万兴 科 技、中 科 创 达、虹 软 科 技、当 虹 科 技、大 华 股 份、海 康 威 视、漫步 者、萤 石 网 络、汉 仪 股 份、美 图 公 司、云 从 科 技;2)A I+办 公:金山 办 公、万 兴 科 技、福 昕 软 件、彩 讯 股 份、金 蝶 国 际、泛 微 网 络、致远 互 联、鼎 捷 软 件、汉 得 信 息,用 友 网 络;3)A I+教 育/电 商/医 疗:科大 讯 飞、佳 发 教 育、鸥 玛 软 件、盛 通 股 份、光 云 科 技、值 得 买、焦 点科 技、小 商 品 城、润 达 医 疗、嘉 和 美 康、创 业 慧 康、迪 安 诊 断 等。风 险 提 示技 术 发 展 不 及 预 期、产 品 落 地 不 及 预 期、A I 伦 理 风 险 等。强 于 大 市(维 持 评 级)一 年 内 行 业 相 对 大 盘 走 势团 队 成 员分析 师:施晓 俊(S 0 2 1 0 5 2 2 0 5 0 0 0 3)S X J 3 7 8 0 h f z q.c o m.c n联系 人:李杨 玲(S 0 2 1 0 1 2 3 1 0 0 0 7 1)l y l 3 0 3 3 9 h f z q.c o m.c n联系 人:王思(S 0 2 1 0 1 2 3 0 7 0 0 0 6)w s 3 0 1 8 1 h f z q.c o m.c n相 关 报 告1、计 算 机 行 业 当 前 处 于 什 么 周 期 位 置?2 0 2 4.0 2.0 52、A I 应 用 大 幕 徐 徐 展 开 2 0 2 4.0 1.2 83、计 算 机 板 块 央 国 企 控 股 公 司 梳 理 2 0 2 4.0 1.2 5华福证券华福证券 诚信专业 发现价值 2 请务必阅读报告末页的声明行业专题报告|计算机正 文 目 录1 多 模 态 推 动 人 工 智 能 迈 向 A G I.41.1 多 模 态 或 成 为 A I 大 模 型 主 流.41.2 多 模 态 发 展 路 径 逐 步 清 晰,底 层 技 术 日 臻 成 熟.42 国 内 外 大 模 型 陆 续 更 新,瞄 准 多 模 态 方 向 升 级.62.1 O p e n A I 谷 歌 引 战 多 模 态,视 频 为 重 要 角 力 点.62.1.1 O p e n A I 密 集 剧 透 G P T-5,或 将 实 现 真 正 多 模 态.62.1.2 O p e n A I 推 出 首 款 视 频 生 成 模 型 S o r a,视 频 更 加 接 近 真 实 世 界.72.2 谷 歌 推 出 G e m i n i,实 现 大 模 型 多 模 态 原 生.1 12.2.1 G e m i n i 正 式 对 外 发 布,多 模 态 理 解 优 势 突 出.1 12.2.2 G e m i n i 1.5 突 破 1 0 0 万 t o k e n,多 模 态 能 力 实 现 飞 跃.1 22.3 M e t a 坚 持 模 型 开 源,建 设 生 态 巩 固 优 势.1 52.4 国 内 加 速 对 齐 海 外 龙 头,细 分 领 域 或 有 优 势.1 73 多 模 态 提 升 大 模 型 泛 化 能 力,应 用 场 景 拓 展 性 强.2 03.1 通 用 多 模 态 大 模 型 积 极 开 放,挖 掘 垂 直 场 景 广 阔 空 间.2 13.2 A I+办 公:重 塑 办 公 模 式,解 放 员 工 生 产 力.2 23.3 A I+教 育:助 力 教 育 行 业 应 材 施 教,促 进 教 育 师 资 均 衡.2 43.4 A I+电 商:A I 模 特 换 装 到 A I G C 赋 能 运 营,全 方 位 渗 透 电 商 产 业 链.2 43.5 A I+医 疗:医 疗 领 域 数 据 模 态 丰 富,大 模 型 融 入 提 升 效 能.2 54 投 资 建 议.2 75 风 险 提 示.2 7图 表 目 录图 表 1:大 模 型 朝 多 模 态 方 向 发 展.4图 表 2:多 模 态 大 模 型 一 般 架 构.5图 表 3:2 0 1 9 年 至 今 多 模 态 预 训 练 大 模 型 重 要 算 法 与 数 据 集.5图 表 4:C L I P 为 连 接 文 本 与 图 像 的 桥 梁.6图 表 5:M e t a-T r a n s f o r m e r 可 同 时 处 理 1 2 种 模 态.6图 表 6:2 0 2 3 年 7 月,G P T-5 商 标 处 于 注 册 流 程 中.6图 表 7:G P T 历 次 更 新 梳 理.7图 表 8:G P T-4 数 据 集 构 成(预 测).7图 表 9:S o r a 可 生 成 一 分 钟 长 视 频.8图 表 1 0:S o r a 将 视 觉 数 据 转 换 为 p a t c h.8图 表 1 1:S o r a 根 据 文 本 说 明 生 成 高 质 量 视 频.9图 表 1 2:S o r a 根 据 冲 浪 图 片(左)生 成 冲 浪 动 态 视 频(右).9图 表 1 3:S o r a 从 视 频 片 段 开 始 向 前/向 后 扩 展 视 频.9图 表 1 4:S o r a 能 够 编 辑 视 频 风 格.1 0图 表 1 5:S o r a 生 成 可 变 大 小 的 图 像.1 0图 表 1 6:S o r a 生 成 带 有 动 态 摄 像 机 运 动 的 视 频.1 0图 表 1 7:G e m i n i 支 持 输 入 文 本、图 像、语 音 和 视 频 输 出 文 本 和 图 像.1 1图 表 1 8:G e m i n i 包 括 三 种 不 同 规 模 的 模 型.1 1图 表 1 9:G e m i n i 识 别 蓝 色 小 鸭 子 素 材.1 1图 表 2 0:G e m i n i 处 理 做 菜 任 务.1 2图 表 2 1:G e m i n i 处 理 视 频 任 务.1 2图 表 2 2:G e m i n i 1.5 P r o 领 先 基 础 模 型 的 上 下 文 长 度.1 3图 表 2 3:G e m i n i 1.5 P r o 分 析 和 总 结 阿 波 罗 1 1 号 登 月 任 务 的 4 0 2 页 记 录.1 3图 表 2 4:G e m i n i 1.5 P r o 分 析 和 总 结 4 4 分 钟 的 巴 斯 特 基 顿 无 声 电 影.1 4图 表 2 5:G e m i n i 1.5 P r o 高 效 处 理 1 0 0 0 0 0 行 代 码.1 4图 表 2 6:G e m i n i 1.5 P r o 在 基 准 测 试 中 性 能 领 先.1 5图 表 2 7:G e m i n i 1.5 P r o 在 长 t o k e n 理 解 上 性 能 超 越 G P T-4 T u r b o.1 5图 表 2 8:M e t a 主 要 开 源 大 模 型 梳 理.1 5华福证券华福证券 XVCXxOsPsRnMrPsRtOsNpO8OdNaQnPqQnPqMfQmMtRfQoPzQ7NpPzRMYnOrNwMnMmN诚信专业 发现价值 3 请务必阅读报告末页的声明行业专题报告|计算机图 表 2 9:I m a g e B i n d 为 跨 越 六 种 模 态 的 大 模 型.1 6图 表 3 0:I m a g e B i n d 在 音 频 和 深 度 方 面 优 于 专 家 模 型.1 6图 表 3 1:A n y M A L 多 模 态 输 出 示 例.1 7图 表 3 2:我 国 部 分 多 模 态 大 模 型 梳 理.1 7图 表 3 3:国 产 大 模 型 与 海 外 龙 头 厂 商 仍 有 差 距.1 8图 表 3 4:阿 里 通 义 千 问 多 模 态 大 模 型 测 试 性 能 媲 美 G P T-4 V 和 G e m i n i.1 9图 表 3 5:智 谱 C o g V i e w 3 效 果 逼 近 D A L L E 3.1 9图 表 3 6:E m u 2 在 十 余 个 图 像 和 视 频 问 答 评 测 集 上 取 得 最 优 性 能.2 0图 表 3 7:国 产 大 模 型 与 海 外 大 模 型 差 距 逐 步 缩 小.2 0图 表 3 8:多 模 态 大 模 型 可 灵 活 部 署 于 垂 直 场 景.2 1图 表 3 9:调 用 G P T A P I 客 户 梳 理.2 1图 表 4 0:G P T 大 模 型 降 价 前 后 对 比.2 2图 表 4 1:M S 3 6 5 C o p i l o t 解 放 员 工 生 产 力、提 高 技 能.2 3图 表 4 2:M i c r o s o f t 3 6 5 C o p i l o t 应 用 领 域.2 3图 表 4 3:D y n a m i c s 3 6 5 C o p i l o t 在 C R M/E R P 的 应 用.2 3图 表 4 4:2 0 2 3 年 海 外 A I+办 公 产 品 梳 理.2 4图 表 4 5:D u o l i n g o M a x 产 品 介 绍.2 4图 表 4 6:K h a n A c a d e m y 引 导 学 生 解 决 问 题.2 4图 表 4 7:S t a b l e D i f f u s i o n 应 用 A I 对 模 特 换 装.2 5图 表 4 8:2 0 2 3 年 海 外 公 司 利 用 A I G C 赋 能 运 营 案 例.2 5图 表 4 9:医 疗 健 康 大 模 型 的 类 别 和 实 例.2 6图 表 5 0:M e d-P a L M-M 所 用 基 准 数 据 集 的 模 态 和 任 务.2 6图 表 5 1:国 内 外 部 分 A I 医 疗 大 模 型 梳 理.2 7华福证券华福证券 诚信专业 发现价值 4 请务必阅读报告末页的声明行业专题报告|计算机1 多模 态推 动人工 智能 迈向 A G I1.1 多 模 态 或 成 为 A I 大 模 型 主 流相 比 单 模 态,多 模 态 向 通 用 人 工 智 能(A G I)迈 前 一 步。多 模 态 大 模 型 同 时 处理 文 本、图 片、音 频 以 及 视 频 等 多 类 信 息,与 现 实 世 界 融 合 度 高,有 望 成 为 人 类 智能 助 手,推 动 A I 迈 向 A G I:1)多 模 态 更 符 合 人 类 接 收、处 理 和 表 达 信 息 的 方 式。人 类 能 够 感 知 多 元 信 息,每 一 类 信 息 均 为 一 种 模 态,这 些 信 息 往 往 是 相 互 关 联 的。2)多 模 态 信 息 使 得 大 模 型 更 为 智 能。多 模 态 与 用 户 交 互 方 式 更 便 捷,得 益 于 多 模 态 输入 的 支 持,用 户 可 以 更 灵 活 的 方 式 与 智 能 助 手 进 行 交 互 和 交 流。3)多 模 态 提 升 任 务解 决 能 力。L L M 通 过 可 以 执 行 N L P 任 务,而 多 模 态 通 常 可 以 执 行 更 大 范 围 的 任 务。目 前,多 模 态 大 模 型 已 成 为 大 模 型 发 展 前 沿 方 向。2 0 2 2 年 及 之 前,大 模 型 处 于单 模 态 预 训 练 大 模 型 阶 段,主 要 探 索 文 本 模 式 的 输 入 输 出。2 0 1 7 年,T r a n s f o r m e r 模型 提 出,奠 定 了 当 前 大 模 型 的 主 流 算 法 结 构;2 0 1 8 年,基 于 T r a n s f o r m e r 架 构 训 练 的B E R T 模 型 问 世,参 数 规 模 首 次 突 破 3 亿;随 后 G P T 系 列 模 型 推 出,2 0 2 2 年 底 至 今C h a t G P T 引 爆 全 球 大 模 型 创 新 热 潮。步 入 2 0 2 3 年,大 模 型 发 展 从 文 本、图 像 等 单 模态 任 务 逐 渐 发 展 为 支 持 多 模 态 的 多 任 务,更 为 符 合 人 类 感 知 世 界 的 方 式。大 模 型 公司 的 比 拼 重 点 转 移 为 多 模 态 信 息 整 合 和 数 据 挖 掘,精 细 化 捕 捉 不 同 模 态 信 息 的 关 联。例 如,2 0 2 3 年 9 月,O p e n A I 推 出 最 新 多 模 态 大 模 型 G P T-4 V,增 强 了 视 觉 提 示 功 能,在 处 理 任 意 交 错 的 多 模 态 方 面 表 现 突 出。图 表 1:大 模 型 朝 多 模 态 方 向 发 展数 据 来 源:中 关 村 产 业 研 究 院,毕 马 威 分 析,华 福 证 券 研 究 所1.2 多 模 态 发 展 路 径 逐 步 清 晰,底 层 技 术 日 臻 成 熟目 前,多 模 态 大 模 型 发 展 路 径 逐 步 清 晰。发 展 思 路 主 要 有 三:1)利 用 单 模 态 模型 如 L L M s 来 调 动 其 他 数 据 类 型 的 功 能 模 块 完 成 多 模 态 任 务,典 型 代 表 有 V i s u a l、C h a t G P T、H u g g i n g G P T 等;2)直 接 利 用 图 像 和 文 本 信 息 训 练 得 到 多 模 态 大 模 型,典 型 代 表 有 K O S M O S-1 等;3)将 L L M s 与 跨 模 态 编 码 器 等 有 机 结 合,融 合 L L M s的 推 理 检 索 能 力 和 编 码 器 的 多 模 态 信 息 整 合 能 力,典 型 代 表 有 F l a m i n g o、B L I P 2 等。多 模 态 大 模 型 底 层 技 术 日 臻 成 熟,支 撑 实 现 多 类 信 息 融 合 与 转 换。从 技 术 架 构 来 看,多 模 态 大 模 型 一 般 包 括 编 码、对 齐、解 码 和 微 调 等 步 骤,逐步 整 合 多 模 态 关 联 信 息,输 出 目 标 结 果。1)编 码:包 括 视 觉、音 频、文 本 等 模 态 编码 器,目 的 是 有 效 处 理 多 个 模 态 信 息,转 化 为 可 处 理 状 态;2)对 齐:解 决 不 同 模 态编 码 器 可 能 不 能 直 接 融 合 的 问 题,建 立 共 同 表 示 空 间,将 不 同 模 态 的 表 示 统 一,实现 多 个 模 态 信 息 的 有 效 整 合;3)解 码:编 码 的 反 向 过 程,把 模 型 的 内 部 表 示 转 化 为物 理 世 界 的 自 然 信 号,即 输 出 人 类 可 识 别 的 信 息;4)微 调:针 对 个 性 化 如 垂 直 行 业华福证券华福证券 诚信专业 发现价值 5 请务必阅读报告末页的声明行业专题报告|计算机大 模 型,重 新 训 练 大 模 型 消 耗 算 力 成 本 较 高,便 可 在 预 训 练 模 型 的 基 础 上,通 过 在自 有 小 数 据 集 上 的 训 练 来 适 应 新 的 任 务,更 好 地 提 升 大 模 型 在 下 游 特 定 领 域 能 力。图 表 2:多 模 态 大 模 型 一 般 架 构数 据 来 源:L y u e t a l.M A C A W-L L M:M U L T I-M O D A L L A N G U A G E M O D E L I N G W I T H I M A G E,A U D I O,V I D E O,A N D T E X T I N T E G R A T I O N,华 福 证 券 研 究 所文 生 图 为 最 先 成 熟 的 多 模 态 技 术 领 域,其 代 表 技 术 为 O p e n A I 于 2 0 2 1 年 推 出 的C L I P 模 型。C L I P 使 用 约 4 亿 从 网 页 中 爬 取 的 图 像-文 本 对 数 据 进 行 对 比 学 习,采 用图 像 和 文 本 双 编 码 器,用 于 评 估 给 定 图 像 与 给 定 文 本 描 述 的 匹 配 程 度,成 为 连 接 文本 和 图 像 的 桥 梁。目 前,多 模 态 底 层 技 术 不 再 局 限 于 文 本 与 图 像 两 层 信 息,M e t a-T r a n s f o r m e r 可同 时 理 解 1 2 种 模 态 信 息。2 0 2 3 年 7 月,香 港 中 文 大 学 多 媒 体 实 验 室 联 合 上 海 人 工 智能 实 验 室 的 O p e n G V L A B 研 究 团 队 提 出 一 个 统 一 多 模 态 学 习 框 架 M e t a-T r a n s f o r m e r,实 现 骨 干 网 络 的 大 一 统,具 有 一 个 模 态 共 享 编 码 器,并 且 无 需 配 对 数 据,即 可 理 1 2种 模 态 信 息,并 提 供 了 多 模 态 无 边 界 融 合 的 新 范 式。相 比 C L I P、B E i T-3、I m a g e b i n d,模 态 数 目 大 幅 增 加,并 且 摆 脱 了 多 模 态 训 练 过 程 中 对 于 配 对 数 据 的 依 赖 性,为 多 模态 学 习 提 供 了 新 路 径。图 表 3:2 0 1 9 年 至 今 多 模 态 预 训 练 大 模 型 重 要 算 法 与 数 据 集数 据 来 源:W a n g e t a l.L a r g e-s c a l e M u l t i-m o d a l P r e-t r a i n e d M o d e l s:A C o m p r e h e n s i v e S u r v e y,华 福 证 券 研 究 所(注:紫 色 字 体 表 示 该 数 据 集 包 含 中 文 文 本,其 他 数 据 集 包 含 英 文 文 本;红 色 突 出 显 示 的 模 型 是 使 用 两 个 以 上 的 模 态 进 行 训 练 的)华福证券华福证券 诚信专业 发现价值 6 请务必阅读报告末页的声明行业专题报告|计算机图 表 4:C L I P 为 连 接 文 本 与 图 像 的 桥 梁 图 表 5:M e t a-T r a n s f o r m e r 可 同 时 处 理 1 2 种 模 态数 据 来 源:R a d f o r d e t a l.L e a r n i n g T r a n s f e r a b l e V i s u a l M o d e l s F r o m N a t u r a lL a n g u a g e S u p e r v i s i o n,华 福 证 券 研 究 所数 据 来 源:Z h a n g e t a l.M e t a-T r a n s f o r m e r:A U n i f i e d F r a m e w o r k f o rM u l t i m o d a l L e a r n i n g,华 福 证 券 研 究 所2 国内 外大 模型陆 续更 新,瞄 准多模 态方 向升级2.1 O p e n A I 谷 歌 引 战 多 模 态,视 频 为 重 要 角 力 点2.1.1 O p e n A I 密 集 剧 透 G P T-5,或 将 实 现 真 正 多 模 态2 0 2 4 年 1 月,O p e n A I 首 席 执 行 官 奥 特 曼 在 与 比 尔 盖 茨 的 对 话 中 以 及 参 加 达 沃斯 论 坛 时 频 繁 提 及 新 一 代 大 模 型 G P T-5。据 奥 特 曼 介 绍,G P T-5 相 比 G P T-4 实 现 全面 升 级,如 果 G P T-4 目 前 解 决 了 人 类 任 务 的 1 0%,G P T-5 应 该 是 1 5%或 者 2 0%。G P T-5 将 是 一 个 多 模 态 模 型,支 持 语 音、图 像、代 码 和 视 频,并 在 个 性 化 和 定 制 化 功能 方 面 实 现 重 大 更 新,具 备 更 强 的 推 理 能 力 和 更 高 的 准 确 性。当 前 大 模 型 的 通 病 幻 觉 问 题 也 将 在 G P T-5 中 得 到 解 决。1)个 性 化 与 定 制 化 功 能 重 大 更 新。G P T-5 最 关 键 的 增 强 部 分 将 围 绕 个 人 偏 好 的理 解,比 如 整 合 用 户 信 息、电 子 邮 件、日 历、约 会 偏 好,以 及 与 外 部 数 据 源 建 立 联系,由 此 实 现 个 性 化 的 风 格。2)更 强 的 推 理 能 力 和 更 高 的 准 确 性。当 代 大 模 型 存 在 最 大“幻 觉”问 题 将 在G P T-5 中 得 到 解 决,提 升 大 模 型 可 靠 性。例 如,如 果 向 G P T-4 中 询 问 1 万 次 问 题,这 一 万 次 回 答 中 可 能 只 有 一 次 是 好 的,但 G P T-4 无 法 判 断,这 一 点 在 G P T-5 或 许 有所 改 善。3)实 现 真 正 的 多 模 态。G P T-5 不 仅 支 持 文 本 输 入,还 支 持 语 音、图 像、代 码 和视 频,处 理 更 加 复 杂 和 多 样 的 信 息,多 模 态 处 理 能 力 实 现 飞 跃。在 与 比 尔 盖 茨 交 谈O p e n A I 下 一 阶 段 最 重 要 发 展 方 向 时,奥 特 曼 表 示 语 音 输 入 和 输 出、图 像 输 出 以 及 最终 的 视 频 输 入 将 成 为 公 司 重 点 发 力 方 向。早 在 2 0 2 3 年 7 月,G P T-5 商 标 处 于 注 册 流 程 中,新 一 代 大 模 型 发 布 箭 在 弦 上。图 表 6:2 0 2 3 年 7 月,G P T-5 商 标 处 于 注 册 流 程 中数 据 来 源:量 子 位,华 福 证 券 研 究 所华福证券华福证券 诚信专业 发现价值 7 请务必阅读报告末页的声明行业专题报告|计算机梳 理 G P T 历 次 更 新,多 模 态 能 力 升 级 成 为 重 要 看 点。2 0 1 8-2 0 2 2 年,O p e n A I 基于 T r a n s f o r m e r 架 构 先 后 推 出 G P T-1 至 G P T-3.5,在 训 练 数 据 集 上 主 要 考 虑 文 本 数 据,能 够 实 现 上 下 文 理 解 和 多 轮 对 话,而 在 多 模 态 能 力 上 存 在 欠 缺。2 0 2 3 年 3 月,O p e n A I推 出 G P T-4,增 加 了 额 外 的 视 觉 语 言 模 块,在 G P T-3 和 G P T 3.5 训 练 数 据 集 上 增 加 了多 模 态 数 据 集,能 够 实 现 图 生 文。之 后 更 新 的 G P T-4 V 以 及 G P T 4-T u r b o 进 一 步 突 破音 频 输 入 技 术,使 得 文 本 转 语 音(T T S)成 为 可 能。近 期,O p e n A I 剧 透 G P T-5,能够 同 时 支 持 文 本、图 片、语 音、视 频 等 多 元 信 息,多 模 态 能 力 实 现 跨 越。我 们 认 为,O p e n A I 作 为 全 球 领 先 科 技 企 业,在 大 模 型 的 技 术 方 向 可 作 为 其 他 公司 研 发 方 向 标,G P T 历 次 更 新 着 重 多 模 态 能 力,以 及 近 期 奥 特 曼 频 繁 剧 透 G P T-5 关键 信 息,或 将 掀 起 国 内 外 大 模 型 新 一 轮 军 备 竞 赛,进 一 步 提 升 A I 领 域 景 气 度。图 表 7:G P T 历 次 更 新 梳 理大模 型发布 时间参数量数据 集输入 输出文本 图片 语音 视频 文本 图片 语音 视频G P T-1 2 0 1 8 年 1 1 7 M B o o k e s C o r p u s G P T-2 2 0 1 9 年 1.5 B W e b T e x t G P T-3 2 0 2 0 年 1 7 5 BC o m m o n C r a l,W e b T e x t 2,B o o k s 1,B o o k e 2,W i ki p e d i a G P T-3.5 2 0 2 2.1 1-类似 G P T-3,但可能有更新 G P T 4 2 0 2 3.0 3-更大规模和多样化 G P T-4 V 2 0 2 3.0 9-G P T 4-T u r bo2 0 2 3.1 1-G P T-5 待定-数 据 来 源:智 东 西,新 智 元,O p e n A I,机 器 之 心,华 福 证 券 研 究 所图 表 8:G P T-4 数 据 集 构 成(预 测)数 据 来 源:智 东 西,华 福 证 券 研 究 所2.1.2 O p e n A I 推 出 首 款 视 频 生 成 模 型 S o r a,视 频 更 加 接 近 真 实 世 界美 国 当 地 时 间 2 月 1 5 日,O p e n A I 发 布 视 频 生 成 模 型 S o r a,是 一 种 通 用 的 视 觉华福证券华福证券 诚信专业 发现价值 8 请务必阅读报告末页的声明行业专题报告|计算机数 据 模 型,可 以 生 成 持 续 时 间、宽 高 比 和 分 辨 率 各 异 的 视 频 和 图 像,长 达 一 分 钟 的高 清 视 频 更 加 接 近 真 实 世 界。S o r a 是 一 种 扩 散 模 型,生 成 的 视 频 一 开 始 像 静 态 噪 音,之 后 通 过 多 个 步 骤 去 除 噪 音,逐 步 转 换 视 频。与 M i d j o u r n e y 和 S t a b l e D i f f u s i o n 同 样基 于 扩 散 模 型 相 比,S o r a 生 成 视 频 的 质 量 更 高,更 像 是 创 建 了 真 实 的 视 频。而 与 G e n-2、S V D-X T、P i k a 等 主 流 产 品 相 比,S o r a 可 生 成 最 长 一 分 钟 的 视 频,具 备 更 强 的 构 建 物理 世 界 的 模 拟 能 力。图 表 9:S o r a 可 生 成 一 分 钟 长 视 频数 据 来 源:O p e n A I,华 福 证 券 研 究 所从 技 术 上 来 讲,S o r a 充 分 吸 收 了 O p e n A I 前 期 在 大 模 型 积 累 的 技 术 能 力。1)S o r a 与 G P T 模 型 类 似,使 用 了 T r a n s f o r m e r 架 构,从 而 实 现 了 卓 越 的 扩 展 性能。O p e n A I 将 视 频 和 图 像 表 示 为 称 为 p a t c h 的 较 小 数 据 单 元 的 集 合,每 个 p a t c h 类 似于 G P T 中 的 t o k e n。通 过 统 一 数 据 表 示 方 式,O p e n A I 能 够 在 比 以 往 更 广 泛 的 视 觉 数据 上 训 练 扩 散 t r a n s f o r m e r,包 括 不 同 的 持 续 时 间、分 辨 率 和 宽 高 比。图 表 1 0:S o r a 将 视 觉 数 据 转 换 为 p a t c h数 据 来 源:O p e n A I,华 福 证 券 研 究 所2)S o r a 建 立 在 过 去 D A L L E 和 G P T 模 型 的 研 究 基 础 之 上。它 采 用 了 D A L L E 3中 的 重 述 技 术,即 为 视 觉 训 练 数 据 生 成 高 度 描 述 性 的 字 幕。因 此,该 模 型 能 够 在 生成 的 视 频 中 更 忠 实 地 遵 循 用 户 的 文 字 提 示。就 模 型 能 力 而 言,S o r a 文 生 视 频 大 模 型 具 有 如 下 特 点:强 大 的 语 言 理 解 能 力:训 练 文 本 到 视 频 生 成 系 统 需 要 大 量 带 有 相 应 文 本 说 明 的视 频。O p e n A I 将 D A L L E 3 中 介 绍 的 字 幕 重 配 技 术(R e c a p t i o n i n g)应 用 到 视 频 中,首 先 训 练 一 个 高 度 描 述 性 的 字 幕 模 型,然 后 使 用 它 为 其 训 练 集 中 的 所 有 视 频 生 成 文本 字 幕。O p e n A I 发 现,对 高 度 描 述 性 的 视 频 字 幕 进 行 训 练 可 提 高 文 本 保 真 度 以 及 视频 的 整 体 质 量。华福证券华福证券 诚信专业 发现价值 9 请务必阅读报告末页的声明行业专题报告|计算机图 表 1 1:S o r a 根 据 文 本 说 明 生 成 高 质 量 视 频数 据 来 源:O p e n A I,华 福 证 券 研 究 所支 持 图 片 与 视 频 输 入:S o r a 能 够 执 行 广 泛 的 图 像 和 视 频 编 辑 任 务 创 建 完 美的 循 环 视 频、动 画 静 态 图 像、向 前 或 向 后 扩 展 视 频 等。比 如,基 于 D A L L E 3 图 像生 成 视 频,从 一 个 生 成 的 视 频 片 段 开 始 向 前/向 后 扩 展 视 频,编 辑 转 换 视 频 的 风 格/环境,将 两 个 输 入 视 频 无 缝 衔 接 在 一 起。图 表 1 2:S o r a 根 据 冲 浪 图 片(左)生 成 冲 浪 动 态 视 频(右)数 据 来 源:O p e n A I,华 福 证 券 研 究 所图 表 1 3:S o r a 从 视 频 片 段 开 始 向 前/向 后 扩 展 视 频数 据 来 源:O p e n A I,华 福 证 券 研 究 所华福证券华福证券 诚信专业 发现价值 1 0 请务必阅读报告末页的声明行业专题报告|计算机图 表 1 4:S o r a 能 够 编 辑 视 频 风 格数 据 来 源:O p e n A I,华 福 证 券 研 究 所图 像 生 成 功 能:研 究 团 队 通 过 在 一 个 时 间 范 围 为 一 帧 的 空 间 网 格 中 排 列 高 斯 噪声 块 来 实 现 这 一 点。该 模 型 可 以 生 成 可 变 大 小 的 图 像,最 高 可 达
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642