20240515_中信建投_计算机行业:国内外大模型发展情况梳理_43页.pdf

返回 相关 举报
20240515_中信建投_计算机行业:国内外大模型发展情况梳理_43页.pdf_第1页
第1页 / 共43页
20240515_中信建投_计算机行业:国内外大模型发展情况梳理_43页.pdf_第2页
第2页 / 共43页
20240515_中信建投_计算机行业:国内外大模型发展情况梳理_43页.pdf_第3页
第3页 / 共43页
20240515_中信建投_计算机行业:国内外大模型发展情况梳理_43页.pdf_第4页
第4页 / 共43页
20240515_中信建投_计算机行业:国内外大模型发展情况梳理_43页.pdf_第5页
第5页 / 共43页
亲,该文档总共43页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
国 内 外 大 模 型 发 展 情 况 梳 理证 券 研 究 报 告 行 业 动态 研 究发 布日期:2024 年5 月15 日分析师:于芳博SAC编号:S1440522030001本 报告由 中信建 投证券 股份有 限公司 在中华 人民共 和国(仅为本 报告目 的,不 包括香 港、澳 门、台 湾)提 供。在 遵守适 用的法 律法规 情况下,本报 告亦可 能由中 信建投(国际)证券 有限公 司在香 港提供。同时 请务必阅 读正文 之后的 免责条 款和声 明。摘要 核心 观点:2022 年11 月30 日OpenAI 发布ChatGPT,随 即引爆社 交网络,大模型行 业进入加速发展阶 段。国外基础模型 实力强劲、不断精进,开 源 模 型 打 造 庞 大 应 用 生 态,端 侧 模 型 小 而 美。国 内 大 模 型 也 进 入 加 速 成 长 期,在 过 去 一 年 中 取 得 了 实 质 性 突 破。百 度 文 心 一 言、讯飞星火、清华智谱ChatGLM4、商汤“日日新SenseNova5.0”整体表现逼近GPT-4,开源模型快速进步,文生视频、文生音乐等多模态也取 得突 破。国 内 大模 型网 页流 量 和 应用 下载 量节 节 攀 升,大模 型已 经 成 为日 常生 活中 的 重 要助 手。国 外 大 模 型 持 续 领 跑,闭源、开源、端 侧 模 型 异 彩 纷 呈。国 外 大 模 型 主 要 分 为 三 个 层 级:性 能 强 劲 的 闭 源 模 型,具 备 生 态 优 势 的 开 源 模型,以 及 专 注 端 侧 应 用 的 轻 量 模 型。国 外 基 础 模 型 能 力 持 续 提 升,闭 源 模 型 中 巨 头 各 显 其 才。GPT-4 性 能 卓 越,始 终 处 于 领 跑 地 位,GPT-4o 模型实现端 到端信息 处理,人 机交互体 验大幅 提 升;Claude 3 后起之 秀,整体 性能十 分 强劲;原 生多模 态 大模型Gemini,多 模态能力、跨 模态 能力 取得 突破。开 源模 型领 域中,LLama2 模 型 塑造 了庞 大的 开源 模型 家族,LLama3 能 力 大幅提 升;Mixtral 8x7B 为 开源领 域引 入 专 家 混 合 技 术,成 为 开 源 模 型 的 重 要 力 量。端 侧 应 用 需 要 在 轻 量 参 数 和 模 型 性 能 之 间 平 衡,Phi-3、Gemma2 实 现 轻 量 级 模 型 的 小 而美。国外 闭源模 型 有望迎来 突破,我 们预期GPT-5 或于近 期发布,性能改 进 超预期。国 内 大 模 型 进 入 性 能 提 升 的 关 键 时 期,模 型 应 用 逐 步 铺 开。2022 年11 月30 日OpenAI发布ChatGPT,随 即 引 爆 社 交 网 络。国 内 大 模 型 也 进入加速成长期,在过 去 一 年 中 取 得了实 质 性 突 破。国内第 一 梯 队 的 大 模型整 体 能 力 目 前 已经逼 近GPT-4,部 分 模型 中 文 能 力 与GPT-4相差无几。百度 文心大模型4.0 整 体 性 能 优 异,成 为 首 个 国 内 面 向C 端 收 费 的 大 模 型 产 品;科 大 讯 飞 星 火 大 模 型V3.5 性 能 逼 近GPT-4,6 月27 日模 型 即 将 再 度 更 新;清 华 智 谱ChatGLM4 基 础 模 型 性 能 强 劲,大 模 型 生 态 全 面 对 标OpenAI;商 汤“日 日 新SenseNova5.0”大 模 型,其 主 流客观 评测指标达 到或超 越GPT-4 Turbo。开 源模型阵营 中,存 在通义千问、百川 智能实力强 劲的竞 争对手。多 模态模型 中,国产大模型同样进展不断,国产 文生视频大 模型Vidu 发布,对标Sora 持续迭代;昆仑万 维 发布文生 音乐大 模 型天工Skymusic,整体表现 不输Suno。国内大模 型网页流 量和应用 下载量节 节攀升,安卓应用 商店中 豆 包累计下 载1.47 亿,讯飞星火累 计下载1.06 亿,大模型已 经成为日常 生活中 的重要助手。风 险 提 示:大 模 型 技 术 发 展 不 及 预 期、商 业 化 落 地 不 及 预 期、算 力 基 础 设 施 支 持 不 及 预 期、政 策 监 管 力 度 不 及 预 期、数 据 数 量 与 数 据 质量不及预 期。第 一 章 国 外 基 础 模 型 发 展 情 况 4第 二 章 国 内 基 础 模 型 发 展 情 况 20第 三 章 国 内 多 模 态 模 型 相 关 进 展 34第 五 章 风 险 提 示 40第 四 章 国 内 模 型 流 量 及 应 用 下 载 量 情 况 37 第 一 章 国 外 基 础 模 型 发 展 情 况 4 相 较 于 过 去 的GPT 系 列 模 型,GPT-4 在 多 应 用 领 域 成 为 专 家,包 括 为 机 器 学 习 模 型 评 判 标 准 和 为 人 类 设 计 的 专 业 测 试。在 为 机 器 学 习 模 型 设 计 的 传 统 基 准 上,GPT-4 的 表 现 大 大 优 于 了 目 前 的 最 好 的 语 言 模 型,以 及 大 多 数SOTA 模型。相较于GPT-3.5 以 及 当 前 最 好 的 语 言 模 型,GPT-4 在 机 器 学 习 模 型 学 术 基 准 数 据 集 上 的 表 现 实 现 了 全 面 突 破,在7 项 数 据 集 中 的测 试 均 优 于 当 前 最 优 的 语 言 模 型。在MMLU 数 据 集 中,GPT-4 不 仅 在 英 语 语 言 上 的 性 能 实 现 了 突 破,在 其 他 语 言 方 面 的 表现 也 优 于 现 在 的 语 言 模 型。在 为 人 类 设 计 的 各 种 专 业 测 试 和 学 术 基 准 数 据 集 中,GPT-4 展 现 出 媲 美 甚 至 优 于 人 类 的 水 平。资料来源:OpenAI,中信建投GPT-3.5 在 英语 语言上MMLU 任务 的性能5GPT-4 从“百科全书”逐步成为文理通吃的“专家”图:GPT-4 在MMLU 不同语言上 的性能 图:GPT-4 在人类专业 测试中 的表现资料来源:OpenAI,中信建投 2023 年11 月7 日,OpenAI 开 发 者 大 会 再 度 升 级GPT-4 整体功能,为GPT-4 引 入 了 新 的 模 型 选 择 器。之前 GPT-4 的 工 作 模式 是 四 个 独 立 的 功 能(一 个 对 话 窗 口 内 只 能 使 用 其 中 一 个 特 性):图 像 上 传+GPT-4、插件+GPT-4、代 码 运 行 器+文 件 上 传+GPT-4、图 像 生 成+GPT-4。这 次 更 新 使 其 变 成 了:GPT-4+图 像 上 传+代 码 运 行 器+文 件 上 传+图像生成,GPT4 自 动 选 择 使 用 接 入 互 联 网、进 行 数 据 分 析、图 像 生 成 等 诸 多 功 能,GPT-4 具 备 了 规 划 和 工 具 选 择 的 能 力,GPT-4 真正进 化为了 一个“理解一切,处理 一切,生 成一切”的超级 统一智 能体。向 着 更 便 宜、更 好 用 的 方 向 去 发 展,并 构 建 可 定 制、可 销 售 的 生 态:1)自定义Chatgpt,二次开发自由度更高,并且上线GPT Store,定制个人GPT 也可实现销售;2)gpt4 turbo:发布了性能更强的GPT-4 Turbo 模型,在 上 下 文 对 话 长度等6 方面进 行了升 级;3)更快、更 便宜;4)发布assistant api,降 低开发 者难度,对开发 者更友好。互联网搜索飓风数据 用DALLE 3生成飓风图像图:GPT 页 面简化 图:利用GPT-4 搜 索飓 风数据 并生 成飓 风图 像GPT具备了选择工具的能力资料来源:OpenAI,中信建投GPT-4 再度升级成为超级统一智能体资料来源:OpenAI,中信建投 GPT4o 实现端到端信息处理,人机交互体验显著提升资料来源:OpenAI,中信建投图:GPT-4o文本性 能测试结 果 图:GPT-4o 视觉性 能测试 结果7 GPT-4o:GPT-4omni 是 跨 文 本、视 觉 和 音 频 端 到 端 训 练 的 新 模 型,所 有 输 入 和 输 出 都 由 同 一 个 神 经 网 络 处 理。GPT-4o 模型性能在GPT-4 基础上再度升级。在英语文本和代码基准 测试中,GPT-4o 的性能与GPT-4 Turbo 不相上下;在语 音 翻 译 任 务 上,GPT-4o强于OpenAI 专 门 的 语 音 模 型Whisper-V3 以 及 谷 歌 和Meta 的 语 音 模 型;在 视 觉 理 解 上,也再次反超GPT-4 Turbo、Gemini 1.0 Ultra 与Claude Opus。GPT-4o 免 费 向 所 有 人 提 供,GPT-4o 模型API同 步 放 出,可 以 部 署 各 种 下 游 应 用 程 序 上。同时API的 性 能 也 有 所 改 进,相比GPT-4 Turbo推 理 速 度提升2 倍,消息 限制提 高五倍,而且 价格还 会降低50%。资料来源:OpenAI,中信建投 GPT4o 实现端到端信息处理,人机交互体验显著提升图:桌面 版GPT-4o解读屏幕 信息 图:GPT-4o 全新的呼叫 窗 口8 传 统 模 型 中 实 现 语 音 交 互 中 需 要 三 个 独 立 模 块:一 个 简 单 模 型 将 音 频 转 录 成 文 本、GPT-3.5 或GPT-4 接 收 文 本 并 输 出 文本、第 三 个 简单模 型将文 本转换 回音频,GPT-4o 采用 端到端 模型训 练跨越 文本、视觉 和 音频,实现所 有信息 的处理。在GPT-4o 发 布 之 前,通 过 语 音 模 式(Voice Mode)与ChatGPT 对话,平 均 延 迟 为2.8 秒(GPT-3.5)和5.4 秒(GPT-4)。GPT-4o 可 以 在 短 至232 毫秒、平均320毫 秒 的 时 间 内 响 应 音 频 输 入,相 应 速 度 大 幅 提 升,与 人 类 在 对 话 中 的 反 应 速 度 一致。发 布 会 上展示 了视频 实时互 动解方 程,桌 面版ChatGPT 秒解 代码难 题,实 时对话 等一些 列交互 过程。OpenAI发布了ChatGPT 的桌面 版本,桌面版 具有全 新的用 户界面,可以 很轻易 地和工 作流融 为一体。资料来源:OpenAI,中信建投 资料来源:OpenAI,中信建投 2024 年3 月4 日,人 工 智 能 创 业 公 司 Anthropic 宣 布 推 出 其 突 破 性 的 Claude 3 系 列 模 型,该 系 列 大 型 语 言 模 型(LLM)在 各 种 认 知 任 务 上 树 立 了 新 的 性 能 标 杆。Claude 3 系 列 包 含 三 个 子 模 型,分 别 为 Claude 3 Haiku、Claude 3 Sonnet和 Claude 3 Opus,它 们提供 不同程 度的智 能、速度 和成本 选择,以 满足各 种人工智 能应用 需求。最智能的Claude 3 Opus 在 大 多 数 常 见 评 估 基 准 上 表 现 均 十 分 优 异,包 括 本 科 水 平 专 业 知 识(MMLU)、研 究 生 水 平 专 业推理(GPQA)、基 础数 学(GSM8K)等。Claude 3 Opus 在复 杂任务上 表现出 接近人类 水平的 理解力和 流畅性。Claude 3:Anthropic 推出的第三代大模型资料来源:Anthropic,中信建投图:Claude 3 模型 家族 图:Claude 3 相关评 测结果资料来源:Anthropic,中信建投 Claude 3 系 列 模 型 还 具 备 与 其 他 领 先 模 型 相 当 的 视 觉 能 力。他 们 可 以 处 理 各 种 视 觉 格 式,包 括 照 片、图表、图 形 和 技 术图表。其中 Claude 3 Opus 在某些 类别上 甚至超越 了 GPT-4V 和 Gemini 1.0 Ultra。Claude 3 系 列 模 型 在 发 布 时 将 提 供20 万token 的 上 下 文 窗 口,并 且 这 三 个 模 型 都 能 够 接 受 超 过100 万token 的输入,Anthropic 未 来 可 能 会 增 加 对 更 大 上 下 文 窗 口 的 支 持。在“大 海 捞 针”测 试 中,Claude 3 Opus 不 仅 实 现 了 近 乎 完 美 的 回忆能力,准 确 率 超 过99%,而 且 在 某 些 情 况 下,它 甚 至 通 过 识 别 出“针”句 子 似 乎 是 被 人 为 插 入 到 原 始 文 本 中 的,指出了 评估本 身的局限 性。Claude 3:Anthropic 推出的第三代大模型图:Claude 3 视觉 测试中的 表现 图:Claude 3 大海捞针 测试结果资料来源:Anthropic,中信 建投 资料来源:Anthropic,中信建投 Gemini 是一个由Google 开 发 的 具 有 高 度 能 力 的 多 模 态 模 型 家 族,开发者训练Gemini 模 型 共 同 处 理 图 像、音频、视 频 和 文本 数据,目的是构 建一个 在各个模 态上都 有强大泛 化能力,同时在 每个领 域都具有 尖端理 解和推理 性能的 模型。Gemini 从 模 型 架 构 设 计 开 始 就 采 用 原 生 多 模 态 结 构,意 味 着 它 可 以 泛 化 并 无 缝 地 理 解、操 作 和 组 合 不 同 类 型 的 信 息,包括 文 本、代码、音频、图 像 和 视 频。目前,Gemini 提供了不同的尺寸版本。分别是:Gemini Ultra:规模最大、能 力 最 强,用 于 处 理 高 度 复 杂 的 任 务;Gemini Pro:在 各 种 任 务 上 扩 展 的 最 佳 模 型;Gemini Nano:用 于 端 侧(on-device)任 务 的 最 高 效 模 型;Gemini Flash:适 用于高 频和高效 任务的 轻量级模 型。原生多模态大模型Gemini资料来源:Google,中信建投图:Gemini 模型 家 族的 不同 版本 图:Gemini 模型 家族的不 同版本 表 现11 资料来源:Google,中信建投 Gemini 在大规模语言建模、图像理解、音 频 处 理 和 视 频 理 解 等 领 域 都 取 得 了 最 先 进 的 状 态。它还依赖于序列模型、基于神 经网络 的深度学 习的大 量工作、机器学 习分布式 系统的 工作,这 些工作 使得大规 模训练 成为可能。编 程 是 大 模 型 衡 量 能 力 的 重 要 维 度,Gemini Ultra 在 编 程 方 面 也 表 现 出 色。基于Gemini,谷 歌 还 推 出 了 更 先 进 的 编 程 系统AlphaCode 2。AlphaCode 2 能理解、解 释并 生 成 Python、Java、C+和 Go 等 编程语 言 的 高质 量 代码,还 擅长 解 决一些 超出 编 程范 围、涉及 复 杂数 学和 理论 计 算机 科学 的编 程 竞赛 问题。除 了 文 本 之 外,Gemini Ultra 在 具 有 挑 战 性 的 多 模 态 推 理 任 务 上 也 取 得 了 显 著 的 进 展。例如,在最近的MMMU 基 准 测 试 上,该基准测试涵盖有关需要多学科知识并进行深思熟虑的图像的多学科任务问题,Gemini Ultra 取得了新的最先进得分62.4%,比以 前最好 的模型 提高了5 个 百分点 以上。大规模训练使得Gemini 在多领域取得最先进状态资料来源:Google,中信建投图:Gemini 文本 推 理能 力 图:Gemini 多模态 推 理能力12 资料来源:Google,中信建投 谷 歌在5 月15 日的开 发者大 会上宣布 升级Gemini 1.5 Pro 模型,将上下 文窗口 从当前100 万tokens 增加到200 万。Gemini 1.5 Pro 引 入 了 高 达200 万token 的 上 下 文 窗 口 长 度 这 是 迄 今 为 止 任 何 大 型 基 础 模 型 中 最 长 的 上 下 文 窗 口(模型 可 理 解 的 信 息 量)。它 实 现 了 跨 模 态 的 长 上 下 文 检 索 任 务 的 完 美 召 回,解 锁 了 准 确 处 理 大 规 模 文 档、数 千 行 代 码、数小时音频、视频 等 的能 力,Gemini 1.5 Pro能 够 同 时 处理 2 小时的视频、22 小 时的 音 频、6 万多 行代 码 或140 多万 字。升级后的Gemini 1.5 Pro,在多项公共基准测试中取得了显著改进,在多项图像和视频理解基准测试中也实现了最先进性能。用 户可以通 过Gemini Advanced 订阅 服务体验 最新的Gemini 1.5 Pro,支 持超过150 个国 家 的35 种 语言。Gemini 1.5 Pro:上下文窗口最长的基础模型资料来源:Google,中信建投图:Gemini 1.5 Pro 超长的上下 文窗口 长度 图:Gemini Advanced 订阅服务处理 任务13 资料来源:Google,中信建投 META 通过开源LLaMa 等大模型,引领大模型开源生态。2023 年2 月25 日,Meta 官网公布了一个新的大型语言模型LLaMA(Large Language Model Meta AI),LLaMA-13B 在 大 多 数 基 准 测 试 中,参 数 仅 为GPT-3 十 分 之 一,但 性 能 优 于GPT-3(175B),而且能 跑在单 个GPU 上。2023 年7 月19 日,Meta 发 布 了 免 费 商 用 版 开 源 大 模 型LLaMA2,各 个 企 业 能 够 以 相 对 低 廉 的 价 格 在 该 模 型 上 开 发 应 用,为客 户 提 供 自 主 的 大 模 型。Meta 与 微 软 达 成 合 作,联手推动AI 应 用 的 商 业 化 落 地。Meta 正 式 开 源 了LLaMA 2 版本,可 免 费用 于 商 业 用 途,微 软 宣 布 携 手。最 新 版 本 的 模 型 将 在 微 软 的Azure 和Windows 平 台 上 线 并 开 源,用 户 可 以 在 云 服 务 中 使 用Llama 2 作 为 基 础 模型,快速 构建适 用于自 身业务 的专用 大模型。LLama2 模型塑造开源生态资料来源:META,中 信建 投 资料来源:META,中 信建 投图:Llama 模型家族 图:Llama、LLama2 相关评 测 目前开源的Meta Llama 3 具有8B 和70B 参数,推理、代码生成和指令等能力相较于LLama2 有大幅改进,LLama3 是目前8B和70B 量 级 上最 好的模 型。Llama 3 在超 过15T token 的数 据集上 进行了 预训练,比Llama 2 使用的 数据集 大七倍。405B 大 参 数 版 本 模 型 还 在 训 练 中,年 内 即 将 发 布。大参数LLama3 在 两 个2.4万张GPU 的 超 大 集 群 中 训 练,训 练 效 率 大 幅 提升。在 接 下 来 的 几 个 月 中,预 计 将 推 出 新 功 能(如 多 模 态)、更 长 的 上 下 文 窗 口、更 多 不 同 大 小 版 本 的 模 型 和 更 强 的 性能。LLama3 领跑开源大模型阵营资料来源:META,中 信建 投 资料来源:META,中 信建 投图:LLama3 评测结 果 图:仍然在训 练中的LLama3 400B Mixtral 8x7B 是 法 国 人 工 智 能 初 创 公 司 Mistral AI 全 新 发 布 的 MoE 模型,MoE 是 Mixture-of-Experts 的简称,具体 的 实 现 就 是 将 Transformer 中 的 前 馈 神 经 网 络 层 换 成 MoE 前 馈 神 经 网 络 层,其 他 部 分 保 持 不 变。在 训 练 过 程 中,Mixtral 8x7B 采用了 8 个 专 家 协 同工 作,而 在推 理 阶段,则仅需 激活其 中的 2 个专家。MoE 平 衡 了 模 型 的 复 杂 度 和 推 理 成 本,即 使 在 拥 有 庞 大 模 型 参 数 的 情 况 下,也 能 保 证 高 效 的 推 理 性 能,使得 MoE 模 型 在保 持 强 大 功 能 的 同 时,也 具 备 了 更 优 的 实 用 性 和 经 济 性。Mixtral 8x7B 推 理 过 程 中 只 激 活13B 神 经 元 参 数,但是在 大 多数 基 准 测 试 中都优于 Llama 2 70B 和 GPT-3.5,实现了 性能和 效率的 平衡。MOE开源代表:Mixtral 8x7B 资料来源:Mistral AI,中信建投 资料来源:Mistral AI,中信建投图:Mixtral 8x7B 中的MoE 设计 图:Mixtral 8x7B 模型测 试结果 Phi-3 是 微 软 研 究 院 推 出 的 小 语 言 模 型,包括phi-3-mini、phi-3-small 和phi-3-medium 三 个 不 同 规 模 的 版 本。这 些 模 型在 保 持 较 小 的 参 数 规 模 的 同 时,通 过 优 化 训 练 数 据 集 和 算 法,实 现 了 与 大 型 模 型 相 媲 美 的 语 言 理 解 和 推 理 能 力,超小的参 数规模 适合 在智 能手机 等本地设 备上运 行。phi-3-mini 是 一 个 在 3.3 万 亿 个 token 上 训 练 的 38 亿 参 数 语 言 模 型。测 试 表 明,phi-3-mini 的 整 体 性 能 可 与Mixtral 8x7B 等 模 型 相 媲美。phi-3-mini 使用Int 4 的 数 据 格 式时,大致 占用1.8GB 内存。端侧模型一览:小语言模型Phi-3资料来源:微软,中信建 投 资料来源:微软,中信建 投图:Phi-3 在端 侧运 行 图:仍 然在 训练 中的LLama3 400B Gemma 是由Google AI 开 源 的 一 系 列 轻 量 级 模 型,于 2024 年 2 月 21 日发布,这 些 模 型 易 于 访 问 且 高 效,使 AI 开发更 容 易 为 广 大用户 所接受。5 月15 日Google 开发者 大会上,Google 再度 发布其 升级版 本Gemma 2。Gemma 模 型 家 族 采 用 与Gemini 模 型 相 同 的 技 术 架 构。Gemma 是 基 于 文 本 训 练 的,它 在 文 本 摘 要、问 答 和 推 理 等 任 务 中 表 现出色。在270 亿 个参数 下,Gemma 2的性能与Llama 3 70B相当,尺寸不 到一半。Google 同 时 发 布 开 源 视 觉 语 言 模 型PaliGemma,可以完成各类视觉语言任务,包括 图 像 和 短 视 频 字 幕、视 觉 问 题 回 答、理 解图像 中的文本、对象 检测和对 象分割 等。端侧模型一览:Google 轻量级开源模型Gemma资料来源:Google AI,中信建投 资料来源:Google AI,中信建投图:Gemma 评测结果 图:Gemma2 评测结果 GPT-5 性能改进超预期,已开启红队测试资料来源:Twitter,中信建投图:推特 中关于GPT-5 的相关 信息19 Sam Altman 曾在OpenAI 开 发 者 大 会 上 表 示GPT-5 将在“大 多 数 你 想 要 构 建 的 事 情”上 都 能 够 胜 任。Altman 近 期 透 露 的关 键 信 息 包 括:如 果GPT-4 目 前 解 决 了 人 类 任 务 的10%,GPT-5应该是15%或者20%,我 们 远 没 有 达 到 曲 线 的 顶 部。不应低估 GPT-5 性能改进的幅度,这可能会超出预期。Runway CEO 兼AI 投资 人Siqi Chen 称,GPT-5 已 经在 推理方 面取得了 意想不 到的阶跃 函数增 益。GPT-5 的 训 练 于2023 年启动,据 相 关 信 息 称2023 年 底 或 正 式 结 束 训 练。近 期 用 户 收 到 红 队 测 试 邮 件,依照惯例,红队测 试 预 计 将 会持续 90-120 天。红队 测试后,GPT-5 或 将正式 发布。第 二 章 国 内 基 础 模 型 发 展 情 况 20 2022 年11 月30 日,OpenAI发布ChatGPT,随 即 引 爆 社 交 网 络。国 内 大 模 型 也 进 入 加 速 成 长 期,在 过 去 一 年 中 取 得 了 实 质 性的突破。国 内 大 模 型 的 发 展 大 致 可 以 分 为 三 个 阶 段,即 准 备 期(2022.12-2023.02)、成 长 期(2023.02-2023.23)、爆发期(2023.12-)。图:国内 大模型 发 展历程国内大模型发展情况资料来源:SuperCLUE,中信 建投 图:国内 大模 型 分 布情 况国内大模型分布情况资料来源:SuperCLUE,中信 建投 国内大模型快速逼近GPT-4 国 内 第 一 梯 队 的 大 模 型 整 体 能 力 目 前 已 经 逼 近GPT-4,部 分 模 型 中 文 能 力 与GPT-4 相 差 无 几。5-6 月,国 内 多 家 大 模 型 将迎来版本更新,今 年年 中 是国 内 大模 型 的关 键 赛点,预期我 们将见 到部分 头部大 模型整 体能力 上超越GPT-4。图:国内 大模型 发 展趋势资料来源:SuperCLUE,中信 建投 图:国内 外大模 型SuperClue 评测结 果 图:大模 型SuperBench 评测结果-语 义理解能 力 图:OpenCompass 2.0 测试结果国内大模型能力测试 客 观 评 价 大 模 型 能 力 存 在 一 定 的 难 度,不 同 的 模 型 测 试 可 能 考 察 了 模 型 不 同 维 度 的 能 力,因 而 模 型 之 间 的 性 能 比 较 在 不同 测试中 可能表现 不一致,同时大 模型的 每次响应 同样存 在不确定 性,增 加了 大模 型的 测 试难 度。结 合 不 同 机 构 的 第 三 方 测 试,我 们 大 致 可 以 知 晓 模 型 之 间 的 性 能 差 异。GPT-4 展 现 出 强 大 的 语 言 理 解、生 成 和 推 理 能 力,在 各 类 测 试 中 均 保 持 领 先 地 位。各 类 评 测 中 模 型 表 现 可 能 略 有 不 同,但是 国 内 第 一 梯 队 的 大 模 型 整 体 能 力 目 前 已 经 快 速逼近GPT-4。国 内 大 模 型 发 展 迅 速,与GPT-4 差 距 快 速 缩 小,第 一 梯 队 的 头 部 大 模 型 例 如ChatGLM4、百度文心一言4.0、讯 飞星火V3.5 整体 表现已 经接近GPT-4,在 中文领域,国内 部分模型 表现已 经可以比 肩GPT-4。资料来源:SuperCLUE,superbench 大 模型 综 合能 力 测评 报 告,上海AI 实验 室,中信 建投 11 月1 日,百 度 正 式 上 线 文 心 一 言 专 业 版,技 术 持 续 升 级。文 心 一 言 大 模 型 专 业 版 基 于 公 司 最 新 自 研 的 文 心 大 模 型4.0,与 原 有的3.5 版 本相 比,具 有 以下优 势:1)更 强的 模 型 能力 和图 片生 成 能力。根 据测 试,文 心大 模型4.0 版 本 在理 解、生成、逻辑、记忆四 大 功能 上 都有明 显 提升,具有 显 著 优化 的模 型性 能。2)支持 接入 丰 富的API 插件,可 以实 现撰 写代 码、润 色文案、设计与 绘图等 多种功能。文 心 一 言 成 为 首 个 国 内 面 向C 端 收 费 的 大 模 型 产 品。文 心 一 言 专 业 版 的 分 为 单 独 订 阅 和 联 合 会 员 两 种 收 费 模 式。单独订阅 模 式 下,会 员 月 付59.9 元,选 择 连 续 包 月 可 以 享 受49.9 元 的 优 惠 价 格;该 模 式 下 会 员 可 以 使 用 文 心 一 言 大 模 型3.5 和4.0 两个版本,而 非 会 员 只 可 使 用 免 费 的 文 心 大 模 型3.5 版本。联 合 模 式 下,用 户 月 付99 元,可 以 同 时 具 有 单 独 订 阅 模 式的 全部功 能,并获 得文心 一格白银 会员资 格,享受AI 修图 改图等功 能。百度文心一言4.0图:百度 文心一 言 会员订购 费用 图:百度 文 心大模型4.0性能全 面提升25资料来源:百度,中信建 投 资料来源:百度,中信建 投 1 月30 日,科 大讯飞 举 行星 火 认知大 模 型V3.5 升 级发 布 会。讯 飞发布 基 于首 个全 国产 算 力训 练的 讯飞 星 火V3.5,七大 核 心能 力 全 面 提 升,语 言 理 解、数学能力、语 音 交 互 能 力 超 过 GPT-4 Turbo,代 码 达 到 GPT-4 Turbo 96%,多模态理解达到GPT-4V 91%。4 月26 日,讯 飞星火 大 模型V3.5 春季 上 新,发布 长文 本、长 图文、长 语 音大 模型。不 仅 可以 快速 学习 各 种来 源的 海量 文 本、图文资料、会 议 录 音,还 能 够 针 对 多 种 多 样 的 行 业 场 景 给 出 专 业、准确回答。此外,星 火 语 音 大 模 型 本 次 更 新 还 包 括 多情 感超拟 人合成功 能,具 备情绪表 达能力,并推 出 一句 话 声音 复刻 功能。讯飞正式启动对标GPT-4 的大模型训练,2024 年上半年对标GPT-4,要走独立的技术路线和产业方向,形成完整产业生态。科大讯飞星火大模型V3.5图:讯飞 星火大 模 型V3.5 图:讯飞星火 大模型 长 文本能力 升级26资料来源:讯飞,中信建 投 资料来源:讯飞,中信建 投 1 月16 日,2024 年度技术开放日Zhipu DevDay,智谱AI发布了新一代基座大模型GLM-4。在 大 规 模 多 任务 语 言 理 解 评 测中,GLM-4 的表现 明显优 于GPT-3.5,其平 均得分 已经达到 了GPT-4 的95%水平,在 某些特定 任务上 甚至表现 相当;GLM-4 具 备 强 大 的 多 模 态 能 力:文 生 图 和 多 模 态 理 解 能 力 得 到 增 强,CogView3 在 文 生 图 多 个 评 测 指 标 上,相比DALLE3 约在91.4%-99.3%的水 平之 间。GLM-4 推出 的All Tools 能力:GLM-4 能自 主理解 和执行 复杂任 务,调用 浏览器、代码解 释器等 完成复杂 工作。个 性化 智 能体 功能:用 户 可以 通过 智谱 官 网轻 松创 建属 于 自己 的GLM 智能体,实现 大 模型 开 发定 制。清华智谱ChatGLM4图:ChatGLM4 模型 性能 测试 结果 图:ChatGLM3 提供更丰富 的模型尺 寸27资料来源:智谱清言,中 信建投 资料来源:智谱清言,中 信建投 4 月23 日,商 汤 科 技 在 技 术 交 流 日 上 发 布 全 新 升 级 的“日 日 新SenseNova5.0”大 模 型,其 主 流 客 观 评 测 指 标 达 到 或 超 越GPT-4 Turbo。日 日 新5.0 模 型 能 力 提 升 一 方 面 得 益 于 采 用 混 合 专 家 架 构(MoE),激 活 少 量 参 数 就 能 完 成 推 理,且推理时 上 下 文 窗 口 高 达200K 左 右;另 一 方 面 来 自 海 量 的 训 练 数 据,其 训 练 数 据 超 过10TB tokens、覆 盖 了 数 千 亿 量 级 的 逻 辑型 合成思 维链数据。商 汤 多 模 态 大 模 型 的 图 文 感 知 能 力 达 到 全 球 领 先 水 平,在 权 威 综 合 基 准 测 试MMBench 中 综 合 得 分 居 首 位,在 多 个 知 名 多模 态榜 单MathVista、AI2D、ChartQA、TextVQA、DocVQA、MMMU 均取 得 优异 成 绩。商汤日日新SenseNova5.0图:日日 新5.0BenchMark 成绩 图:日日新5.0 多模 态测 试结 果28资料来源:商汤,中信建 投 资料来源:商汤,中信建 投 百川智 能Baichuan资料来源:baichuan,中 信建投 1 月29 日,百 川 智 能 发 布 超 千 亿 参 数 的 大 语 言 模 型 Baichuan 3。在 多 个 权 威 通 用 能 力 评 测 如CMMLU、GAOKAO 和AGI-Eval中,Baichuan 3 都 展 现 了出 色 的能 力,尤其 在 中文 任 务 上更 是 超越 了GPT-4。而 在数 学 和 代码 专 项评 测 如MATH、HumanEval和MBPP 中 同样 表现 出色,证明了 Baichuan 3 在自然 语言处 理和代码 生成领 域的强大 实力。Baichuan 2 是 百 川 智 能 推 出 的 开 源 大 语 言 模 型,采用2.6万亿Tokens 的 高 质 量 语 料 训 练。Baichuan 2 在 多 个 权 威 的 中 文、英 文 和 多 语 言 的 通 用、领域 benchmark 上取得同尺寸最佳的效果。包含7B、13B 的 Base 和Chat 版本,并 提 供 了Chat 版本的4bits 量化。图:Baichuan3 测试结果 图:Baichuan 2 13B模型测试 结果资料来源:baichuan,中 信建投 通义千 问Qwen 打造丰 富的开 源大模 型矩阵资料来源:通义千问,中 信建投 通义千问2023 年4 月问世以来,专注于基础模型的技术研发,从初代模型升级至2.5 版本。相比上一版本,2.5 版模型的理解 能力、逻辑推理、指令 遵循、代 码能力 分别提升9%、16%、19%、10%,中文 能力 持 续领 先。今年2 月初,通义 千 问 团队 推 出开 源 模 型系 列Qwen1.5,随后 在不 到3 个 月 的时 间 连续 开 出8 款大 语 言模 型,模型 参 数规 模 涵盖5 亿、18 亿、40 亿、70 亿、140 亿、320 亿、720 亿、1100 亿,打 造 了 丰 富 的 开 源 模 型 矩 阵。能力最 强的Qwen1.5-110B 在MMLU、TheoremQA、GPQA 等 多个基准 测评中 展现出卓 越性能,基础能 力可与Meta 的Llama-3-70B 模型相 媲美。图:通义 千问开 源 大模型家 族 图:通义千问 大模型 测 试结果资料来源:通义千问,中 信建投 字节跳 动“豆包”大 模型资料来源:字节跳动,中 信建投 5 月15 日,字 节跳动 正 式对 外 发布豆 包 大模 型,豆包 大 模型 家 族包括 豆 包通 用 模型Pro、豆包 通 用模型Lite、豆包 角色扮演模型、豆包 语 音 合成 模 型、豆包声 音 复刻模 型、豆包语音 识 别模 型、豆包 文生 图 模型模 型 等,这些 模型 已 接 入抖音、番 茄
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642