资源描述
请阅读最 后评级 说 明和 重要声 明 丨证券研 究报告 丨 行业研究 丨专题报告 丨信息技术 Table_Title 大模型技 术进化论 系列二:性 能进阶的 GPT2 与GPT3 报告要点 Table_Summary OpenAI 于 2019 年推出了 GPT-2,于 2020 年推出 了 GPT-3。GPT-2 与 GPT-3 沿袭了初 代GPT 的架构和训练模式:无监督预训练、Attention 机制、Decoder 架构与自回归训练模式。与初代 GPT 相比,GPT-2 与 GPT-3 可应用的任务类型没有扩 张,但任务表现有明显提升;技术方面的突破主要包含三个方面:1)参数量扩大带来了性能提升;2)性能提升带来泛化能力提高;3)小样本学习 模式大幅度提高性能。分析师及 联系人 Table_Author 宗建树 SAC S0490520030004%1 请阅读最 后评级 说明和 重要声 明 丨证券研究报告丨 更多研报请访问 长江研究小程序 信息技术 cjzqdt11111 Table_Title2 大模型技术进化论系列二:性能进阶的 GPT2 与GPT3 行业研究 丨专题 报告 Table_Rank 投资评 级 看好丨维 持 Table_Summary2 GPT-2 与 GPT-3 有哪 些技 术突破?OpenAI 2019 GPT-2 2020 GPT-3 GPT-2 GPT-3 GPT Attention Decoder GPT GPT-2 GPT-3 1 2 3 few shot learning 参数量 扩大 带来 性能 提升 GPT-2 GPT 10 GPT-2 15.4 GPT 13 GPT-3 1750 GPT-3 GPT-2 GPT GPT-3 GPT-2 GPT-3 SOTA GPT-3 NLP SOTA GPT-2:性 能提 升带 来泛 化能力 提高 GPT-2 GPT-3 GPT-2 GPT-2 GPT-3 Transformer GPT-2 GPT-3 GPT-3:小 样本 学习 模式 大幅度 提高 性能 GPT-3 GPT-3 1750 46%9%1-10 10 性能提 升,但市 场表 现不 及预期 GPT-2 GPT-3 GPT-2 GPT-3 GPT-2 GPT-3 GPT-3 OpenAI GPT-3 ChatGPT 风险提 示 1 2 市场表现对 比图(近 12 个月)Table_Chart 资料来源:Wind 相关研究 Table_Report 商汤推出日日新,大算力+大装置共筑繁华未来2023-04-11 阿里通义千问邀测,风好正是 扬帆时 2023-04-11 Meta 发布 SAM,CV 领域迎来 GPT 时刻2023-04-10-15%-1%13%27%2022/4 2022/8 2022/12 2023/4 300 2023-04-20%21ZAZxOrMsRoPoQmPrMtMoP8OcM8OpNnNsQoNlOnNsOkPmOpP9PrQnRwMsPuMvPoMrO 请阅读最 后评级 说明和 重要声 明 3/14 行业研究|专题报 告 目录 GPT-2 与 GPT-3 有哪 些技术突破?.4 参数量 扩大 带来 性能 提升.6 GPT-2:性 能提 升带 来泛 化能力 提高.7 GPT-3:小 样本 学习 模式 大幅度 提高 性能.8 性能提升,但市场表现不及预期.10 风险提示.13 图表目录 图 1:Attention 机制 给不同 的词赋予 不同的 权重.4 图 2:Decoder 架构.4 图 3:self-Attention 与 Masked-self-Attention 的 区别.5 图 4:一图 对比 GPT 大 模 型训练模 式.5 图 5:OpenAI 共 训练了 7 款 GPT-3 模型.6 图 6:GPT-3 模型性 能随着 参数量增 加而提 高.6 图 7:GPT-2(1542M)在 9 个任务 上的表 现都超 越了 初代 GPT(117M).7 图 8:GPT-2 模型文 本总结 任务的性 能在参 数量提 升后 稍有下滑.7 图 9:初代 GPT 与 BERT 通过无监 督预训 练+调参来 得到最终 模型.8 图 10:GPT-3 的 45TB 训 练数据组 成.8 图 11:什 么是小 样本学 习 能力.9 图 12:小 样本学 习的案 例.9 图 13:如 果将大 模型的 调 参和小样 本学习 类比成 考试.9 图 14:GPT-3 性能 会随着 可学样本 数量提 高而提 高.10 图 15:GPT-3 在 Lambada 任务的 表现.10 图 16:GPT-3 在物 理 QA 任务的表 现.10 图 17:GPT-2 的性 能稍弱 于 BERT.11 图 18:当 任务数 据规模 提 高后,GPT-2 的性 能可以 追 上 BERT.11 图 19:直 到 2023 年,BERT 和其变 体 RoERTa 的相 关研究仍 远超 GPT-2 与 GPT-3.11 图 20:一 张图看 懂 BERT、GPT 的架 构和训 练模式 的影响.12 表 1:一张 表看懂 GPT 系 列大模型 技术突 破.6%3 请阅读最 后评级 说明和 重要声 明 4/14 行业研究|专题报 告 GPT-2 与 GPT-3 有哪些技 术突破?GPT BERT GPT Decoder+OpenAI GPT 2019 2020 GPT-2 GPT-3 GPT-2 GPT-3 GPT GPT-2 GPT-3 Transformer Attention GPT-2 GPT-3 Attention GPT-3 Sparse attention 1 Attention 2 Decoder Github Github Decoder GPT-2 GPT-3 Decoder Masked-self-Attention GPT%4 请阅读最 后评级 说明和 重要声 明 5/14 行业研究|专题报 告 3 self-Attention Masked-self-Attention Github GPT GPT-2 GPT-3 1 2 3 few shot learning GPT 1.17 GPT OpenAI GPT-2 15.4 GPT-2 GPT-2 OpenAI GPT-3 1750 GPT-3 GPT-2 4 GPT Sigmoid lambdalab 7000 AI 40GB Reddit GPT 12 Decoder512 Token 1.17 GPT-1 GPT-2 48 Decoder1024 Token AI 15.4 GPT-2 45TB GPT-3 96 Decoder2048 Token AI 1750 GPT-3 将大模型直接用于NLP 任务将大模型直接用于NLP 任务泛化能力提升,所以省略了调参步骤泛化 能力强,所以省略了调参步骤预训练调参小样本学习%5 请阅读最 后评级 说明和 重要声 明 6/14 行业研究|专题报 告 参数量扩 大带来 性 能提升 GPT-2 800 Reddit 10 GPT 10 GPT-2 15.4 GPT 13 GPT-3 45TB GPT-3 1750 GPT-2 15.4 GPT-3 1 GPT Token GPT 12 Decoder 1.17 512 5GB BookCorpus 7000 GPT2 48 Decoder 15.4 1024 40GB 800 Reddit GPT3 96 Decoder 1750 2048 45TB Common Crawl WebText2 Books1 Books2 Wikipedia Sigmoid lambdalab GPT-2 GPT-3 Token GPT 512 1024 2048 Token GPT GPT-2 700 GPT-3 1400 1 Token 0.7 GPT-2 GPT-3 OpenAI 4 GPT-2 8 GPT-3 GPT-2 GPT-3 GPT-2 GPT-3 Decoder 5 OpenAI 8 GPT-3 6 GPT-3 Language Models are Few-Shot Learners OpenAI Language Models are Few-Shot Learners OpenAI%6 请阅读最 后评级 说明和 重要声 明 7/14 行业研究|专题报 告 GPT-2 GPT OpenAI GPT-2 9 GPT-2 8 GPT-2 GPT 7 GPT-2 1542M 9 GPT 117M Language Models are Unsupervised Multitask Learners OpenAI GPT-3 GPT-2 GPT-3 SOTA GPT-3 NLP SOTA GPT-2 GPT-2 7.62 15.4 8 GPT-2 Language Models are Unsupervised Multitask Learners OpenAI GPT-2:性 能提升 带来泛化 能力提 高 GPT BERT NLP+GPT-2%7 请阅读最 后评级 说明和 重要声 明 8/14 行业研究|专题报 告 9 GPT BERT+NLP openBMB GPT-2 GPT-3 GPT-2 Language Models are Unsupervised Multitask Learners GPT-2 GPT-2 GPT-2 GPT-3 Transformer GPT-2 GPT-3 10 GPT-3 45TB Language Models are Few-Shot Learners OpenAI GPT-3:小 样本学 习 模式 大 幅度提 高 性能 GPT-2 GPT-2 SOTA GPT-2 zero-shot GPT-3 GPT-3 GPT-3 Pre-training Fine-tuning 大规模无标注数据任务特定训练数据数据预训练+调参=目标 模型泛用性增强 根据场景调整 得到特定所需%8 请阅读最 后评级 说明和 重要声 明 9/14 行业研究|专题报 告 11 Language Models are Few-Shot Learners OpenAI 12 13 AI GPT-3 GPT-3 1750 46%9%1-10 10%9 请阅读最 后评级 说明和 重要声 明 10/14 行业研究|专题报 告 14 GPT-3 Language Models are Few-Shot Learners OpenAI GPT-3 Lambada QA GPT-3 1-13 1 2 15 GPT-3 Lambada 16 GPT-3 QA Language Models are Few-Shot Learners OpenAI Language Models are Few-Shot Learners OpenAI 性能提升,但市 场表现不 及预期 GPT-2 GPT-3 GPT-2 GPT-3 GPT-2 GPT-3%10 请阅读最 后评级 说明和 重要声 明 11/14 行业研究|专题报 告 17 GPT-2 BERT 18 GPT-2 BERT iReason:Multimodal Commonsense Reasoning using Videos and Natural Language with Interpretability Chadha et al.A Study on Prompt-based Few-Shot Learning Methods for Belief State Tracking in Task-oriented Dialog Systems Saha et al.BERT BERT GPT-2 GPT-3 GPT-2 GPT-3 Decoder GPT Decoder GPT GPT-3 OpenAI 2023 GPT-3 ChatGPT Decoder 19 2023 BERT RoERTa GPT-2 GPT-3 Paperwithcode%11 请阅读最 后评级 说明和 重要声 明 12/14 行业研究|专题报 告 20 BERT GPT%12 请阅读最 后评级 说明和 重要声 明 13/14 行业研究|专题报 告 风险提示 1 AI AI 2%13 请阅读最 后评级 说明和 重要声 明 14/14 行业研究|专题报 告 投资评级说明 行业评级 12 公司评级 12 10%5%10%-5%5%-5%A 300 办公地址 Table_Contact 上海 武汉 Add/1198 29 P.C/200122 Add/88 37 P.C/430015 北京 深圳 Add/33 15 P.C/100032 Add/1 3 36 P.C/518048 分析师声明 重要声明 10060000 财务报表及指标预测%14 前沿报告库是中国新经济产业咨询报告共享平台。行业范围涵盖新一代信息技术、5G、物联网、新能源、新材料、新消费、大健康、大数据、智能制造等新兴领域。为企事业单位、科研院所、投融资机构等提供研究和决策参考。扫一扫免费获取海量报告
展开阅读全文