资源描述
行业 报告|行 业深 度研 究 请务必阅读正文之后的 信息披露和免责申明 1 电子 证券研 究报 告 2023 年 04 月 09 日 投资 评级 行 业评级 强于大市(维持 评级)上 次评级 强于大市 作者 潘暕 分析师 SAC 执业证 书编号:S1110517070005 许 俊峰 分析师 SAC 执业证 书编号:S1110520110003 资料来源:聚源 数据 相 关报告 1 电子-行业深度研究:AI 新 时代算力需求高增长,算力网络建设有望奔向太空 2023-03-30 2 电子-行 业 专 题 研 究:4D 毫米波雷达:平 衡成 本&性 能 的标 配 传感 器,自动驾驶再添新翼 2023-03-22 3 电 子-行 业投 资 策略:先 周期 复 苏 后成 长 创 新,抓 住 内 需 和 供 给 侧 拉 动 2023-01-14 行 业走势图 AI 赋能制造业道路,传统 安防龙头估值逻辑 切换 技 术 端:技 术 升级 缓 解精 度和 成 本 痛点,加速 AI 在 安防 应 用 场景 落 地 传统 AI 模 型存 在模型 精度 不足、大 数据利 用能力 不足 等限制,导致 AI 在安防行业应 用场景 受限。随着 AI 时代开启,有望从 技术 端 突破瓶颈,提 高模型精度并降 低人工 标注成 本,拓宽下游 应用领 域,加 速场 景落地。(1)图像机 器学习+大小 模型协同 进化,模 型精度 显 著提升。通 过自训 练和注意力 机制,将图 片与 结构 化数据 的关 系由人 工标 记变 为机器 自主 学习,显著提高 模型 精度并 提高 下游 泛化能 力。在算力 不足 的边 侧,大 模型 通过知 识蒸馏等方 式达 到训练 小模型 的目的,实现 大小模 型在边 侧的协同 进化;(2)大模型有 效降低 标注成 本,利用预训 练大模 型+下游任 务微调的 方式,助 力下游场景日 渐丰 富;(3)多 模 态助力模 型精 度提升,音频 技术助力 智能 安防,在安防领 域广泛 运用于 安防 机器人、智能视 频监控。下 游 需 求:AI 技术 深 度赋能 各 行 各业,为 B 端 带 来广阔 市 场 空间 1)工 业:智能化转型为安 防带来广 阔空间。据我 们测 算,每年 在质检 有将近2100 亿的人力成 本,汽车、消费电子 等行业 潜在可 替代 空间均达 到千亿 级别。2)智 慧 城市:校园/医疗/城 市等多场 景深度 赋能安 防。智慧城市 辐射多 个领域,驱 动市 场规模 超百 亿级。视频 监控 摄像头 作为 数据 核心,为视 觉应用 厂商带来广 阔机遇。3)煤 炭:政策指引+IT 赋能,智慧矿山 驱动智 慧物联 需 求。安永预 计智慧 矿山整体市 场规模 超万亿 元。4)农 业:降本增效+技术进 步驱动,潜 在可 替代成 本预 计突破万 亿,养 殖和种植双场 景赋能 智慧农 业。市 场 格 局:AI 时 代开 启,安防 巨 头 估值 逻 辑从 传 统安 防切 换 至 AI 我们认为,在 AI 时代 下,安 防行业将 呈现强 者恒强 的发 展趋势,海康 大华的估值逻辑 将从传 统安防 拓展 至 AI。与雪亮 工程 对比,AI 将为安防 行业带 来更大空间,龙头 受益程 度亦会 更高。(1)雪 亮工 程:受 政 府订单驱 动,行业周期性强、空间受 限于 G 端、行业格局 尚未清 晰。雪 亮工 程后海康 大华逐 渐占据行业主 导地位;(2)AI 时 代:随着 AI 赋能各 行各业,行业将显 著受益 于 AI to B 端,行业天 花板被 打开。我们认为,伴随着 AI 迅速 发展,行业 马太效 应将进一步 凸显,海康大 华凭 借渠道、行业理 解、数 据等 优势 有望 持续领 航。两大安防 巨头 核心竞 争:(1)渠道:国内 外覆盖 广泛营 销网络,规模 优势打造成本壁 垒;(2)行业 Know-How:行业理 解提高 数据 精度,是 AI 技 术变现的核心能 力;(3)数据:数 据是 AI 模型构建 的基础。安防龙头 积累丰 富数据资源和价 值挖掘 能力,有望 构建 AI 时代下的 数据护 城 河。中移动 成为 大华特 有 阿 尔法,有望 实现 协同发 展。中移 动作为 运营 商龙头,广泛布局 视觉 AI,与大华 在 AI to B 端高 度协同。中 移在 算力、数据 和渠道 拥有显著优 势,将 助力大 华渠 道下沉,深度赋 能大华 在 AI 领域发展。投 资 建 议:建议重点关注:1)安防厂 商:大华 股份、海 康威视、千方科 技等安防产业 链标的;2)上 游 关键硬件 厂商:富瀚微、寒 武纪、舜 宇光学 等。风险提示:下游需求不稳定 风险、企业 技术研 发不及 预 期、供应链 安全风 险、知识产权 风险、主观测 算风 险。-14%-9%-4%1%6%11%16%2022-04 2022-08 2022-12电子 沪深300 行 业报告|行 业深度研 究 请务必阅读正文之后的 信息披露和免责申明 2 内容目 录 1.大 模 型 突破 技 术瓶 颈,有 望 加 速 AI 场 景 落地.5 1.1.图像机器 学习+大小模 型协同进 化,模 型精度 显著 提升.5 1.1.1.图像机 器学习+注 意 力机制实 现降本 提精,图像 交互方式 或被颠 覆.5 1.1.2.大模型+小模 型协 同 进化,在 边侧实 现模型 精度 提升.7 1.2.机器学习 有效降 低标注 成本,助 力下游 场景日 渐丰 富.8 1.3.多模态驱 动模型 精度提 升,音频 技术助 力智能 安防.9 1.3.1.多模态 模型落 地,多 维数据提 升模型 精度.9 1.3.2.音频模 态接入,助力 智能安防 场景落 地.10 2.大 模 型 应用 领 域不 断 丰富,打 开安 防 下游 市 场空 间.11 2.1.工业:智 能化转 型市场 广阔,安 防迎来 全新机 遇.12 2.1.1.人口负 增长、老龄化 背景下,智能工 厂迎来 广阔 空间.12 2.1.2.工业智 能化转 型市场 广阔,细 分行业 潜在可 替代 空间均可 达千亿 级别.13 2.2.智慧城市:以摄 像头为 核心,多 领域市 场空间 达百 亿级.16 2.2.1.智慧校 园应用 分为两 个场景,中小学 市场规 模达 千亿级.16 2.2.2.智慧医 院涉及 三大核 心,相关 市场规 模达 360 亿元.17 2.2.3.视频监 控为智 慧城市 核心,运 营商视 联网平 台丰 富摄像头 应用环 境.18 2.3.煤炭:智 慧矿山 驱动智 慧物联需 求.19 2.4.农业:降 本增效 驱动下,智慧农 业前景 广阔.22 2.4.1.传统农 业规模 大,智 慧农业发 展前景 广.22 2.4.2.智慧养 殖将实 现全流 程智能管 理,农 林牧渔 业潜 在可替代 人力成 本已超 亿元.24 2.4.3.智慧种 植有望 实现无 人化,潜 在可替 代种植 业人 力成本达 到千亿.25 3.行 业 格 局:AI 时 代下,安 防 两 大巨 头 有望 持 续领 航.28 3.1.渠道:全 球化营 销和渠 道优势,品牌效 应明显.28 3.2.技术:数 据+行业 Know-How 构建 AI 时代下护城 河.29 3.2.1.行业 Know-How:行 业理解提 升数据 精度,助力 AI 技术快速变现.29 3.2.2.数据:AI 模型 的基础 和源泉,安防龙 头数据 资源 优势明显.30 3.3.中移动:大华股 份特有 阿尔法,战投有 望实现 协同 发展.31 3.3.1.研发端:中移 AI 领域 优势明显,深度 赋能大 华 AI 安防发展.31 3.3.2.渠道端:运营 商龙头 企业,助 力大华 渠道下 沉.33 4.投资建议.34 5.风险提示.34 图表目 录 图 1:大模型+小 模型协 同 发展流程.5 图 2:人眼注 意力机 制示意.6 WUDWwPqNsRrQqOsRrMoRnM9P9R8OmOpPnPmPfQoOtPlOrQmM6MpPzQvPpNuMuOsPqP 行 业报告|行 业深度研 究 请务必阅读正文之后的 信息披露和免责申明 3 图 3:提取图 片的文 字结构 数据示意.6 图 4:注意力 机制作 用示意.6 图 5:对具有 不同遮 挡程度 的复杂环 境的识 别.7 图 6:知识蒸 馏示意 图.8 图 7:三类知 识蒸馏 的差异.8 图 8:传统安 防项目 落地流 程.8 图 9:BEiT-3 可迁移到 各种 视觉、视 觉-语言的 下游任 务.9 图 10:谷歌 Palm-E 模型能 接收多模 态输入.10 图 11:整合 多 模态数 据能 够有效提 高模型 精度.10 图 12:包括声 纹识别 的多 模态生物 识别技 术.11 图 13:百城市 公共就 业服 务机构市 场岗位 空缺与 求职 人数的比 率.12 图 14:2013-2021 年我国劳动力情况(单位:万人).12 图 15:上海特 斯拉超 级工 厂.14 图 16:上海特 斯拉工 厂焊 接车间.14 图 17:蓝思云 示意图.15 图 18:蓝思科 技生产 车间.15 图 19:摄像头 实现云 边端 协同的框 架.19 图 20:中国电 信天翼 视联 网平台布 局.19 图 21:2016-2022 年中国煤炭行业规 上企业 营收情 况(单位:亿 元).19 图 22:2011-2022 年全国煤矿百万吨 死亡率 情况.19 图 23:2018 年世界主要 产 煤国家煤 矿安全 生产相 关指 标.19 图 24:2021E-2022E 中国智慧农业预 测规模 与农民 收入 对比.22 图 25:2018-2022 年中国农林牧渔业 增加值 以及占 GDP 比重.22 图 26:智慧农 业基本 架构.22 图 27:中国智 慧农业 产业 链结构.22 图 28:牧原智 能养殖 云平 台.23 图 29:2017-2021 年农林牧渔业城镇 单位就 业人员 平均 工资.24 图 30:2022E-2029E 中国智慧养殖行 业市场 规模预 测.24 图 31:三易易 美丽牧 场智 慧养殖解 决方案.25 图 32:2019-2021 年粮食作物总人工 成本(亿元).25 图 33 天工智慧 种植方 案结 构图.25 图 34:华为农 业沃土 云平 台系统架 构.26 图 35:超级棉 田降本 增效 对比图.26 图 36:AI 视觉解决方 案 农业领 域.27 图 37:2015-2018 年海康大华营收(左轴)及同比 增速(右轴).28 图 38:2021 年国内以视 频 监控为主 营业务 的安防 企业 营收占比.28 图 39:2022 年全球安防“5 0 强”前十.29 图 40:大华企 业平台 3.0.30 图 41:大华城 市平台 2.0.30 图 42:大华股 份“一 体系,两平台”架构.30 图 43:大华股 份数据 中台.31 行 业报告|行 业深度研 究 请务必阅读正文之后的 信息披露和免责申明 4 图 44:大华股 份构建 数据 大生态.31 图 45:“垃圾 满溢”算法 流程.32 图 46:“垃圾 满溢”算法 中对图像 预处理.32 图 47:“垃圾 满溢”算法 中模型推 理.32 图 48:算力路 由原理.33 图 49:中移动 构建面 向行 业细分领 域的位 置大数 据原 子能力体 系.33 表 1:对于给 定图片(男性 肖像),注意 力机制 的实现 过程.6 表 2:车间加 工中心 各工序 对表面粗 糙度的 精度要 求.7 表 3:大模型 具有的 特征与 优势.9 表 4:目前主 流的多 模态大 模型.9 表 5:包含声 音的常 见多模 态任务.10 表 6:机器人 在工业 中可能 的应用场 景.12 表 7:2021 年汽车行 业主要 厂商生产 人员情 况及人 员成 本.13 表 8:特斯拉 上海超 级工厂 制造环节 及流程.14 表 9:2021 年消费电 子行业 主要厂商 生产人 员情况 及人 员成本.14 表 10:富士康“灯塔 工厂”示范.15 表 11:蓝思科 技智慧 工厂 应用.16 表 12:智能校 园相关 智能 化设备情 况.16 表 13:智能医 疗相关 智能 化设备情 况.17 表 14:部分医 院智能 化升 级总花费.18 表 15:智慧矿 山相关 政策.20 表 16:大华股 份智慧 矿山 解决方案.21 表 17:2022 年出栏量前 10 的上市猪 企人工 成本和 智慧 养殖情况.23 表 18:智慧养 殖解决 方案.25 表 19:国内智 慧农业 先进 解决方案.26 表 20:机器视 觉农业 应用 场景.27 表 21:雪亮工 程时代 与 AI 时代对比.28 表 22:部分安 防企业 渠道 数据统计.28 表 23:中国移 动 AI 视觉相 关核心能 力.31 表 24:中国移 动人体 姿态 行为分析 能力和 通用场 景目 标检测能 力.32 表 25:中国移 动 2022 年个 人市场和 家庭市 场用户.34 行 业报告|行 业深度研 究 请务必阅读正文之后的 信息披露和免责申明 5 1.大模型 突破技术瓶颈,有 望加速 AI 场景落地 我 们 认 为,AI 在 安防 行 业商业 化 落 地进 程 中主 要 存在 两大 痛 点:第一,传统机器学 习模型精度不足;其次,模型 限制 成为大数 据 发展 的挑战 之一,模型下 游应用 场景有 限。随着 AI 时 代到 来,我 们 看到 如 下 趋势:通过突破技术 端瓶颈,或将 显著提 高模型 精度并降低人工标 注成本,拓宽下 游 应用领域,加速场 景落地。具体而言,(1)图 像机器 学 习+大小模型协同 进化,模 型精度 将 显著提升;(2)大模 型有效 降低标注 成本,助 力下游 场 景日渐丰富;(3)多 模态驱 动模型 精度提升,音频 技术助 力智 能安防。1.1.图 像机 器学习+大 小模型 协同 进化,模型 精度显 著提 升 我们认为,图像机器学习+注意力机制将提高精度并降 低人工标注成本,通过大小 模型协同 进 化,拓 宽 下游 应 用场 景。具体而言:(1)在图 像机器 学习+注意力 机制赋 能下,AI 大模型对 于复杂 图片 和场 景的识别能力有 望显著 提升,降 低 人工标注 成本,提 高大模 型 自我训练 的精度;(2)大模 型通过知识蒸馏、量化等 方式,在 边侧将其 沉淀的 知识与 推理 能力向小 模型输 出,达到 训 练小模型的目的。(3)小模 型向大 模型反馈 算法和 执行成 效,帮助大模 型迅速 收敛。通 过 上述流程,将实 现大小 模型在 云边 端协同进 化。图 1:大模型+小模型协同发展流 程 资料来源:华东 政法大 学政治 学研究 院、华东政 法大学 人工智 能与大 数据指 数 研究院、清智机 器人 Tsing Robot Center 公众号、天风 证券研 究所 1.1.1.图 像 机 器学 习+注意 力 机制实 现 降 本提 精,图 像 交互 方式 或 被 颠覆 Clip 模型是 OpenAI 于 2021 年初发布 的开源 神经网 络,在无需人 工标注 标签 的 图像 识别 上性能卓越,Clip 开源的特点 或将加快 国内厂 商技术 追赶 图像机器 学习进 度,为 后续 机器视觉大规模 商业化 打下技 术基 础。Clip 带 来图 像 机器 学 习关 键节 点,机 器 视觉 大 规模 商 业化 时 间 线可 参 考 ChatGPT。Clip 技术突破带 来迅速 的下游 应用 渗透,在 Clip 发布两年 后,2022 年 11 月、2023 年 3 月 ChatGPT与 GPT-4 分别 发布,图像机 器学习使 得 AIGC 大规 模商 业化成为 了可能。参 考 ChatGPT,我们认为 图像机 器学习 的技 术触角有 望延展 到机器 视 觉 2B 应 用端:(1)短期:可实现降低成本、提高精 度;(2)中 长期:人 和图像 数据的 交互 方式或被 颠覆。短 期:图像 机 器学 习 摆脱 人工 标 注,将 降 低标 注 成本、提 升 识 别精 度。1)实现图像 的机器学习将减少 AI 图像 视频判 断对人工 标注的 依赖,降低 数据成本。2)在 识别成 本 下降的同时,机器学 习将会 提升图 像 标签的识 别精度,提升数 据 挖掘的维 度,无法 被人眼 识 别的数据将得到 被挖掘 的可能,拓 宽下游机 器视觉 2B 应用 场 景。长期:在摄像头海量数据支 持下,AI+安 防 的 交 互 方 式 或 被 颠 覆。摄 像 头 作为 目 前 视 频、图像信息 的重要 接收窗 口,在日常生 活中具 备较高 覆盖 度,可 以从边 端侧为 AI 分析 提供海量数据源,是 AI 自我学 习视 频图像数 据的重 要抓手。通 过机器学 习,如 今已经 实现 通过文字描述查 找视频 关键帧 等应 用,随着 机器 学习技 术的进 一步迭代,深 入挖掘 更多图 像视频的视觉信 息,我 们认为在 AI+安防领 域有望 创造更 多人 与深度视 觉数据 互动的 方式,如自动生成监 控视频 的文字 描述、选择关 键片段 替代原 视频 等。实 现 不 同模 态 信息 提 取,注意 力 机 制助 力 图像 识 别的 机器 学 习。在图像的机器 学习 中,使 行 业报告|行 业深度研 究 请务必阅读正文之后的 信息披露和免责申明 6 用了注意 力机制,用 于提取 图像和文 本的特 征表示,从 而实现图 像和文 本之间 的相 似度计算。模仿人 类视觉 选择性 关 注信息、忽 略其他 可见信 息 的特点,注 意力机 制是一 种 抑制无用特征、提高对 有用特 征的 关注度的 算法。在 2017 年由 Google 提出可以实现 注 意力机制的神经网 络架构 Transformer 后,注 意力机 制经过 发展,已经可以 完成音 频、图像、视频、自然语言 等不同 模态的 数据 特征抓取 任务,实现 了多模 态的信息 提取,成为 Clip 模型为代表的图像 机器学 习的重 要基 础之一。图 2:人眼注意力机制示意 图 3:提取图片的文字结构数据示 意 资料来源:fastcompany、天风 证券研 究 所 资料来源:Show,Attend and Tell:Neural Image Caption Generation with Visual Attention K Xu、天 风证券 研究 所 注 意 力 机制 原 理如 下:注意力机制共 包含三 个参数:查 询向量(query vector),键向 量(key vector),和 值向量(values vector),实 现注意 力机制 的 核心在于 对于给 定输入 图片,实现Q、K、V 值的 不断重 置。以 面部识别 为例,将图 像分割 成数个部 分,把各模 块(眼 睛、皮肤、胡 须等)按序编 码得到 一系列 Q、K、V 向 量,依次 计算每一 部分 Q 向 量与所 有 特征 K向量(K 向量 为所有 Q 向量 的集合)的 相似 度,即注 意 力权重系 数,并 将系数 与原 特征向量 V(V 在第一次 迭代中=K)进行加权 求和,重 新生成 携 带关联性 信息的 该特征 向量(V1),例如嘴巴(关联 性程度 依次 为胡须、皮肤等)。在识别图 片过程 中,注意力 机制不断 选出与 此次迭 代的 V 相关性 最高的 特征,不断 更新 Q、K、V 直到图像中的所有特 征都被识别完毕。例如,在对给定男性肖像图片进行识别时,Transformer 框架将 综合重 点特征描 述,通 过多次 迭代 推导出最 终的识 别结果:男 性。图 4:注意力机制作用示意 资料来源:An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale A Dosovitskiy,天风证 券研究所 表 1:对于给定图片(男性肖像),注意力机制的实现过程 输入 初 始值 第 一次迭代 第 二次迭代 查询向量 Q 嘴巴 皮肤 胡须 键向量 K 嘴巴、胡须、皮肤 嘴巴、胡须、皮肤 嘴巴、胡须、皮肤 行 业报告|行 业深度研 究 请务必阅读正文之后的 信息披露和免责申明 7 值向量 V 嘴巴、皮肤、胡须 嘴巴(胡须、皮肤)、皮肤、胡须 嘴巴(胡须、皮肤)、皮肤(眉毛、嘴巴)、胡须 新值向量 V1 嘴巴(胡须、皮肤)、皮肤、胡须 嘴巴(胡须、皮肤)、皮肤(眉毛、嘴巴)、胡须 嘴巴(胡须、皮肤)、输出 初始值 第一次迭代 第二次迭代 向量识别 嘴巴(胡须、皮肤)胡须(皮肤、嘴巴)皮肤(眉毛、嘴巴)、最终识别:男性 资料来源:An Image is Worth 16x16 Words:Transformers for Image Recognition at Scale A Dosovitskiy,天风证 券研 究所 1.1.2.大模型+小模 型 协同 进 化,在 边 侧 实现 模 型精 度 提升 传 统 机 器学 习 模型 精 度瓶 颈明 显,复杂 场 景识 别 受限。由于数据 量不足、特 征提取 能力不足、模型 复杂度 不足、计算 资源有限 等问题,传统 机器 学习模型 往往精 度有限、难 以处理大规模的 数据。当在复 杂环 境中存在 干扰因 素时,识别 效果往往 大打折 扣。例如在工业质检 领域,质 量 检测是制 造业生 产线中 的重 要环节,对精 度要求 尤为严 格,通常为微米 级别,在 半导体 等 产业甚至 达到纳 米级别。以 车间加工 中心为 例,各工 序 精度要求基本在 1-10 m 间。传 统机器 学习 模型存 在精 度不 足、成 本过 高等痛 点,应用 效果不佳。表 2:车间加工中心各工序对表面 粗糙度的精度要求 工序 粗 加工 半 精加工 精 加工 高 精度 车削 20-10m 10-0.16 m 0.04-0.01 m 铣削 5 20m。2.5 10 m 0.63 5 m 刨削 25 12.5 m 6.2 3.2 m 3.2 1.6 m 磨削 0.16 0.04 m 超精密磨削:0.04 0.01 m;镜面磨削:0.01 m 以下 镗削 0.63 0.08 m 资料来源:CIMES 北京 国际机 床工具 展 公众号、天风证 券研究 所 大小模型协同进化实现精度提升,使复杂场景精确识别成为可能。(1)在 图 像机 器 学习+注意力机 制赋能 下,大模型 对于复杂 图片和 场景的 识别 能力将会 显著提 升,助力模 型精度提高;(2)在算 力不足 的边 侧,通 过知识 蒸馏等 方式实 现大模型 对小模 型的训 练;(3)小模型向大 模型反 馈算法 和执 行成效,帮 助大模 型迅速 收 敛。通过上 述流程,将实 现 大小模型在云边 端协同 进化、实现 精度提升。例如在自 动驾驶 背景下,车 辆需要实 时感知 周围场 景。传统模型 下人工 标注的 信息 获取维度单一,处于 运动状 态下的 车辆可能 出现相 互遮挡 等情 况,导致 无法 精 准识 别并感 知周围场景。而 在机器 视觉充 分被 数据训练 后,海 量的多 维度 数据将会 被标注,并给 予适 量权重,从而使复 杂场景 的精确 识别 成为可能。图 5:对具有不同遮挡程度的复杂 环境的识别 资料来源:Occluded Video Instance Segmentation:A Benchmark J Qi、天 风 证券研究 所 行 业报告|行 业深度研 究 请务必阅读正文之后的 信息披露和免责申明 8 在 大 模 型监 督、训 练小 模 型的 过 程 中,知识 蒸 馏是 主 流方 法 之 一。知识蒸馏核心思 想是生成一个复 杂的大 模型,对于 同一数据 源,小模型 以大模 型的输出 结果或 生成的 数据 标签为目标进行 训练。知 识 蒸 馏可 实 现大 模 型能 力迁 移,在 边 侧等 算 力不 足 区域 提 高 模型 精 度。(1)提升模型精度:利 用 已 有 的 更 高 精 度 的 大 模 型 对 小 模 型 进 行 知 识 蒸 馏,从 而 得 到 更 高 精 度 的 小 模 型。(2)降低 模型时 延,压 缩网 络参数:通过更 高精度 的大 模型对参 数量小、时延 低的 小模型进行知识 蒸馏,提高该 小模 型的精度,从而 降低时 延。(3)标签之 间的域 迁移:将两个训练集不同 的模型 同时蒸 馏,可以得到 集合两 个模型 效果 的模型,实现 了两个 不同域 的数据集 的集成 和迁移。以小米的 小爱同 学智能 音响 为例,首 先在云 上基于 大规 模数据训 练 BERT 大 模型,然后再将这个模 型作为 teacher 模型,进行 模型蒸 馏,来 训练 一个更小 的 Albert tiny 模型。最终得到的小 模型可 以学习 到 Bert 大模型 的知识,在效果 没有明显 下降的 情况下,响 应时间降低到 20ms,大幅 优化了 客 户体验。图 6:知识蒸馏示意图 图 7:三类知识蒸馏的差异 资料来源:Knowledge distillation in deep learning and its applications A Alkhulaifi、天风 证券研 究所 资料来源:laptrinhx、天 风证券 研究所 1.2.机 器学 习有效 降低 标注成 本,助力下 游场 景日渐 丰富 我 们 认 为,以 减少 人 工标 注成 本 为 基础,“预训 练 大模型+下 游 任务 微 调”模 式是后 续 视 觉模 型 大 规模 应 用的 重 要前 提。传 统 网 络 模 型 训 练 依 赖 海 量 经 标 注 的 数 据,数 据 成 本 较 高。由于获取、标注数据成本高,且针对不 同行业 需要重 新收 集、标注 数据和 训练模 型,产生大量 重复成 本。根据 极市 平台 公众 号、得物 技术 公众 号、高工 智能 汽车 公众 号 总 结的 AI 项目通 常 开发过程,结合 2016 年海 康威视 在海关便 携式审 讯设备 采购 项目中落 地流程 的实例,项 目落地的主要流 程包括:确定 需求、数据搜 集、根据需 求和数 据设计定 制化模 型、安 装并 部署项目、根 据实际 应用数 据优化 模型、验收项 目、后期运 维。项目中依 赖人工 搜集并 标注 数据,产生大量 成本。此外,需要 结合实际 部署情 况所得 数据 对模型进 行优化,将产 生重 复成本。图 8:传统安防项目落地流程 资料来源:极市 平台公 众号、得物技 术 公众号、高工智 能汽车 公众号、中国 政 府采购网、天风 证券研 究所 行 业报告|行 业深度研 究 请务必阅读正文之后的 信息披露和免责申明 9 机 器 学 习将 有 效 降低 人 工标注 的 数 据成 本。有 50000 人参与了 图片 数据库 ImageNet 中1400 万张图片 的标注,与 此相比,Clip 使用 的是互 联 网上公开 的文本-图 像对,在标注方面,也利用 自监督 学习、对 比方法、自 训练方 法以及 生 成建模等 方法减 少对人 工标 注的依赖。在实 现图像 标签的 自动 机器学习 后,数 据人工 标注 的成本将 被大幅 降低。大 模 型 实现 自 动机 器 学习 之后,可通 过 知识 蒸 馏将 识 别迁 移 传 到至 边 缘模 型,提 高模 型 通用性。我们认为 ChatGPT 的成功,标志着 AI 应用从 以专用小 模型训 练为主 的“手工作坊时代”转变 为以通 用大模 型 预训练为 主的“工 业化时 代”。1)通过实现 机器自 动标注 数据、高精度带 来的数 据样本 量扩 大等因素,人工 数据 标注的 成本大幅 降低。2)机 器自动 标注促使大规模 预训练 成为可 能,提高了基 础模型 的泛化 能力,降低了定 制化需 求的成 本。简而言之,AI 大模型 学习了 各行 各业各类 数据,成为具 备良 好的知识 迁移能 力的“通才”,只 需根据下游 应用具 体场景 对参 数进行微 调,便 可实现 靶向 高速处理。图 9:BEiT-3 可迁移到各种视觉、视觉-语言的下游任务 资料来源:微软 亚洲研 究院 公 众号、天 风证券研 究所 表 3:大模型具有的特征与优势 大 模型具有 的特征 能 实现的成 果 具 体说明 涌现性 强化技术的融合 有效集成自然语言理解处理等多个人工智能核心研究领域的多项技术,实现 1+12 的融合式涌现 扩展性 解决传统 AI 的问题 大模型能够有效支撑智能终端、平台、系统等产品应用落地,解决壁垒多、部署难等问题 复合性 增强 AI 的能力 在海量通用数据上预训练以具备多种基础能力,摆脱传统人工智能能力碎片化、作坊式开发的局限 资料来源:清智 机器人 Tsing Robot Center 公众号、华东政 法大学 政治学 研究院、华东政 法大学 人工智 能与大 数据指 数 研究院、天风证 券研究 所 1.3.多 模态 驱动模 型精 度提升,音 频技术 助力 智能安 防 1.3.1.多 模 态 模型 落 地,多 维数 据提 升 模 型精 度 多 模 态 时代 开 启,目 前 文本-图 像 模 型为 主。多模态机器 学习旨在 建立能 够处理 和关 联来自多种模态 的信息 的模型,常 见的模态 包括视 觉、文字、声音等。2023 年以来,各科 技巨头纷纷推出 多模态 大模型,包 括谷歌 PaLM-E、微软 KOSMOS-1、GPT-4 和百度文心 一 言等。目前 多模 态大 模型 以文 本-视觉 领域 为主,实 现了 视觉 对话、视 觉解 释、AI 生成 图像 等突破。未来 多模态 模型或 将逐 步接入音 频、视 频等模 态形 式,进一 步丰富 数据类 型。表 4:目前主流的多模态大模型 模型 在 多模态领 域的突 破 模 型参数量 谷歌 PaLM-E PaLM-E 不仅可以指导机器人完 成各种复杂的任务,还可以生成描述图像的语言 5620 亿 微软 KOSMOS-1 能够原生处理广泛的感知密集型任务,如视觉对话、视觉解释、视觉问答、图像字幕、简单的数学方程式、OCR 和带描述的零样本图像分类 16 亿 行 业报告|行 业深度研 究 请务必阅读正文之后的 信息披露和免责申明 10 GPT-4 接受文本和图像提示,与纯文本设置并行,允许用户指定任何视觉或语言任务 未公布 百度文心一言 具有生成文本、图片、音频和视频的能力 未公布 资料来源:PaLM-E:An Embodied Multimodal Language Model D Driess、文 心大模型 公众号、Language Is Not All You Need:Aligning Perception with Language Models S Huang、新智元 公众号、智 东西公众 号、天 风证券 研究所 图 10:谷歌 Palm-E 模型能接收多模态输入 资料来源:、天风 证券研究 所 多 模 态 模型 通 过输 入 多维 数据 提 升 模型 精 度。通过利用 来自多种 不同来 源的信 息,这些信息可以相 互补充 和增强,从 而提高模 型的性 能。具体 而 言,(1)多 模态可 以得到 更 加全面、准确的特 征表示。(2)减少 单个模态 的不确 定性,提高 模型的鲁 棒性。(3)扩 展模 型的应用范围,使 其适用 于多任 务 场景。例如,将图 像和文 本 等多种模 态的信 息结合 起来 可以提高图像检 索、图 像标注 等计 算机视觉 任务的 准确性。图 11:整合多模态数据能够有效 提高模型精度 资料来源:A multi-branch deep neural network model for failure prognostics based on multimodal data Z Yang、天 风证券研 究所 1.3.2.音 频 模 态接 入,助 力 智能 安防 场 景 落地 声 音 通 过与 其 他模 态 信息 结合,能够 提 高人 机 交互 和 人脸 识 别 的效 率、精 确度,在安 防 领域 广 泛 运用 于 安防 机 器人、智 能 视 频监 控。多 模 态 结合,声音 技 术助 力智 能 安 防。声音是视觉以 外 获得信息 的最重 要渠道,将 声音与视觉、文 字等 模态相 结合能 够提升人 机交互 的精确 度与 效率。常 见的 包含声 音的多 模态应用场景可 以分为“文字-音 频”,“视觉-音频”,“视觉-文字”三类。在安 防领域,声音与其他模态 相结合 的主要 应用 有安防机 器人和 智能视 频监 控。表 5:包含声音的常见多模态任务 行 业报告|行 业深度研 究 请务必阅读正文之后的 信息披露和免责申明 11 模 态转换类 型 具 体分类 详 细描述 Language-Audio(文字-音频)Text-to-Speech Synthesis 给定文本,生成一段对应的声音 Audio Captioning 给定一段语音,生成一句话总结并描述主要内容 Vision-Audio(视觉-音频)Audio-Visual Speech Recognition(视听语音识别)给定视频及语音进行语音识别 Video Sound Separation(视频 声源分离)给定视频和声音信号(包含多个声源),进行声源定位与分离 Image Generation from Audio 给定声音,生成与其相关的图像 Speech-conditioned Face generation 给定一段话,生成说话人的视频 Audio-Driven 3D Facial Animation 给定一段话与 3D 人脸模版,生成说话的人脸 3D 动画 Vision-Language(视觉-文字)Image/Video-Text Retrieval(图(视频)文检索)图像/视频与文本的相互检索 Image/Video Captioning(图像/视频描述)给定一个图像/视频,生成文本描述其主要内容 Visual Question Answering(视觉问答)给定一个图像/视频与一个问题,预测答案 Image/Video Generation from Text 给定文本,生成相应的图像或视频 资料来源:远识 资本公 众号,天风证 券 研究所 人 机 交 互核 心 技术,语音 识别 推 动 智能 安 防机 器 人发 展。语音识别技 术作为 人机 交 互最为核心的落 地技术,在 安防行 业主要应 用在以 智能巡 检机 器人为代 表的安 防机器 人身 上。安防机器人 能通过 内置的 麦克 风接受外 界声音,并对 人声 进行识别 和理解,一旦 读懂“人声”背后有疑 似危险 行为,将自 动触发报 警系统 进入防 御状 态,从而 对目 标人物 起到安 全防护的作用。智 能 视 频监 控 迈入 全 新发 展领 域,多 模 态生 物 识别 技 术是 关 键。以人脸识别技 术为 核心的视频监控 是安防 行业的 主要 应用,用 智能 语音技 术辅助 人脸识别,使 得视频 监控更 为智能化。例如,通过智 能语音 识 别技术中 的声纹 识别,将 说 话人声纹 信息与 已知用 户声 纹进行1:1 比对验证和 1:N 的检索,能辨认 和 确认 说话者 的身 份,提升 人脸识 别的准 确率。图 12:包括声纹识别的多模态生 物识别技术 资料来源:CTI 论 坛公众 号、天 风证券 研究所 2.大模型 应用领域不断丰富,打开安防下游市 场空间 我 们 认 为,随着 技 术端 的 突破,AI 将赋 能 各行 各 业,有望 为 安 防行 业 带来 万 亿潜 在可 替 代市 场 空 间。具体可以从工 业、智慧城 市、煤 炭和农 业四 个行业来 看:(1)工业:智能化转型为 安防带来 广阔空 间。据 我们 测算,每年 在质 检方面 有将 近 2100亿的人力 成本,汽车行 业、消费电子 等行业 潜在可 替代 空间均有 望达到 千亿级 别。行 业报告|行 业深度研 究 请务必阅读正文之后的 信息披露和免责申
展开阅读全文