资源描述
AI框架发展白皮书 中国信息通信研究院 2022年 2月 No.202201 ( 2022年) 版权声明 本白皮书 版权属于 中国信息通信研究院 ,并受法律保护 。 转载、摘编或利用其它方式使用 本白皮书文字或者观点的,应 注明 “ 来源: 中国信息通信研究院” 。违反上述声明者,本院 将追究其相关法律责任。 前 言 AI 助力当前经济社会步入智能经济时代。 世界正在进入以新一代信息技术驱动发展的重塑时期,人工智能( AI, Artificial Intelligence)作为其中重要的使能技术,对激活实体经济具有溢出带动性很强的“头雁效应 ”,对构筑国家科技影响力具有举足轻重的意义。人工智能成为了全球各国新的 科技热点 ,人工智能基础设施建设 也 成为重要抓手与着力点。未来十年是全球发展数字经济、迈入智能经济社会的黄金发展期,着力发展人工智能基础设施,将为我国人工智能产业发展壮大、数字经济蓬勃发展提供强大牵引力。 AI 框架是智能经济时代的操 作系统。 作为人工智能开发环节中的基础工具, AI 框架承担着 AI 技术生态中操作系统的角色,是 AI学术创新与产业商业化的重要载体,助力人工智能由理论走入实践,快速进入了场景化应用时代,也是发展人工智能所 必需 的基础设施之一。随着重要性的不断凸显, AI 框架已经成为了人工智能产业 创新的焦点之一,引起了学术界、产业界的重视。 在此背景下,白皮书致力于厘清 AI框架的 概念 内涵 、演进历程、技术体系 与作用意义,通过梳理总结当前 AI框架发展现状, 研判 AI框架 技术 发展趋势, 并对 AI框架发展 提出 展望与 路径建议。由于 AI框架仍处于快速发展阶段,我们对 AI框架的认识还有待持续深化,白皮书中存在的不足之处,欢迎大家批评指正。 目 录 一、 AI框架技术持续演进,已形成较为完整的体系 . 1 (一 ) AI框架演进步入深化阶段 . 1 (二 ) AI框架技术演化出三个层次 . 5 (三 ) AI框架重要性愈加突显 . 13 二、 全球 AI框架繁荣发展,多元化竞合态势渐显 . 14 (一 ) 供给主体方面,企校贡献最活跃 . 14 (二 ) 开源生态方面,全球进入活跃期 . 16 (三 ) 市场格局方面,双寡头持续引领 . 18 (四 ) 支撑应用方面,科研与产业齐驱 . 20 (五 ) 推广途径方面,三条路 齐发并进 . 25 三、 应对未来多样化挑战, AI框架有六大技术趋势 . 27 (一 ) 泛开发: AI框架将注重前端便捷性与后端高效性的统一 . 27 (二 ) 全场景: AI框架将支持端边云全场景跨平台设备部署 . 28 (三 ) 超大规模: AI框架将着力强化对超大规模 AI的支持 . 29 (四 ) 科学计算: AI框架将进一步与科学计算深度融合交叉 . 31 (五 ) 安全可信: AI框架将助力提升 AI模型可解释性与鲁棒性 . 32 (六 ) 工程化: AI框架将加速 AI应用产业规模级工程化落地 . 34 四、 AI框架生态远未成熟,未来发展空间可观 . 36 (一 ) 从硬件适配向算子接口标准化演进 . 36 (二 ) 强化开源社区打造与开源氛围营造 . 36 (三 ) 重视与高校科研院所广泛开放合作 . 37 (四 ) 推进融入 AI基础设施布局落地 . 37 (五 ) 支持深度赋能大模型及科学计算 . 38 图 目 录 图 1 AI框架技术演进 . 2 图 2 AI框架核心技术体系 . 5 表 目 录 表 1 Github社区中主流 AI框架情况( 2022.1) . 16 表 2 Gitee社区中主流 AI框架情况( 2022.1) . 18 AI 框架发展白皮书 ( 2022年) 1 一、 AI 框架技术持续演进,已形成较为完整的体系 AI 框架是 AI 算法模型设计、训练和验证的一套标准接口、特性库和工具包,集成了算法的封装、数据的调用以及计算资源的使用,同时面向开发者提供了开发界面和高效的执行平台,是现阶段AI 算法 开发的必备工具。 当前,人工智能基础性算法理论研究创新日益活跃,深度神经网络日趋成熟,各大厂商纷纷投入到深度神经网络算法的工程实现并发力建设算法模型工具,进一步将其封装为软件框架供开发者使用,这个过程中 AI框架 (业界也称 AI开发框架、 深度 学习框架 等 ) 应运而生。 AI框架负责给 开发者 提供构建神经网络模型的数学操作,把复杂的数学表达转换成计算机可识别的计算图,自动对神经网络进行训练,得到一个神经网络模型用于解决机器学习中分类、回归的问题,实现目标分类、语音识别等应用场景。 (一 ) AI 框架演进步入深化阶段 结合人工智能的发展历程和 AI 框架的技术特性来看, AI 框架的发展大致可以分为四个阶段,分别为萌芽阶段( 2000 年初期)、成长阶段( 20122014 年)、稳定阶段( 2015 年 2019 年)、深化阶段( 2020年以后)。其发展脉络与人工智能,特别是神经网络技术的异峰突起有非常紧密的联系。 中国 AI 框架发展白皮书 ( 2022年) 2 来源:中国信息通信研究院 图 1 AI框架技术演进 萌芽阶段: 受限于计算能力不足 ,这一阶段的 神经网络技术影响力相对有限, 因而出现了一些 传统 的机器学习 工具 来 提供 基本 支持 ,也就是 AI 框架的雏形 , 但 这些工具 或者 不是专门为神经网络模型开发定制的, 或者 API极其 复杂对开发者并不友好, 且 这些工具并没有对 GPU算力进行支持。 这一阶段的 AI 框架并不完善,开发者不得不进行大量基础的工作,例如手写反向传播、搭建网络结构、自行设计优化器等。 成长阶段: 2012年, Alex Krizhevsky等人提出了一种深度神经网络架构, 即著名 的 AlexNet,在 ImageNet数据集上达到了最 佳 精度,并碾压第二名,引爆了深度神经网络的热潮。自此极大 地 推动了 AI框架的发展,出现了 Caffe、 Chainer和 Theano等具有代表性的早期 AI框架, 帮助 开发者方便地建立复杂的深度神经网络模型,如 CNN、 RNN、 LSTM 等。不仅如此,这些框架还支持多 GPU 训AI 框架发展白皮书 ( 2022年) 3 练,让 开展 更大、更深的模型训练成为可能。 在这一阶段, AI 框架体系已经初步形成,声明式风格和命令式风格为之后的 AI 框架趟出了两条不同的发展道路。 稳定阶段: 2015年,何恺明等人提出的 ResNet,再次突破了图像分类的边界,在 ImageNet数据集上的准确率再创新高, 也 终于凝聚了 产业界 和学界的共识, 那就是 深度学习将成为下一个重大技术趋势。在这一到两年里, Google 开源了著名的 TensorFlow 框架,它至今仍是 机器学习 领域最流行的 AI框架。 Caffe的发明者加入了Facebook(现更名为 Meta)并发布了 Caffe2;与此同时, Facebook AI 研究团队也发布了另一个流行的框架 PyTorch, 该框架拓展自Torch 框架,但使用了更流行的 Python API。微软研究院开发了CNTK框架。 Amazon采用了 MXNet,这是华盛顿大学、 CMU和其他机构的联合学术项目。国内的百度则率先布局了 PaddlePaddle 飞桨深度学习框架并于 2016年发布。 TensorFlow 和 CNTK 借鉴了 Theano 的声明式编程风格,而PyTorch 则继承了 Torch 的直观和 开发者 友好的命 令式编程风格。Francois Chollet 几乎是独自开发了 Keras 框架,该框架提供了神经网络和构建块的更直观的高级抽象。同时各种 AI 框架不断进行迭代,为框架提供各种面向高效友好开发的核心组件,例如几乎所有AI 框架都支持的自动微分能力 , TensorFlow 提供了分布式版本的AI框架和支持 iOS系统的能力 , PyTorch则在完全拥抱 Python的基中国 AI 框架发展白皮书 ( 2022年) 4 础上提供了一整套包括优化器、库函数、 API工具等支持。 AI 框架迎来了繁荣,而在不断发展的基础上,各种框架不断迭代,也被开发者自然选择。 经过激烈的竞争后,最终形成了两大阵营 , TensorFlow 和PyTorch双头垄断。 2019年, Chainer团队将他们的开发工作转移到PyTorch; Microsoft 停止了 CNTK 框架的积极开发,部分团队成员转而支持 PyTorch; Keras被 TensorFlow 收编,并在 TensorFlow2.0版本中成为其高级 API之一。 深化阶段: 随着人工智能的进一步发展,新的趋势 不断涌现 ,例如超大规模模型的出现( GPT-3 等),向 AI 框架提出了更高的要求 。 随着人工智能应用场景 的 扩展 以及 与更多领域交叉融合进程的 加快, 越来越 多的需求被提出,如 对全场景多任务 的 支持 、 对 高算力 的需求 等,这就要求 AI 框架最大化的实现编译优化, 更好 地利用算力、调动算力, 充分 发挥硬件资源的潜力 。此外 , 人工智能与社会伦理的痛点问题也促使可信赖人工智能在框架层面的进步。基于以上背景,现有的 流行 框架都在探索下一代 AI 框架的 发展 方向 ,如 2020年华为推出 昇 思 MindSpore,在 全 场景 协同 、可信赖方面有一定的突破 ; 旷视推出 天元 MegEngine, 在训练推理一体化方面 深度布局 。 在这一阶段, AI 框架正向着全场景支持、超大规模AI、安全可信等技术特性深化探索,不断实现新的突破。 AI 框架发展白皮书 ( 2022年) 5 (二 ) AI 框架技术演化出三个层次 根据技术所处环节及定位,当前主流 AI 框架的核心技术可分为基础层、组件层和生态层。 来源:中国信息通信研究院 图 2 AI框架核心技术体系 1.基础层 基础层实现 AI 框架最基础核心的功能,具体包括编程开发、编译优化以及硬件使能三个子层。编程开发层是开发者与 AI 框架互动的窗口,为开发者提供构建 AI 模型的 API 接口。编译优化层是 AI框架的关键部分,负责完成 AI模型的编译优化并调度硬件资源完成计算。硬件使能层是 AI框架与 AI算力硬件对接的通道,帮助开发者屏蔽底层硬件技术细节。 编程开发 -编程接口 API: 开发者通过调用编程接口来描述算法的计算过程。对于开发者来说,编程接口的易用性以及接口的表达中国 AI 框架发展白皮书 ( 2022年) 6 能力非常重要,对算法的描述会映射到计算图上。编程接口主要可以分为 3类:一类是基于数据流图的编程接口,流行的基于数据流图的机器学习编程框架包括 TensorFlow、 MXNet、 Theano、 Torch7等;另一类是基于层的编程接口,如 Caffe;还有一类是基于算法的编程接口,主要用于传统机器学习算法的实现,如 Scikit-Learn。 编程开发 -编码语言: 人工智能应用场景众多,人工智能开发者基于不同场景选择使用的编程语言多样,完善的 AI 框架应支持多种不同的语言,例如 Python/仓颉 /Julia 等。面向使用不同编程语言的开发者, AI框架需要提供功能相同、性能可比的开发服务和 技术支持。 编译优化 -分布式并行: 指数据流并行、模型并行、 Pipeline 并行、优化器并行等策略 。 随着模型规模的增大,传统的数据并行无法有效处理,自动并行技术的使用将会是常态 。 需要将大模型切分到不同的设备上,切分就是将不同大块计算切分成小块计算,并将小块计算发送到不同的计算资源进行计算,最后将小块计算的结构进行规约合并 。 而切分策略寻优是很困难的,不同的切分产生的通信量差异巨大,计算利用率也很不一样,比如 Pipeline 并行往往在计算利用率 方面 存在较大的挑战,算子切分的并行 则 在通信量 方面存在较大的挑战 ,需要 AI框架来支持。 编译优化 -自动微分: 自动微分是将一个复杂的数学运算过程分解为一系列简单的基本运算,每一项基本运算都可以通过查表得出AI 框架发展白皮书 ( 2022年) 7 来。自动微分有两种形式,包括前向模式 (forward mode)和反向模式(reverse mode),前向模式是在计算图前向传播的同时计算微分,反向模式需要对计算图进行一次正向计算,得出输出值,再进行反向传播 。 因此反向模式的内存开销要大一点,它需要保存正向传播中的中间变量值,这些变量值用于反向传播的时候计算导数。 编译优化 -动静转换: 静态图在定义执行前的所 有操作和网络结构,并将其呈现给传感器流,在训练期间提供了更高的性能,但这样做的代价是不易于使用 、不够灵活 。动态图计算是即时执行的,提供了更大的灵活性和更容易的调试,但这样做的代价是性能较低。TensorFlow2.0、 MindSpore 等均支持动态图和静态图的转换技术,可以实现计算效率和灵活性的 平 衡。 编译优化 -模型轻量化: 轻量化是指为满足 AI 模型尺寸小、计算复杂度低、电池耗电量低、下发更新部署灵活等要求下, AI框架所 配置 的 轻量化技术。一般来说,模型轻量化就是指模型压缩和加速,其中压缩重点在于减少网络参数量 ,加速则侧重在降低计算复杂度、提升并行能力等。算法层压缩加速主要包括结构优化(如矩阵分解、分组卷积、小卷积核等)、量化与定点化、模型剪枝、模型蒸馏等 ; 框架层加速主要包括编译优化、缓存优化、稀疏存储和计算、 NEON指令应用、算子优化等。 编译优化 -图算融合: 通过自动分析和优化现有网络计算图逻辑,并结合目标硬件能力,对计算图进行计算化简和替代、算子拆分和中国 AI 框架发展白皮书 ( 2022年) 8 融合、算子特例化编译等优化,以提升设备计算资源利用率,实现对网络性能的整体优化。相比传统优化技术,图算融合具有多算子跨边界联合优化、与算子编译跨层协同、基于 Polyhedral 的算子即时编译等独特优势。另外,图算融合只需要 开发者 打开对应配置,整个优化过程即可自动完成,不需要网络开发人员进行其它额外感知,使得 开发者 可以聚焦网络算法实现。 编译优化 -内存优化: 由于硬件系统的内存资源有限,特别是AI 芯片的内存资源有限,需要有高效的内存优化策略降低 AI 网络对系统内存的消耗。一般常用的内存优化技术有:静态内存复用优化 和动态内存分配机制。静态内存复用 优化 会分析计算图的数据流关系,基于数据的内存占用大小、数据间的生命周期重叠关系 , 规划数据的内存复用策略,从而最小化内存占用。动态内存分配机制是在运行时创建大块内存,并按照实际算子执行过程中需要的内存进行内存切片提供,当算子执行完且相关数据的引用均已结束时,释放内存切片,从而实现内存的有效复用。 编译优化 -算子生成: AI 框架会提供基础常用的算子,但是这些算子往往不能满足 开发者 算法不断演进的需求。因此,需要 AI框架具备针对不同算力设备的统一算子生成和优化的能力,使得开发人员只需要 编写高层编程语言(如 DSL)就可以通过 AI 框架提供的算子编译生成能力,生成高质量的底层算子,极大 降低 AI 框架和硬件平台的开发和维护成本,拓展应用范围。 AI 框架发展白皮书 ( 2022年) 9 编译优化 -中间表示: 中间表示( Intermediate Representation,简称 IR)是对计算图和算子格式的定义。完备的中间 表示 需要支持不同硬件设备算子定义和计算图的性能优化,支持不同类型的 AI模型网络结构的灵活表达,支持不同设备间的模型中转和迁移。 硬件接入 -计算算子: 在深度学习领域计算算子特指计算图中的一个函数节点,一个在张量上执行的计算操作, 它接受零或多个张量作为输入,得到零或多个张量作为输出,利用梯度、散度、旋度的表达方式进行计算。 硬件接入 -通信算子: 用于分布式节点通信的函数节点。 2.组件层 组件层主要提供 AI 模型生命周期的可配置高阶功能组件,实现细分领域性能的优化提升,包括编译优化组件、科学计算组件、安全可信组件、工具组件等,对人工智能模型开发人员可见。 并行及优化组件 -自动并行: 指对自动并行技术的多样化组合支持 。 AI框架支持 开发者 进行多种不同并行进行组合,根据需要形成混合并行策略,例如数据流并行和模型并行的组合、数据流和Pipeline并行的组合等,支持 开发者 个性化的选择自己的并行策略,以更灵活的姿态支持人工智能模型训练、应用适配。 并行及优化组件 -高阶优化器: AI 框架支持多种不同的一阶 /二阶优化器,能为 开发者 提供灵活方便的接口,例如 SGD 优化器、中国 AI 框架发展白皮书 ( 2022年) 10 SGDM优化器、 NAG优化器、 AdaGrad优化器、 AdaDelta优化器、Adam优化器、 Nadam优化器等。 科学计算组件 -科学计算(数值方法): 人工智能发展的重要方向之一是科学计算, 因此要求 AI 框架向开发者提供科学计算相关的功能支持,通过函数式编程范式为 AI+科学计算提供融合的表达方式,使得 开发者 以更加接近数学计算的方式进行编程,以缓解当前 AI 框架的编程接口主要面向深度神经网络设计,但是科学计算中需要大量的数学公式的表达(例如微分方程求解)的情况。 科学计算组件 -科学计算( AI 方法): 针对 AI方法直接替代数值方法取得计算结果的形式, AI 框架需要具备 “AI+科学计算 ”统一的数据底座,将传统科学计算的输入数据(如传统科学计算软件生成的仿真数据)转换为 AI框架的输入数据(即张量) 。 针对 AI方法与数值方法配合取得计算结果形式,除了需要具备统一的数据引擎之外, AI框架需要支持传统数值计算的方法,例如高阶微分求解、线性代数计算等,并通过计算图对传统数值方法和 AI 方法的混合计算优化,从而实现 “AI+科学计算 ”端到端加速。 安全可信组件 -AI 可解释: AI 框架需要具备三个层面的能力支持可解释人工智能。建模前的 “数据可解释 ”,分析数据分布,找出代表性的特征,在训练时选择需要的特征进行建模。构建 “可解释人工智能模型 ”,通过与传统机器学习(如贝叶斯概率编程)结合的方式,对人工智能结构进行补充,平衡学习结果的有效 性和学习模型AI 框架发展白皮书 ( 2022年) 11 的可解释性。对已构筑模型进行 “解释性分析 ”,通过分析人工智能模型的输入、输出、中间信息的以来关系分析(如 TB-Net的方式)及验证模型的逻辑。 安全可信组件 -数据安全: 人工智能领域的数据安全问题不仅仅涉及到原始数据本身的保护,还要防止通过模型推理结果反推出数据隐私关键信息。因此, AI框架本身除了要提供数据资产保护能力,还需要通过差分隐私等方式,保护模型数据的隐私。 同时 ,为了源头保护数据安全, AI框架通过联邦学习等方式进行模型训练,使得数据不出端的情况下模型得到训练更新。 安全可信组件 -模型安全: 训练模型时样本训练不足,使得模型泛化能力不足 ,导致 模型面对恶意样本时,无法给出正确的判断结果。为此, AI 框架首先需要提供丰富的人工智能鲁棒性检测工具,通过黑盒、白盒、灰盒测试等对抗检测技术测试人工智能模型的鲁棒性,如静态结构分析,动态路径分析等;其次, AI框架可以通过支持网络蒸馏、对抗训练等方式帮助 开发者 提高模型的鲁棒性。 工具组件 -训练可视化: 支持训练过程可视化,可通过页面直接查看训练过程中的核心内容,包 括训练标量信息、参数分布图、计算图、数据图、数据抽样等模块。 工具组件 -调试器: 神经网络训练中经常出现数值误差情况,如无穷大等, 开发者 希望分析训练无法收敛的原因。但是,由于计算被封装为黑盒,以图的方式执行, 开发者 很难定位其中的错误。调中国 AI 框架发展白皮书 ( 2022年) 12 试器是训练调试的工具, 开发者 可以在训练过程中查看图的内部结构以及节点的输入 /输出,例如查看一个张量的值,查看图中的节点对应的 Python代码等。此外, 开发者 还可以选择一组节点设置条件断点,实时监控节点的计算结果。 3.生态层 生态层主要面向应用服务,用以支持基于 AI 框架开发的各种人 工智能模型的应用、维护和改进,对于开发人员和应用人员均可见。 套件 /模型库: AI 框架应对领域通用任务提供预训练模型或者定义好的模型结构,方便 开发者 获取和开展人工智能模型训练和推理,如 CV、 NLP等。 AI 领域扩展库: AI 框架要能够提供丰富的领域任务支持,并为相关任务提供典型案例, 从而提供 更好 的 应用服务,如 GNN、强化学习、迁移学习等。 AI+科学计算: 与 CV、 NLP等传统信息领域不同,科学计算问题的求解需要具备相对专业的领域知识。为了加速 AI+科学计算融合的研究和落地, AI框架需要面向不同的科学计算领域(如电磁仿真、科学制药、能源、气象、生物、材料等)提供简单易用的科学计算套件,这些套件包含高质量的领域数据集、高精度的基础 AI模型和用于前后处理的工具集合。 AI 框架发展白皮书 ( 2022年) 13 文档: AI框架应提供完善的文档体系,包括但不限于框架说明文档 、 框架 API文档 、 框架版本变更文档 、 框架常见问题文档 、 框架特性文档等。 社区: 人工智能服务发展需要社区支持, AI框架应该经营或者维护良好的社区环境,好的 AI 框架具备较好的维护性和易用性,同时 AI 框架社区中应该有代表性项目并长期支持基于该框架的项目和应用。 (三 ) AI 框架重要性愈加突显 AI 框架承上启下,是整个人工智能技术体系的核心。 从技术体系中的功能定位看, AI框架对下调用底层硬件计算资源, 能够屏蔽底层差异并提供良好的执行性能, 对上支撑 AI应用算法模型搭建,提供算法工程化实现的标准环境, 是 AI 技术体系的 关键核心 。除完成 AI 算法的工程实现外, AI 框架还能极大提高人工智能学习效率、强化 AI算法模型能力,如基于 TensorFlow的 AlphaGo在极短时间内学习到战胜前任 AlphaGo的技能。 AI 框架是应对智能经济时代的技术利器。 大规模并行计算及智能应用是未来智能经济时代的主要特点。当前硬件计算以 CPU为代表,软件栈主要针对串行指令进行优化。由于人工智能算法涉及大量的矩阵计算和并行数值计算,面向智能经济时代的硬件计算已经显示出从串行迁移到并行计算的趋势,未来可能以 GPU为代表,软件栈主要针对大规模并行 计算 进行优化,这其中 AI 框架将成为大中国 AI 框架发展白皮书 ( 2022年) 14 规模并行计算的关键调度者 。此外,人工智能模型将主导智能经济时代各行各业细分场景,智能应用将呈现 规模化、深度化等特点,而 AI 框架就是智能应用快速落地的关键支撑者 。 AI 框架将成为智能经济时代的操作系统。 当前互联网时代,操作系统是 IT业的核心 枢纽 点, 建立 硬件和应用软件之间的联系, 左右着 数字设备的整个生态,通过与通用计算芯片的深度绑定,形成Windows+Intel、 Android/iOS+ARM两大稳定的技术体系格局。智能经济时代, AI 框架承担着 AI 技术生态中操作系统的角色,是 AI学术创新与产业商业化的重要载体,助力人工智能由理论走入实践,快速进入场景化应用时代。 总体来说, “AI 框架 +算力芯片 ”的组合在一定程度上决定了人工智能产业应用的主体技术路线 ,其研发能够促进生态圈关联及外围的芯片、系统、软硬件平台等产业发展,从而促进人工智能核心生态圈的建设。 随着价值不断凸显, AI 框架已经成为了人工智能产业 创新 的焦点之一,引起了学术界、产业界的重视 。 二、 全球 AI 框架繁荣发展,多元化 竞合 态势渐显 (一 ) 供给主体方面, 企校 贡献最活跃 科技企业与顶尖高校对 AI 框架的发展成熟贡献最为活跃。 数字科技企业巨头与顶尖 高校是 AI 框架发展壮大的主体维护力量,打造技术产业生态、营造学术创新氛围,是两大主体的源动力。个AI 框架发展白皮书 ( 2022年) 15 人及开源组织也扮演着重要的角色,是 AI 框架创新性、公益性的重要体现。 数字科技企业巨头是 AI 框架发展壮大的核心力量。 自身 AI业务场景需求激发 AI框架的应用,并实现 AI框架的验证完善。 国际知名 数字科技巨头主导开源 AI 框架技术生态,我国数字科技企业近年来 也 积极布局 并不断创新 。 Google、 Meta、 Microsoft、 Amazon等国外数字科技企业巨头在基础算法框架研发方面具有先发优势,依托自身 AI 业务场景以及庞大的数据资源,能够对算法框架进行有效试验验证及功能完善。在此基础之上,数字科技企业巨头将原本服务于内部业务场景的 AI 框架进行开源,为产业链下游合作伙伴提供底层 AI 核心能力,满足工业级应用需求,逐步完善整体生态,实现合作共赢。国内数字科技巨头纷纷布局推出 AI 框架,立足满足自身的 AI应用需求外,也对外拓展服务,如华为 MindSpore、百度 PaddlePaddle、腾讯 TNN、阿里 MNN、 字节跳动 BytePS以及小米 Mace等 。 高校及科研院所是最早启动 AI 框架研发的主导力量之一,并持续发挥着积极作用。 高校及科研院所拥有强大的人才资源,基于实验室科研创新需求对 AI 框架开展基础性理论研究工作,布局整体早于数字科技企业,更易实现革命性突破创新。高校最早推出的Theano、 Caffe等开源框架能够满足学术研究需求,并对 AI框架的整体发展起到巨大推动作用,但在大规模分布式计算等场景下的性中国 AI 框架发展白皮书 ( 2022年) 16 能不及企业推出的 AI 框架。随后,高校通过更换维护主体以持续释放作用价值。例如, MXNet框架发起于卡内基梅隆大学,后捐赠给 Apache基金会,现成为 Amazon AWS最主要的 AI框架。我国高校日渐重视 AI 框架研发,如清华大学已陆续开发出开源 框架 计图Jittor、贝叶斯深度学习算法框架 “珠算 ”等。 (二 ) 开源生态方面,全球进入活跃期 开源本质上是一种人才、智慧的聚合,能够助推 AI 框架快速升级。 茁壮的开源生态对于 AI 框架的发展至关重要 。 开发者通过在开源社区进行代码开源、项目托管、协作分享、沟通交流等一系列活动, 实现与开源 AI框架的紧密互动。 开源社区 是 AI框架 开发者必不可少的 学习与交流 环境,可以说开源社区在推动 AI 框架 发展的过程中起着巨大的作用。开源社区的相关指标,也体现着 AI框架 在整个行业内的发展情况。 对 AI 框架 来 说, 国外最知名社区是 Microsoft 收购的开源 代码托管 平台 Github,国内知名社区是由OSCHINA推出的代码托管平台 Gitee(码云)。 表 1 Github社区中主流 AI框架情况( 2022.1) Rank Framework Commits1 Fork2 Star3 Contributors4 Foreign Framework 1 TensorFlow 124494 86300 163000 3056 1 Commits 代表开源代码提交的次数,表征开源项目活跃度 . 2 Fork 代表代码复刻、分叉,表征开源项目被引用情况 . 3 Star 代表点赞 数,表征开源项目关注度 . 4 Contributors 代表贡献者,表征开源项目贡献者规模 . AI 框架发展白皮书 ( 2022年) 17 Rank Framework Commits1 Fork2 Star3 Contributors4 2 PyTorch 43390 14800 53700 2137 3 Theano (Stop Developing) 28127 2500 9500 352 4 CNTK (Stop Developing) 16116 4400 17100 201 5 MXNet 11776 6900 19800 868 Domestic Framework 1 MindSpore 37308 514 2700 267 2 PaddlePaddle 33753 4300 17500 524 3 MegEngine 2282 462 4100 32 4 OneFlow 7621 351 3000 99 5 Jittor 1266 235 2300 31 来源:根据 Github社区数据整理 Github 作为业内认可度最高的开源社区,也是 AI 框架开发者最关注的代码托管平台。从 Github 指标看,国外 AI 框架方面,TensorFlow 的各项指标均高居榜首,并远超第二名,是全球目前活跃度最高、应用最广的 AI 框架 。近年来在学术领域表现亮眼的后起之秀 PyTorch 紧随其后,虽在顶会占据了主流地位,但与TensorFlow相比仍略逊一筹。 MXNet表现 也较为亮眼 , 但 与前两 者不在同一量级。 我国 主体推出的 AI 框架方面, MindSpore 是目前活跃度最高的 AI 框架 ,在贡献者方面也已集聚了一定规模使用群体。百度 PaddlePaddle 开源时间较早,在关注度方面较其他框架有一定优势。 其余 框架 中, OneFlow的 活跃度 与贡献者 规模 处于 领先 位置。 中国 AI 框架发展白皮书 ( 2022年) 18 表 2 Gitee社区中 主流 AI框架情况( 2022.1) Rank Framework Commits Fork Star Contributors 1 MindSpore 38549 2400 6100 774 2 PaddlePaddle 32788 195 3600 561 3 OneFlow 7521 2 1 126 4 MegEngine(镜像) 2280 6 16 35 5 Jittor 1239 3 11 34 来源:根据 Gitee社区数据整理 国内最大的开源 代码托管平台 Gitee 目前主要是我国 企业所主导 AI框架进行发布交流的平台。国内知名的框架除旷视 MegEngine尚未在社区上发布外,其他框架均有所布局,也吸引了国内的开发群体。其中, MindSpore 在 Gitee 中的各项指标都远超其他 AI 框架,是国内社区中最活跃、关注度最高、被应用最多的框架,处在我国开源生态的引领者地位 。 (三 ) 市场格局方面,双寡头 持续引领 全球 来 看,国际主流 AI 框架由 Google、 Meta等科技巨头主导。目前以 Google、 Meta、 Amazon、 Microsoft 等代表的互联网科技巨头,凭借自身的数据、技术和资本等优势,持续在 AI 框架生态领域发力, 引领全球 AI 框架 技术 创新升级 趋势 , 并逐步 形成了 以Google-TensorFlow 和 Meta-PyTorch 为代表的双寡头 格局 。 从 市场占有情况看, 产业界以 TensorFlow 为主,学术界以 PyTorch 为主 。Github中 Star数表征开源项目流行度, 是开源项目在 产业界 中 市场AI 框架发展白皮书 ( 2022年) 19 份额的 生动体现, 据 表 1数据显示, TensorFlow Star数达到 163000,远高于排名第二的 PyTorch( 53700) ,且 Google 于 2019 年 推出TensorFlow Enterprise, 为大型企业提供 TensorFlow的优化版本以及长期的技术支持 , 并与 Google Cloud 服务深度集成 , 持续 巩固TensorFlow在产业界的领 先 地位 。 据 Papers With Code数据 5显示,2021 全 年 基于 PyTorch 的论文 数量 在所有 基于 AI 框架 的论文 中占比 高达 58.56%,远高于排名第二的 TensorFlow( 12.38%) , PyTorch在学术界的 领先 优势 在持续加强 。 国内 来 看,双寡头并驱态势下 AI框架市场格局向着多元发展。我国在 AI应用方面优势显著, 相当规模的 AI应用 均 构筑在 国际主流 AI 框架之上,从底层开源代码贡献、底层硬件适配,到中间算子研发迭代、模型库完善,以及上层算法模型构建, 双寡头 持续为国内 AI应用生态 输出能力。 不仅如此, 近两年国内厂商推出的 AI框架市场占有率 也 正稳步提升。 MindSpore 框架开源后获得国内外开发者的积极响应,在 Gitee 千万 个 开源项目中综合排名第一,成为国内最活跃的 AI开源 框架 。百度飞桨 PaddlePaddle开发者规模也在持续壮大,从 IDC 2021年调研的 350份中小企业开发者样本数据显示,飞桨 开发者 认知度占比已超 20%。 5 中国 AI 框架发展白皮书 ( 2022年) 20 (四 ) 支撑应用方面,科研与产业齐驱 1.AI 框架赋能学术科研 AI 与超级计算机的结合,使科研领域的计算能力普遍提升到一个新的高度。 2021 年世界排名前 500 的超级计算机中, 68.4%采用了 AI 技术进行了加速。美国橡树岭国家实验室利用 TensorFlow 在Summit 超级计算机上训练了 1.1EFLOP/s 的极端天气预报模型,用来模拟预测气候变迁会产生的极端天气,提升了气象研究的精准度和可能性。美国劳伦斯伯克利国家实验室在基于 CPU的高性能计算平台上 , 使用 TensorFlow框架 开发 了大型科学应用程序 CosmoFlow,利用机器学习插件前所未有的将 TensorFlow 框架扩展到 8000 多个节点,以这种规模处理三维空间数据卷,主要应用在暗物质 N体模拟实验中,为科学家提供了一个全新的平台来加深对宇宙的了解。 TensorFlow 被广泛应用于学术科研领域。 美国航空航天局使用TensorFlow对开普勒任务中积累的大量数据进行分析,由于机器学习能够比人类更高效地搜索更广范围的信号,发现了一直以来忽视的开普勒 -90i行星,这一发现使开普勒 -90星系成为了目前所知除太阳系外唯一八颗行星绕一颗恒星运行的星系,取得了天体物理学领域的一项重 大突破。宾夕法尼亚大学研究利用 TensorFlow解决农业病虫害问题,通过注释大量木薯植株图像来识别和分类疾病,目前在坦桑尼亚部分地区试验应用,农民们可以通过在木薯叶子前挥动手机,快速实现病株识别,并给出最佳的方式来进行管理。雨林保AI 框架发展白皮书 ( 2022年) 21 护组织 Rainforest Connection基于 TensorFlow开发了世界上首款可自动识别盗伐行为的可扩展、实时监控报警的热带雨林环保系统,在亚马逊雨林试验应用,通过当地的手机蜂窝网络向中央云计算服务器发送声音采样, 依托 TensorFlow来分析和审计数据,从中甄别电锯、 木运卡车等与非法砍伐相关的声音,以防止人工监听遗漏。 我国框架作为后起之秀在学术科研领域已经崭露头角。 基于MindSpore的鹏程 .盘古作为全球首个发布的千亿级预训练中文大模型,模型规模高达 2000亿参数, MindSpore采用全自动并行训练方式支撑鹏程 .盘古大模型在 4096张 NPU芯片上高效训练。紫东 .太初是基于 MindSpore框架构建的全球首个图文音三模态、千亿级参数预训练大模型,具备跨模态理解与跨模态生成能力。武汉大学运用MindSpore 打造了全球首个专用深度学习遥感框架武汉 .LuojiaNet,实现大规模卫星遥感影像的智能遥感解译。 PaddlePaddle 联合鹏城实验室发布了鹏城 -百度 文心,模型参数规模达到 2600亿,是目前全球最大中文单体模型,在机器阅读理解、文本分类、语义相似度计算等 60 多项任务取得最好效果。此外,百度基于 PaddlePaddle研发推出量子
展开阅读全文