首轮开源深度学习软件框架测试报告.pdf

返回 相关 举报
首轮开源深度学习软件框架测试报告.pdf_第1页
第1页 / 共34页
首轮开源深度学习软件框架测试报告.pdf_第2页
第2页 / 共34页
首轮开源深度学习软件框架测试报告.pdf_第3页
第3页 / 共34页
首轮开源深度学习软件框架测试报告.pdf_第4页
第4页 / 共34页
首轮开源深度学习软件框架测试报告.pdf_第5页
第5页 / 共34页
亲,该文档总共34页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1首轮开源深度学习软件框架测试报告中 国 人 工 智 能 产 业 发 展 联 盟 开 源 开 放 推 进 组人 工 智 能 是 一 种 引 发 诸 多 领 域 产 生 颠 覆 性 变 革 的 前 沿技 术 , 当 前 已 经 广 泛 赋 能 于 各 行 各 业 。 深 度 学 习 软 件 框 架 是人 工 智 能 应 用 落 地 的 重 要 抓 手 , 是 人 工 智 能 相 关 服 务 及 产 品的 核 心 。 本 次 测 试 以 产 业 界 的 实 际 需 求 为 指 引 , 重 点 关 注 各开 源 深 度 学 习 软 件 框 架 在 实 际 应 用 中 的 性 能 表 现 , 旨 在 为 企业 应 用 深 度 学 习 技 术 开 展 业 务 提 供 参 考 , 同 时 为 以 深 度 学 习软 件 框 架 为 技 术 核 心 的 服 务 及 产 品 选 型 测 试 提 供 依 据 。一 、 测 试 背 景 介 绍( 一 ) 深 度 学 习 软 件 框 架 发 展 概 述当 前 , 人 工 智 能 基 础 性 算 法 理 论 研 究 不 断 趋 于 成 熟 , 各大 厂 商 纷 纷 投 入 到 算 法 的 工 程 实 现 并 发 力 建 设 算 法 模 型 工具 , 进 一 步 将 其 封 装 为 软 件 框 架 供 开 发 者 使 用 。 当 前 , 各 主流 深 度 学 习 软 件 框 架 集 成 了 算 法 的 封 装 、 数 据 的 调 用 以 及 计算 资 源 的 使 用 , 已 经 成 为 了 整 个 人 工 智 能 技 术 体 系 的 核 心 ,起 到 承 上 启 下 的 重 要 作 用 。随 着 重 要 性 的 不 断 凸 显 , 深 度 学 习 软 件 框 架 已 经 成 为 人工 智 能 产 业 竞 争 的 焦 点 之 一 。 目 前 业 内 的 主 流 框 架 基 本 都 是2通 过 开 源 的 运 营 方 式 供 开 发 者 使 用 , 同 时 扩 大 技 术 和 产 业 生态 。 以 TensorFlow及 PyTorch为 引 领 的 开 源 深 度 学 习 软 件 框架 分 别 在 工 业 界 和 学 术 界 占 据 了 相 对 主 导 地 位 , MXNet、PaddlePaddle等 主 流 开 源 框 架 由 于 其 各 自 特 性 也 在 业 务 部 署中 得 到 了 充 分 的 使 用 。 2020 年 以 来 , 国 内 相 继 出 现 了 旷 视MegEngine、 清 华 大 学 Jittor、 华 为 MindSpore、 一 流 科 技OneFlow等 自 研 的 开 源 深 度 学 习 软 件 框 架 。总 体 来 看 , 现 阶 段 各 开 源 深 度 学 习 软 件 框 架 在 技 术 性 能与 功 能 上 各 具 特 色 , 与 底 层 芯 片 和 上 层 应 用 仍 处 于 多 向 选 择 、优 化 和 适 配 过 程 中 , 生 态 之 间 也 相 对 独 立 , 尚 未 形 成 垄 断 格局 , 呈 现 出 了 一 个 百 家 争 鸣 的 态 势 。( 二 ) 产 业 界 对 开 源 深 度 学 习 软 件 框 架 的 选 型 需 求从 目 前 产 业 界 和 学 术 界 的 实 际 使 用 情 况 来 看 , 开 源 深 度学 习 软 件 框 架 在 实 际 工 程 中 的 性 能 表 现 是 对 于 用 户 来 说 最为 主 要 的 选 型 考 虑 之 一 , 尤 其 是 在 快 速 搭 建 和 训 练 复 杂 深 度神 经 网 络 模 型 或 处 理 面 向 海 量 数 据 的 模 型 训 练 任 务 时 , 框 架是 否 能 够 具 有 更 高 的 计 算 效 率 , 更 低 的 设 备 互 联 延 迟 , 更 有效 地 利 用 CPU和 GPU多 个 核 心 的 分 布 式 计 算 能 力 , 从 而 提升 整 体 的 任 务 处 理 效 率 。然 而 , 不 同 开 源 深 度 学 习 软 件 框 架 在 设 计 和 实 现 上 存 在较 大 的 区 分 , 在 相 同 软 硬 件 环 境 下 表 现 出 来 的 性 能 也 有 所 差3异 。 对 于 绝 大 部 分 用 户 来 说 , 不 会 专 注 于 框 架 的 技 术 理 论 和实 现 方 式 , 导 致 在 选 择 符 合 使 用 场 景 需 求 并 具 有 较 高 性 能 的框 架 时 会 遇 到 一 定 困 难 。 因 此 , 开 展 针 对 开 源 深 度 学 习 软 件框 架 性 能 的 测 试 是 很 有 必 要 的 。( 三 ) 中 国 人 工 智 能 产 业 发 展 联 盟 已 开 展 的 工 作针 对 开 源 深 度 学 习 软 件 框 架 的 选 型 需 求 , 中 国 人 工 智 能产 业 发 展 联 盟 ( 以 下 简 称 “ 联 盟 ” ) 开 源 开 放 推 进 组 积 极 开展 了 相 关 研 究 工 作 并 取 得 了 阶 段 性 成 果 。联 盟 在 2018年 10月 发 布 了 深 度 学 习 技 术 选 型 白 皮 书 ,该 白 皮 书 从 深 度 学 习 训 练 框 架 、 推 断 框 架 及 技 术 生 态 工 具 集三 个 维 度 , 系 统 地 梳 理 总 结 了 基 于 开 源 的 深 度 学 习 技 术 体 系 ,并 结 合 企 业 自 身 业 务 开 展 的 需 求 分 析 了 技 术 选 型 因 素 , 提 出了 选 型 指 标 体 系 , 就 深 度 学 习 软 件 框 架 目 前 存 在 的 问 题 及 技术 发 展 趋 势 进 行 了 研 判 。 在 此 基 础 上 , 联 盟 继 续 深 入 开 展 了相 关 研 究 和 标 准 制 定 工 作 , 于 2019 年 起 草 了 深 度 学 习 软件 框 架 评 估 方 法 , 规 定 了 深 度 学 习 软 件 框 架 的 评 估 内 容 、方 法 及 要 求 , 并 已 经 完 成 该 评 估 方 法 在 ITU-TSG16Q5的 国际 标 准 立 项 , 同 时 推 进 在 国 家 人 工 智 能 标 准 化 总 体 组 的 立 项 。在 上 述 工 作 基 础 上 , 联 盟 在 2019 年 下 半 年 启 动 了 针 对开 源 深 度 学 习 软 件 框 架 的 测 试 工 作 。 自 测 试 工 作 启 动 以 来 ,联 盟 开 源 开 放 推 进 组 积 极 走 访 和 调 研 国 内 具 有 深 度 学 习 软4件 框 架 研 发 能 力 的 企 业 , 就 框 架 测 试 的 方 案 进 行 了 多 轮 的 探讨 和 修 订 , 并 在 2019 年 11 月 14 日 面 向 联 盟 成 员 单 位 召 开的 研 讨 会 上 确 定 了 最 终 的 技 术 测 试 方 案 。 2020年 1月 6日 ,联 盟 依 托 之 江 实 验 室 搭 建 的 具 有 先 进 算 力 资 源 的 测 试 环 境正 式 启 动 了 技 术 测 试 , 并 于 2020 年 5 月 完 成 了 测 试 工 作 。后 续 联 盟 将 在 本 次 测 试 的 成 果 基 础 上 , 继 续 深 入 开 展 相 关 研究 并 推 动 标 准 制 定 和 测 试 工 作 , 持 续 发 布 相 关 成 果 。本 测 试 的 参 与 人 员 及 分 工 如 下 表 所 示 :表 1 参 与 人 员 与 任 务 分 工序 号 姓 名 任 务 分 工1 孙 明 俊 审 核2 石 霖 审 核3 刘 硕 项 目 负 责 人4 张 哲 煜 测 试5 张 蔚 敏 测 试二 、 测 试 方 案 介 绍本 次 测 试 的 目 的 是 为 了 得 到 各 开 源 深 度 学 习 软 件 框 架对 某 个 具 体 的 深 度 学 习 训 练 任 务 处 理 速 度 的 综 合 性 评 价 , 测试 方 案 框 架 如 图 1所 示 。5图 1 基 准 测 试 方 案 框 架 图( 一 ) 测 试 对 象参 与 本 次 测 试 的 深 度 学 习 软 件 框 架 共 有 4 个 , 分 别 是TensorFlow、 PyTorch、 MXNet 等 框 架 的 开 源 版 本 , 以 及OneFlow在 开 源 前 的 内 部 版 本 。( 二 ) 测 试 案 例本 次 测 试 针 对 以 深 度 学 习 为 核 心 的 人 工 智 能 经 典 训 练任 务 , 选 取 了 包 括 计 算 机 视 觉 ( CV) 、 自 然 语 言 处 理 ( NLP)领 域 内 公 认 的 经 典 深 度 神 经 网 络 模 型 和 数 据 集 , 具 体 如 表 2所 示 。 表 2 测 试 案 例 选 择应 用 场 景 数 据 集 模 型 及 相 关 参 数 配 置CV ImageNet ResNet-50Learningrate:0.128Optimizer:sgd6CV ImageNet VGG-16Learningrate:0.128Optimizer:sgdNLP Wikipedia BERT-BaseLearningrate:0.0001Maxsequencelength:128Optimizer:Adam针 对 以 上 各 测 试 案 例 , 本 次 测 试 均 选 用 了 一 个 能 够 满 足在 各 种 并 行 规 模 下 运 行 的 官 方 或 权 威 组 织 的 参 考 实 现 , 具 体如 表 3所 示 。表 3 参 考 实 现 选 择ResNet-50 / VGG-16 BERT-BaseTensorFlow 官 方 仓 库 :github/tensorflow/benchmarks/tree/master/scripts/tf_cnn_benchmarks NVIDIA仓 库 :github/NVIDIA/DeepLearningExamples/tree/master/TensorFlow/LanguageModeling/BERTPyTorch 官 方 仓 库 :github/pytorch/examples/tree/master/imagenet *NVIDIA仓 库 :github/NVIDIA/DeepLearningExamples/tree/master/PyTorch/LanguageModeling/BERT7MXNet 官 方 仓 库 :github/apache/incubator-mxnet/tree/master/example/image-classification GluonNLP:github/dmlc/gluon-nlp/tree/v0.8.x/scripts/bertOneFlow 官 方 实 现*注 : PyTorch关 于 BERT-Base的 参 考 实 现 在 实 际 测 试 环 境 中 未 能 运行 , 因 此 不 参 与 本 次 测 试 。( 三 ) 测 试 指 标深 度 学 习 软 件 框 架 在 云 端 训 练 场 景 中 运 行 深 度 神 经 网络 时 , 处 理 训 练 数 据 的 吞 吐 能 力 和 针 对 底 层 硬 件 架 构 的 优 化加 速 能 力 是 影 响 用 户 进 行 技 术 选 型 的 关 键 要 素 。 因 此 , 本 次测 试 选 择 性 能 测 试 中 常 用 的 吞 吐 率 和 加 速 比 作 为 各 框 架 的综 合 性 能 评 价 指 标 。1. 吞 吐 率 ( Throughput)吞 吐 率 是 对 框 架 处 理 训 练 数 据 速 度 最 直 观 的 评 价 指 标 ,对 于 不 同 的 应 用 或 任 务 , 吞 吐 率 的 具 体 定 义 不 同 。 如 对 于 图像 识 别 类 任 务 , 吞 吐 率 定 义 为 每 秒 处 理 的 图 片 数 。 对 于 自 然语 言 处 理 类 任 务 , 吞 吐 率 定 义 为 每 秒 处 理 的 句 子 数 。 具 体 来讲 , 吞 吐 率 的 计 算 方 式 为 : Throughput = 肀肀 ,  为8Mini-batch 的 个 数 ,  为 完 成  个 Mini-batch训 练 所 用 的 时间 。 2. 加 速 比 ( Speedup)加 速 比 是 对 框 架 分 布 式 扩 展 能 力 最 直 观 的 评 价 指 标 , 计算 方 法 是 用 多 卡 并 行 运 行 时 的 吞 吐 率 除 以 单 卡 运 行 时 的 吞吐 率 : Speedup = eep=Se肀p=, Se肀p=为 单 卡 平 均 吞 吐 量 ,eep=为 多 卡 平 均 吞 吐 量 , n 为 计 算 加 速 卡 的 数 量 。( 四 ) 测 试 环 境为 了 保 证 结 果 的 客 观 性 和 公 平 性 , 本 次 测 试 提 供 了 统 一的 测 试 环 境 , 下 面 具 体 说 明 。1. 硬 件 环 境为 规 避 测 试 环 境 对 于 各 框 架 性 能 的 影 响 和 限 制 , 本 轮 测试 依 托 由 之 江 实 验 室 搭 建 的 具 有 先 进 算 力 资 源 的 计 算 平 台 ,从 而 能 够 充 分 反 映 出 各 框 架 的 性 能 表 现 。 计 算 平 台 硬 件 规 格如 下 : 并 行 规 模 : 共 4个 节 点 , 每 个 节 点 4张 GPU GPU型 号 : NVIDIATeslaV10032GB 网 络 环 境 : InfiniBand-RDMA, 平 均 读 写 带 宽11470MB/s9 数 据 存 储 : 本 地 SSD, 每 个 节 点 1.7T2. 软 件 环 境除 了 相 同 的 硬 件 环 境 外 , 各 框 架 应 在 相 同 的 软 件 环 境 下进 行 测 试 。 软 件 环 境 的 约 束 条 件 主 要 包 括 : OS、 CUDA、 CUDADriver、 cuDNN、 NCCL等 系 统 软 件 版 本 。 由 于 各 系 统 软 件 版本 支 持 的 各 框 架 版 本 不 同 , 需 要 实 现 各 系 统 软 件 版 本 和 各 框架 版 本 的 统 一 和 对 齐 。经 筛 选 , 本 轮 测 试 的 系 统 软 件 版 本 为 : OS: Ubuntu16.04 CUDA: 10.0 CUDADriver: 410.104 cuDNN: 7.6 NCCL: 2.4对 应 上 述 系 统 软 件 的 版 本 , 参 与 本 轮 测 试 的 各 框 架 的 版本 为 : TensorFlow1.13.1 PyTorch: 1.3.1 MXNet: 1.5.1 OneFlow: 开 源 前 的 内 部 版 本10( 五 ) 测 试 方 法1. 测 试 组 别为 了 客 观 、 全 面 、 公 平 地 反 映 各 框 架 在 不 同 训 练 场 景 下的 性 能 表 现 , 本 轮 测 试 设 置 了 不 同 的 测 试 组 别 以 分 别 测 试 吞吐 率 和 加 速 比 指 标 , 具 体 测 试 组 别 选 择 如 表 4所 示 。表 4 测 试 组 别 选 择Batch size *数 据 类 型 并 行 规 模最 小 batchsize相 同 batchsize最 大 batchsize 真 实 数 据合 成 数 据 1机 1卡 ( 1n1c)1机 4卡 ( 1n4c)2机 8卡 ( 2n8c)4机 16卡 ( 4n16c)*注 : 仅 在 训 练 ResNet-50和 VGG-16时 进 行 数 据 类 型 的 组 别 设 置 。( 1) Batchsize本 次 测 试 根 据 各 框 架 在 不 同 并 行 规 模 下 运 行 测 试 案 例时 单 个 GPU的 batchsize取 值 范 围 , 将 测 试 分 为 了 三 个 组 别 ,分 别 是 最 小 batchsize( 取 值 为 1) , 相 同 batchsize( ResNet-50/VGG-16取 值 为 64, BERT-base取 值 为 128) , 最 大 batchsize( 当 前 测 试 平 台 所 能 支 持 的 最 大 并 行 规 模 状 态 下 , 各 框 架 能够 处 理 batchsize取 值 的 上 限 ) 。( 2) 数 据 类 型对 于 ResNet-50和 VGG-16来 说 , 需 要 设 置 真 实 数 据 、
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642