资源描述
1 统一的以太无损网络 测试技术白皮书 ( 2020年) 中国移动 通信有限公司 研究院 随着近 年高性能计算、 存储和人工智能等技术的高速发展,伴随 着应用和介质性能的大幅提升,网络的 性能已经逐渐成为制约应用和 系统性能进一步提升的重要瓶颈,通过 以太无损网络技术发展来提升 特定应用场景下的网络性能已成为业界共识。而在 该领域,测试是技 术应用、研究以及演进发展必不可少的重要组成部分 。 本白皮书旨在 针对以太无损网络 应用及测试 的重点、难点和当前 存在的问题 , 创新性的提出中国移动 基于当前开展的 测试方法 研究 和 测试仪表,构建的 易获得、高精度、标准化的以太无损网络测试技术 。 希望能够为 产业 在 部署以太无损网络 、 产品 和 解决方案时提供参考和 技术 指引。 本白皮书的版权归中国移动所有,未经授权,任何单位或个人不 得复制或拷贝本建议之部分或全部内容。 前 言 中国移动 统一的 以太无损网络测试技术白皮书 ( 2020) 1 目 录 1 技术背景 . 1 2 中国移动对以太无损网络的需求 . 3 3 以太无损网络关键技术与测试 . 6 3.1 网络流量控制 . 6 3.2 以太无损网络测试现状和难点 . 7 4 统一的以太无损网络测试 . 10 4.1 测试思想变革 . 10 4.2 关键参数 . 11 4.3 RoCE 性能指标 . 12 4.4 通用测试仪表 . 17 4.5 测试实践 . 18 5 结束语 . 19 6 缩略语列表 . 20 联合编写单位及作者 . 22 1 技术 背景 为了降低数据中心内部网络延迟,提高处理效率, RDMA 技术 (Remote Direct Memory Access,远程直接内存访问 )的出现为新兴 业务 系统(如高性 能计算 HPC、数据库 RAC、一体机 等) 的高效应用提供了新的机遇。 RDMA 允许 用户态的应用程序直接读取和写入远程内存,无需 CPU 介入多次拷贝内存,并 可绕过内核直接向网卡写数据,实现了高吞吐量、超低时延和低 CPU 开销的效 果。 图 1 RDMA 基本原理 相应 地 , RDMA 技术也 对网络性能提出了更高的要求。而传统 以太网这种 尽力而为转发,容忍拥塞和丢包的特点是无法满足 RDMA 的性能需要的, 因为 拥塞和丢包会极大的影响 RDMA 性能。 所以在 2015 年以前 , RDMA 技术主要通 过 Infiniband( IB) 网络来承载。 基于 IB的 RDMA 无损网络, 通过 基于 credit 的链路层流控 、简化传输层协议、 通过 HCA 网卡卸载传输层 功能 等技术手段, 可以达到高带宽、低时延和无丢包的高性能网络 效果 ,也因此获得了一定的市 场 商用 。 但 IB 作为 高性能专用网络 ,与以太网完全不兼容,技术小众化 导致 其 网络建设 成本和运维 成本较高。 如今数据中心的一个重要转变是基础架构的融合 ,而以太网又是最核心 的 数据中心网络 承载 技术,因此将各类专用网络 技术与以太网进行融合,降低网 络的建设和运维成本是当前数据中心 网络 发展 的重要趋势。 随着近年 IETF 发 布 DCB(Data Center Bridging)标准 ,基于 RDMA/Infiniband 的无损链路得以 解决,以太网终于在专有网络领域内拥有了自己的标准,同时也提出了 RoCE(RDMA over Converged Ethernet)的概念。经过版本的演进 , 当前 RDMA 2 技术 在以太网上的传输协议是 RoCEv2。 RoCEv2在 RoCEv1基础上 ,将 GRH(Global Routing Header)换成 UDP Header 和 IP Header,扩展后的帧结构如 图 1 所 示。 图 2 RoCEv2 帧结构 支持三层路由的 RoCEv2 使得 RDMA 技术彻底与以太网实现兼容 ,以太无损 网络应用而生。 得益于与数据中心以太网络架构的兼容性,以及较低的 TCO ( Total Costs of Ownership) ,以太无损网络 已经 在微软 Azure、亚马逊 AWS、 阿里云、 百度、 字节跳动等国内外大型互联网公司获得了 大 规模商用。 微软是在数据中心大规模部署 以太无损网络 的第一家 HyperScale 公司, 其为了 Azure 云环境的低延时网络 , 在 2015-2018 年的 Sigcomm 会议上发布 了大量的论文来介绍以太无损网络 在数据中心的部署。 国内阿里云从 2016 年 起 投入专项研究 以太无损网络 , 从网卡底层 设计 开始提升传输性能 ,使得 服务 器 集群极大地突破了传输速度瓶颈,并将时延显著降低 90%。以 2019 年天猫 双 11 为例,基于 以太无损 网络技术的云存储和电商数据库服务器可以从容地 应对峰值流量考验。 而 百度 则建设了国内最大的以太无损网络,集群总体规模 达到 600 台 ,用于承载了深度学习、 语音识别和自然语言处理等 人工智能系统 相关的机器学习任务。 3 2 中国移动对 以太无损网络 的 需求 2017 年以来 ,越来越多的高性能应用 与 各类 业务系统 的结合愈发 紧密。 例 如在中国移动的 IT 线条 , IT 私有 云资源池 、 计费账务 、 BOSS、经营分析 和用 户关系管理 ( CRM)等重要的业务支撑 系统 均开始大规模 应用 分布式存储、一 体机、数据库 RAC、大数据 和人工智能等技术。一方面这些高性能技术 ,例如 内存数据库, 使用内存分布数据的大数据运算大幅度提高了应用的响应速度, 特别 是通过 RDMA 技术 ,大幅降低了应用在服务器内的传输时延 ; 另一方面越 来越高 的 硬件 介质性能, 比如应用全闪存磁盘、 NVMe 接口的存储系统、 使用高 性能 GPU 的服务器 等 ,也极大的提高了存储和计算的系统 性能,这些最终导致 网络已经成为了制约 应用系统整体性能提升的瓶颈。 以这两年在中国移动规模商用的分布式存储为例, 在以 HDD 为主的分布式 存储体系内网络时延并不突出,介质时延占据了总体时延的 90%。而要提高分 布式存储系统的 IOPS 性能,通常只有通过提升系统并行度和降低单次 IO 时延 两种手段。对于一定的分布式架构,系统并行度又是固定的 ,使得 降低单次 IO 时延成为了提高系统性能的 主要 手段。为了提高分布式系统的性能,高性能的 SSD 闪存占据了越来越多的市场,而随着 NVMe 这种高性能存储接口的出现, 数据表明 网络时延 占到了整体时延的 65%, 成为了 系统整体性能提升的最大 瓶 颈。 而降低网络时延,过去往往更注重网络设备的静态转发时延,然而实际情 况是由拥塞和丢包带来的动态时延会极大的恶化网络的性能,而这种拥塞和丢 包在高性能应用场景又是非常常见甚至无法避免的。 图 3 存储 网络时延影响和组成 4 以 人工智能场景 TensorFlow PS 架构 的 AI 训练系统为例,网络流量模型 存在着周期性的 “ 多打一 ” 爆发式的流量,而对于传统以太网来说,大流量的 “ 多打一 ” 显然会导致拥塞和丢包,而一旦产生拥塞和丢包就会极大的降低整 个系统的性能。对于这种拥塞和丢包,是由于其架构和传输模式本身决定的, 无法通过网络扩 容 解决。 图 4 TensorFlow PS 架构流量示例 为了满足 高性能应用 的网络性能需求 , 中国移动已开始逐步引入 基于 RoCE 的 以太无损网络 。 使用以太无损网络一方面能提高系统的整体性能,提高了单 位硬件投资 的性能收益,使得能够以更少的投资获得更高的性能收益。比如以 前系统 需要 100 个节点才能满足业务性能的需求,那么假设使用以太无损网络 后单节点性能平均提高 20%,那么我们 只需要 80 个节点左右就能达成 目标, 既大幅减少了硬件投资需求 , 也降低了 建设和 运维成本。 图 5 传统以太网与无损网络性能对比 另一方面 , 过去为了收获计算的低时延、存储的无丢包和网络的低成本 , 需要在计算、存储和网络分别使用 IB、 FC 和以太 技术 建立三张网,并且每张 网都需要不同技术背景的工程师单独维护。而在 引入 以太 无损网络 ,后续逐步 实现网络融合以后,可以统一使用以太无损网络来连接计算、存储和网络,既 5 能降低网络复杂度和运维成本,又能在 5G 时代做到云网融合 ,提高业务的拉 通效率。 图 6 独立组网与融合网络对比 6 3 以太无损网络 关键技术与测试 3.1 网络流量控制 当前基于 RoCEv2 的以太无损网络,采用的是 基于无连接协议的 UDP 传 输协议。 相比面向连接的 TCP 协议, UDP 协议更加快速、占用 CPU 资源更 少,但其不像 TCP 协议那样有滑动窗口、 确认应答等机制来实现可靠传输, 一旦出现丢包,依靠上层应用检查 重传,会大大降低 RDMA 的传输效率。所 以要想发挥出 RDMA 真正的性能, 突破数据中心大规模分布式系统的网络性 能瓶颈,关键就是解决网络拥塞。 为了实现端到端的无损转发,避免因为 拥塞导致交换机缓存溢出而引发的 数据包丢失,网络 必须引入流量控制 相关技术 ,通过对链路上流量的控制,减 少对交换机 缓存 的压力,来规避丢包 的 产生 。 目前主流的流控技术包括 PFC、 ECN 和 DCQCN 等,这些技术往往需要结合使用,才能更好的达到流量控制 的效果 。 PFC( Priority based Flow Control) 是在交换机入口( ingress port)发起的拥 塞管理机制。在通常无拥塞情况下,交换机的入口 buffer 不需要存储数据。当 交换机出口( egress port)的 buffer 达到一定的阈值时,交换机的入口 buffer 开始积累,当入口 buffer 达到我们设定的阈值时,交换机入口开始主动的迫使 它的上级端口降速。由于 PFC 是基于优先级的控制,所以这种反压可能导致 同样优先级的应用都受到影响。如图 7 所示。 图 7 PFC 示意图 ECN( Explicit Congestion Notification) 是在交换机出口( egress port)发 起的拥塞控制机制。当交换机的出口 buffer 达到我们设定的阈值时,交换机会 改变数据包头中的 ECN 位来给数据打上 ECN 标签,当带 ECN 标签的数据到 达接收端以后,接收端会生成 CNP( Congestion Notification Packet)并将它发 送给发送端, CNP 包含了导致拥塞的 flow 或 QP 的信息,当接收端收到 CNP 后,会采取措施降低发送速度。可见 ECN 是基于 TCP flow 或 RDMA QP 的 7 拥塞控制机制,它只对导致拥塞的 flow 或 QP 起作用,不会影响到其他的应 用。如图 8 所示 。 图 8 ECN 示意图 总的来说 , ECN 技术能够对于拥塞流量进行精确标记以便于精准降速, 同时降速可做到较为温和平稳,但是本身反应速度较慢,因此当网络中存在比 较高的微突发和剧烈的拥塞时,可能来不及降速已经出现了丢包 , 因此通常需 要使能 Fast ECN、 Fast CNP 等辅助技术。 PFC 技术 则 降速反应较快,能够迅 速解除拥塞情况,但由于其只能基于优先级进行降速,容易影响和拥塞无关的 Victim 流量且会造成大范围流量震荡,存在 HOL 和 PFC 死锁等问题,一般在 网络配置中应尽量少的触发 PFC 机制,仅将其作为最后的保障手段。 在此基 础上 , PFC 和 ECN 的水线设置同样需要根据具体场景进行确定 。 以 ECN 为 例,当拥塞较少且较为轻微时, ECN 水线设置过低会导致更多的报文被标记, 导致源端过度降速,吞吐指标劣化。而当突发和拥塞较为严重时,如果 ECN 水 线设置过高,可能导致降速不及时而出现丢包或触发 PFC 机制,同时队列深 度较深,会使得时延指标劣化。 因此,对于以太无损网络的关键问题就是 怎样结合具体的应用和使用场景 来确定 网络流量控制 设置 ,而这些关键问题,都需要通过 测试来确定 。因此, 在技术研究、 网络参数设置 、设备选型和现网建设的时候都离不开以太无损网 络 测试 技术 。 3.2 以太无损网络测试现状和难点 BAT 等大型 互联网公司对于以太无损网络的应用往往具有明确的使用场 景和组网方式,可以使用实际业务和组网对以太无损网络进行测试,能够 获得 实际 测试效果并指导使用 部署 。但对 中国移动来说 ,对于 现网 以太无损网络的 应用需求和组网规模要求往往具有较大的差异性,对于现有业务系统的网络升 8 级也很难直接 利用现有业务系统进行测试和调试。因此,统一的以太无损网络 测试能力 显得至关重要。 图 9 中国移动 无损网络使用场景和规模调研 当前由于缺乏以太无损网络测试仪表,因此对于以太无损网络的研究和测 试都 只能采用 服务器来 产生所需的测试流量 ,给中国移动以太无损网络技术的 推进带来 很多困难和问题。 主要包括以下几方面: 一是 测试环境搭建 成本高 。 越好的测试能力所需的服务器数量和种类就越 多。例如测试 AI 应用就需要 GPU 服务器,测试存储就需要高性能的存储服务 器。一般具有一定典型性,能够产生足够测试流量和拥塞压力的单套测试环境 往往需要 至少 20 台或 更多的测试服务器。安装搭建这些测试环境也需要 很多 的人力和环境搭建时间 ,资源消耗大、成本高 。 图 10 基于服务器的 以太 无损网络测试 二是 应用环境切换困难、故障多。 统一的、覆盖广泛的以太无损网络测试 床需要覆盖各种可能的应用场景和参数组合,包括各种 “ 多打一 ” 、计算、存 储、人工智能等测试场景及各种参数组合。 要 同时具备这些测试能力, 测试床 所需具备的服务器数量、环境条件和搭建时间成几何式增长,难以实现。如果 使用一套或有限的服务器数量去覆盖不同的测试场景和应用环境,由于其所使 用的操作系统、软件环境、驱动和测试工具等 又 存在 很大 差异性,在不同应用 环境间切换往往也具有较大的困难,影响测试效率。 9 三是 测试能力局限性 。 由于基于服务器的测试工具的缺陷,对 所需的测试 参数、流量模型的产生往往具有较大的局限性,使得测试能力受到了较大的限 制 ,很多测试无法开展 。 四是 测试精度低、结果误差大 。 由于基于服务器的应用性能本身并不稳定, 常常出现波动,而波动本身很容易就能带来 10%甚至更高的测试误差,这使得 测试精度低、 可信度较差 。 五是 测试 方法缺乏标准化, 结果 可重复性差 。 当不同地点和机构想要复现 相同的测试场景和 结果 ,需要具备相同的测试环境,这就要求保持相同的服务 器软硬件环境, 其 难度非常大 。也使得目前的以太无损网络测试结果可信度、 效力和可对比性较差,极 大降低了测试的价值和重要性。 10 4 统一的以太无损网络测试 4.1 测试 思想 变革 区别与传统以太网的测试技术,以太无损网络由于其性能与业务的高耦合 度及整体动态特性 , 统一的以太无损网络 下, 测试 思想发生了巨大的 转变 。 首先,从测试形态上,对于 传统网络, 测试的 重点在单个网络节点性能的 评估,因为大部分时候网络整体的性能由网络单节点性能叠加决定 或网络中各 节点的最差值决定。 例如从 A 到 B 经过 3 个节点,每个节点时延 10s,那么 整个的网络时延 就可通过叠加估算为 30s; 其他包括 处理 带宽、表项容量等很 多指标 又 可以由 沿途 单点的 最差值 估算。而对于以太无损网络,由于很多应用 场景涉及到网络拥塞,这时由于涉及到流控,整个网络处在牵一发动全身的动 态平衡状态中 , 网络的性能取决于整个网络 内各设备和节点 的协同配合。因此 评估网络性能很难从单个设备进行 估算 ,而是需要依照典型的组网情况,对各 级网络单元进行有效设置后才能有效评估。对 以太 无损网络的测试 , 将从 传统 以太网 单点测试更多的转变为组网测试。 图 11 传统网络与以太无损网络的测试形态差异 其次,传统以太网更关注网络的静态特性,因为传统网络的设计更多是从 无拥塞的角度去 考虑 的,当网络利用率高时我们往往选择的是进行扩容,因此 评估网络设备在无拥塞情况下的转发吞吐量、时延等静态特性是传统以太网测 试的重点。而对于以太无损网络,由于其应用场景本身就更多的涉及到了多打 一和拥塞,这种 网络 拥塞很多时候是应用传输模型本身决定的,无法通过扩容 来解决。而对于以太无损网络其设计理念就 是要解决拥塞及其 带来的丢包问题, 因此对于以太无损网络 来说,对于其 在各种组网和流量模型下的拥塞时的带宽、 时延和丢包等动态特性的评估更为重要。 11 最后,对于传统以太网络来讲,在无拥塞的静态使用场景下,一般来说业 务系统对网络要求不是太高,大多数情况对于吞吐量足够,时延差异不大的网 络设备,其选择对周围系统的性能影响较小。但是对于以太无损网络来说,网 络对周围系统的性能发挥往往有很大的影响 , 根据我们的测试结果 显示, 由于 网络设备不同或者说参数调节不到位,对 系统 整体的性能影响很容易在 20%以 上。因此测试 网络设备的组网性能, 以及 在典型场景下的 应用 性能具 有非常重 要的意义和价值,因为网络的潜在价值成本远比传统以太网更大 。 4.2 关键 参数 测试 参数对流量模型及对网 络设备的压力具有至关重要的影响, 统一的以 太无损网络测试能力可基于以下关键 参数更加灵活的构建所需的测试流量和 测试模型: 测试包长 : 无状态流量测试时使用的包长,包长越小越考验网络设备的包 转发能力和小包处理能力,包长越大 越考验 网络设备的吞吐量、缓存和对大数 据包的处理能力。 信息长度 :有状态流量测试时使用的 message size,表示单条会话传输的数据 量,影响网络中的测试流量包长的组成。 测试 QP 数 :流量使用的 Queue Pair 数量,决定流量的会话数量,对于 ECN 标记, DC-QCN 等 降速具有 重要 影响。 QP 数较小或较大时都 可能 对测试流量的 产生和处理具有 特别 的影响。 发送端和接收端的 数量 比例 :决定流量的流向和流量拥塞度,该比例越大, 在接收端就越容易造成较为严重的拥塞,对于设备流控的设置等具有非常显著的 影响。 无损流量和有损流量的比例 :由于以太无损网络可以同时承载 RoCE 等需 要无损的流量和 TCP/UDP 等有损流量,尤其时 RoCE 等流量建立会话时也依 赖 TCP 等会话,因此在实际网络配置中需要根据需求平衡无损流量和有损流 量的关系和带宽比例。 DC-QCN 配置参数 :由于以太无损网络的流控特性不仅和交换机等网络设 备相关,也与网卡有非常密切的关系,因此可根据测试需求配置发送端的 DC- 12 QCN 的相关参数,例如抑制恢复时间、速率调节步长、速率调节参数 alpha 等 来调整发送端的降速算法 。 RDMA Action:特指有状态 RDMA 数据传输中所使用的某种单一数据操 作方法,对特定两节点间单次传输操作动作 。包括 连接类型,典型操作如 write, read, send, receive 等 ,单次传输操作所使用的 message size, QueuePair 数量, 传输数据块大小等 内容 。 RDMA JOB:使用仪表仿真实际业务的基本单元,特指多节点间一系列 RDMA Action 的组合。通过定义不同 action 的组合,以及每组 action 的间隔, 重复次数,能够通过仪表来仿真模拟真实业务(比如高性能计算以及存储等)。 4.3 RoCE 性能 指标 对于以太无损网络 测试来说, 网络的 RoCE 性能是所有测试中的基准和关 键 。为解决当前以太无损网络的测试基准和标准化难题,中国移动创新性的提 出了 RoCE 性能指标及 测试 方法 , 填补测试领域空白, 具体包含以下方面内容: 动态 Throughput:设备或网络对于指定的组网和流量参数设置条件下, 无状态流量在无丢包情况下的吞吐量。表示设备 或网络在流控机制 下,所 能 达 到的最大吞吐能力。 动态 Goodput:设备或网络对于指定的组网和流量参数设置 条件 下 , 有状 态流量在 无丢包情况下的吞吐量。表示设备或网络在流控机 制下,所达到的最 大 有效应用层 吞吐能力。不包括报文头,可以被认为是真实业务 的承载能力。 丢包率:设备或网络在指定的组网和流量参数设置 条件 下 , 流量 由于拥塞 丢失 数据包 的 数量占所发送数据 包总量 的比率。 很多以太无损网络的应用场景下, 丢包的出现会极大的降低业务系统的性能。例如对于 RoCE 业务, 2%的丢包 就可能 导致业务的吞吐率变为 0。 13 图 12 丢包率对吞吐率的影响 动态时延 :设备或网络对于指定的组网和流量参数设置 条件 下 ,单一 RDMA Action 完成时延,包括内部排队和丢包重传导致的时延。 网络平稳性 :在测试中间平稳阶段,带宽最大值与最小值的差值与平均带 宽的比值。由于以太无损网络测试往往存在拥塞和流控,是一种动态平衡过程, 当流控配置不恰当或设备处理能力有所欠缺时会导致流量和流控计数大范围 震荡,这种震荡一方面可能对应用产生冲击、影响应用的实际性能,另一方面 也会影响带宽的平均表现。 图 13 平稳性对比 流量收敛性能 :表示当出现链路、节点故障或其他网络扰动的情况下,设 备或网络收敛速度的快慢和收敛后性能的好坏。由于以太无损网络的使用场景 多存在拥塞及流控,以及在此状态下达到的某种动态平衡。因此当出现网络扰 动后 ,需要重新达到新的动态平衡, 其收敛前后带宽或业务速率可能出现变化, 14 例如吞吐量可能由 48G 收敛为 23G,由于存在流控,丢包 也可能被流控所抑 制。 同时重新收敛的过程可能存在快慢的区别,收敛后的性能也有好坏之分。 因此,在这种情况下的收敛问题要比传统网络更为复杂。 具体包含两个方面, 一方面是收敛速度的快慢,对于类似如图所示收敛过 程,测试开始一定时间后进行网络扰动,假设我们将收敛前的平均带宽 或业务 处理速率 记为 V0,收敛后的平均带宽 或业务处理速率 记为 Vn, t 为收敛开始 到确保所有测试场景能收敛完成的最小保障时间, Pa 代表 t 时间内 实际收包数 量。则 Vn t 表示假设扰动后立即完成收敛,到 t 时间后的理想收包数量。而 Pa 则为实际收包数量,因此( Vn t-Pa)表示理想值与现实值的差值, ( Vn t-Pa) /t 即可定义为 收敛速率 。 该值越 小则表示实际收敛性能越接近理想收敛 性能,收敛性能越好;该值越大 则代表实际收敛性能越差。 另一 方面则是收敛后性能的好坏,由于收敛前后的平均带宽本身就有可能 是拥塞和流控达到的一种动态平衡,因此对于不同配置或设备, V0 和 Vn 并 不一定是固定值。因此我们可将 |Vn-V0|/V0 定义为收敛性能比, 作为评判收敛 后性能好坏的评价因素,当 VnV0 时,该值越 大越好。 图 14 收敛过程 均衡性 : 表示网络中同一行为的各节点间收敛性能、动态吞吐量和动态时延 等性能的同步程度。其差异越小,表示网络的均衡性越好。由于无损网络的典型 场景,无论是并行计算、分布式计算、存储或者 AI,都属于并行计算模型或者类 并行计算。 很多 时候,一个任务被拆解到多个节点去完成,每一步都要等所有计 算节点任务全部完成后将结果进行汇总才能进行下一步。那么这就会很显然的遇 到 “ 木桶效应 ” ,整个系统的效率取决于性能最弱的的那个节点 的完成速度 ,所 以只有整个网络状态比较均衡的情况下才会使得系统的整体效率最高。 举例 如 图 15 15 左侧所示情况,部分节点 的发流 收敛性能存在滞后,会影响系统的整体性能。 右 侧描述了 最严重的情况, 八 个节点向一个节点传输数据, 其中 一个节点要等其 他 七 个节点完成传输后才能进行传输,这显然会造成系统性能的 极大 下降。 图 15 网络均衡性问题 尾部时延 :定义为所有动态时延中最差的 1%时延的最小值。在部分系统, 尤其是高并发系统中,由于上述提到的木桶效应,有时平均的动态时延并不能 完全代表网络的时延性能, 反而 可能由于拥塞或网络均衡性问题导致的 少量最 差的时延代表着整个网络的性能 ,因此尾部时延对部分系统和网络具有重要参 考价值 。 防突发能力 :表示网络及设备对于微突发流量的处理能力。由于以太无损 网络的应 用模型导致网络中可能存在较多周期性的微突发流量,这不仅要求设 备有 较好的收敛性能,同时也要求设备能够对微突发做出较快的反应,在不出 现丢包的情况下保证较好的性能。 过去在传统网络中,我们往往基于链路带宽去 判断拥塞的可能性,当链路 利用率低时往往认为不会出现拥塞,而链路利用率高时则 认为 出现拥塞的可能 性 较大 ,而在以太无损网络中这一经验不再适用。举例来说,如 图 16 所示为 在同一软硬件环境下,在分布式块存储中对不同应用场景进行测试的结果,上 侧表示应用的 IOPS 和带宽,下侧 表示对应场景所产生的流控数量,流控越多 表示该场景出现了越严重的拥塞。如图所示带宽最大的 vod 视频业务并未出现 拥塞以及流控,反而是带宽并不突出的 exchange server 出现了海量的流控,表 示出现了极大的拥塞。这是 由于 带宽 实际上 是 吞吐量在 一段时间 经过平均得出 的统计值,而拥塞更多是爆发性的流量的瞬时行为。 在这种情况下,带宽和拥 塞并不等同, 以太无损网络中的拥塞更多时候是 由于流量突发导致的。 16 图 16 不同场景带宽与流控对比 图 17 上侧是一个高精度的现网流量采集结果,我们 同样 可以看到网络中 存在周期性的流量爆发。而下侧则是基于现网设备缓存的高精度采样 统计 ,可 以看到网络绝大多数是这种 100s 级别的微突发,这就要求我们的网络设备要 具备在这种微突发情况下保证无丢包的快速反应能力。在测试中这也对我们 发 送 脉冲式 微突发的测试能力产生了比较强烈的需求。 图 17 突发流量采样分析 对于基于服务器的以太无损网络应用场景测试,往往通过搭建特定应用场景 的应用环境,利用实际业务或相关测试软件产生应用流量对网络或设备进行测试, 测试结果可反应为存储 IOPS、 AI 图片训练效率或者话单处理速度等。如果我 们 能通过高精度采样和分析等手段,对典型的应用场景流量进行解析,那么 我们之 前提到过的 各种流量和 微突发 和 传输 行为就可以通过同一时间内的多条 Action 进行仿真,对 主要流量中 的 QP 数量、连接类型、 message size 和传输数据大小 17 等 进行 配置。 而特定业务和场景的流量行为则需通过采样确定流量突发时间间隔。 然后 就可以通过在 JOB 内定义 action 的组合方式,每组 Action 的间隔, 重复次 数等来确定我们所需考察的 JOB,即测试任务。这样我们就将所需仿真的不同业 务场景、 不同 的 目标指标最终变为了可以统一进行定义的压力 JOB。 因此我们的 应用仿真性能测试中最重要的性能指标,即转变 为 任务 ( 即 JOB) 的完成时间 , JOB 完成时间越小,代表网络对指定 JOB 完成的速度越快,代表网络的性能越 好。 Action 失败率 :表示在 JOB 完成过程中, Action 的失败几率,该数值越 小代表网络性能越好。理论上该失败率应为 0。但由于网络中可能出现拥塞和 丢包,可能因此导致 Action 传输出现失败。应当指出的是少量的 Action 失败 并不一定导致 JOB 完成时间变慢,该数值仅从一定程度反应网络中传输出现 失败的几率,具体原因及可能造成的影响需要 结合 具体 情况 进行分析。 JOB 成功率、完成时间 :一段时间内 JOB 成功完成的个数占总 JOB 数的 比例 , 以及 JOB 的平均完成时间 ,用于评估网络和 设备对特定应用场景仿真 性能的好坏。 4.4 通用测试仪表 经过中国移动研究院与合作伙伴的研究和推进,基 于通用的以太无损网络 测试仪表,将革命性地 改变以太无损网络的测试 现状,推进以太无损网络技术 的成熟和 发展 。 由于以太无损网络的流控 配置的复杂性,对于测试仪表来说, 要充分满足我们当前和未来的测试需求,需要满足以下要求: 一是 通用性 。 能够对 RoCE、 TCP、 UDP 等通用的协议、功能、流控等算 法进行标准全面的仿真;具备基于 Action 和 JOB 的应用仿真能力;能够对接 通用的以太无损网络设备并完成相应测试。 二是 高性能 。 由于以太无损网络本身性能要求很高,同时流控需要包括测 试仪表和交换机等网络设备进行配合,因此要求仪表本身性能足够高。需要具 备大会话、高吞吐、高包转发率和混合业务、大数量、多方向流量构造能力; 高性能的流控反应速度和统计处理能力;微秒级微突发构造能力;精确的流量 启停控制等特点。 物理 端口 上 需要 具备 25GE、 100GE、 400GE 等 高速 以太 测 试 端口 。 18 三是 稳定、精确的测试控制 。 能够按照测试需求和意图,精确的构造和仿 真测试流量,测试过程细致、可控,能够保证测试的可重复性和稳定性。 四是 丰富的测试参数设置、流程和结果呈现 。 能够基于之前提到的测试参 数要求,根据测试需求对测试流量、流控和流程进 行设置,达到各类测试意图。 同时,为了方便问题定位和分析,能够对整个测试流程和结果中的各种有意义 的数据进行定制、统计、呈现和展示。 4.5 测试实践 为推动以太无损网络在中国移动商用部署,驱动以太无损网络的技术成熟 度、业务场景、组网形式 ,并推动整个产业与运营商业务的结合与发展。中国 移动已制定完整的测试和落地试点计划,分为实验室 RoCE 流量 性能测试、实 验室业务应用场景测试和省公司现网试点三个阶段。目前 中国移动 已经组织华 为、新华三、中兴、锐捷和英伟达迈络思等设备厂商以及是德科技、思博伦等 仪表厂商完成了多轮 实验室 测试, 测试的内容不仅包含多种场景下的 RoCE 性 能测试 , 还涵盖了中国移动现网诸多高性能应用场景 , 例如分布式块存储 、 高 性能并行计算 、 大数据 、 深度学习框架 TensorFlow 等。 图 18 深度学习框架 TensorFlow 测试拓扑 通过不断的测试研究 , 形成了“测试 -技术改进 -验证”的良性发展模式。 目前 预计 2020 年 12 月份完成 以太无损网络的 实验室测试和现网试点工作。 19 5 结束语 随着 人工智能、 高性能计算和 存储应用越发广泛,以太无损网络的部署已 成为解决 数据中心 网络性能不足的关键 解决 方案,发展趋势明显 。如何通过测 试和研究促进以太无损网络的部署效率和性能 ,已经成为了当前国内外研究 的 热点。 目前 传 统的以太网测试方法和测试工具无法满足以太无损网络的测试目 的和 需求。由于以太无损网络性能 与实际业务的密切关系和网络在流控下的动 态特性,需要从测试思想、测试指标体系、测试方法 和测试工具上进行开创性 合作,并随着技术的 发展而不断完善。中国移动充分认识到了这项工作的迫切 性,携手 中国信息通信研究院 这样的专业研究 测试机构,华为、新华三、中兴、 锐捷、英伟达迈络思 、思科 这样的国内外设备商以及是德科技、思博伦等仪表 厂商,共同推动以太无损网络 技术的发展以及 测试的体系化、规范化和标准化。 展望未来, 随着 以太无损网络 的 高性能 和 智能化 演进, 其 测试 技术 体系 也 将 向 智能化 的 方向 发展 , 并 在 技术研究、产业发展和落地部署中发挥越来越重 要的作用。中国移动将和众多合作伙伴一同,以 推动 以太 无损 网络 规模商业部 署为目标,加速推动 测试 技术完善 和 网络 性能 评测 , 助力 以 太 无损 网络 更好 的 驱动 云 计算 数据 中心 的 性能 提升 , 满足 5G 时代 的 业务 发展 需要 。 20 6 缩略语 列表 缩略语 (按字母顺序 ) 英文全名 中文解释 ACK Acknowledge 应答报文 AI Artificial Intelligence 人工智能 CNP Congestion Notification Packet 拥塞通知数据包 CPU Central Processing Unit 中央处理器 DC Data Center 数据中心 DCN Dater Center Network 数据中心网络 DCQCN Data Center Quantized Congestion Notification 数据中心量化拥塞通知 DCTCP Data Center Transmission Control Protocol 数据中心传输控制协议 ECN Explicit Congestion Notification 显式拥塞通知 ETS Enhanced Transmission Selection 增强传输选择 FC Fibre Channel 光纤通道 GPU Graphics Processing Unit 图形处理器 HOL Head-Of-Line Block 队列头阻塞 IB InfiniBand “无限带宽”技术 IOPS Input/Output Operations Per Second 每秒输入 /输出量 IP Internet Protocol 网际协议 POD Point of Delivery 数据中心基本设计单元 QCN Quantized Congestion Notification 量化拥塞通知 QoS Quality of Service 服务质量 QP Queue Pair 队列对 21 RDMA Remote Direct Memory Access 远程直接内存访问 RoCE RDMA over Converged Ethernet 基 于 融 合 以 太 网 的 RDMA RoCEv2 RoCE version 2 RoCE(第二版) TCP Transmission Control Protocol 传输控制协议 TOR Top of Rack 机柜顶接入交换机 UDP User Datagram Protocol 用户数据报协议 VLAN Virtual Lane 虚拟局域网 表 1 缩略语 22 联合 编写单位 及作者 本白皮书 由 中国移动 通信有限公司 研究院 发布。 中国移动通信有限公司研究院 :唐本亭、杨海俊、李苏扬 中国信息通信研究院 :郭亮、李洁、王少鹏 是德科技有限公司:王朝晖 思博伦通信有限公司 : 闫铁涛 华为技术有限公司:孙黎阳 英伟达迈络思科技有限公司:宋庆春、朱朋志
展开阅读全文