资源描述
网 络 带 内 流 信 息 自 动 化 检 测 技 术 ( IFIT) 研究 ( 2020 年) SDN/NFV/AI 标准与 产业 推进委员会 2020 年 9 月 2 版权声明 本白皮书版权属于 SDN/NFV/AI 标准与 产业 推进委员会 ,并受法 律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点,应 注明“来源: SDN/NFV/AI 标准与 产业 推进委员会 ”。违反上述声明, 本联盟将追究其相关法律责任。 目录 版权声明 . 2 一、 带内流信息自动化测量 (IFIT)技术概述 . 5 1 二、 IFIT 关键技术介绍 . 6 1. 智能选流技术 . 6 2. 智能数据上送技术 . 7 3. 动态网络探测技术 . 8 4. 封装与隧道化 . 9 2 三、带内流信息自动化测量 (IFIT)架构研究 . 9 3 四、应用场景介绍 . 11 1. IPRAN 5G 场景 SLA 感知与故障定界 . 11 2. 园区场景指定应用的 E2E 故障快速定界 . 13 4 五、下一步工作 . 13 4 前言 IFIT( In-situ Flow Information Telemetry)是一种基于真实业务流 的随流测量技术。基于随流检测原理, IFIT 提供真实业务流的端到端 及逐跳 SLA(丢包、流 量、时延、抖动等)测量能力,可快速感知网 络性能相关故障,并进行精准定界、排障,在组网灵活性、 SLA 精准 性、故障快速定界能力上具备更大优势,是未来 5G 移动承载网络和 企业网络运维的重要手段。 本文在介绍 IFIT 的基本技术原理基础上 ,对 IFIT 网络性能测量 架构进行了描述,并给出了承载网和企业园区网的应用场景实例。最 后对下一步发展方向给出描述。 一、 带内流信息自动化测量 (IFIT)技术概述 高效的网络运维越来越依赖于高质量的网络数据面质量可视。传统 OAM 技术 广泛用于网络运维和管理,包括网络故障检测、网络故障隔离、网 络故障上报以 及网络性能检测。例如,传统的用于连通性检测的 IP Ping1, BFD( Bidirectional Forwarding Detection,双向转发检测) 2等。针对网络性能检测,按照 RFC7799 中分类标准,可将性能测量分为三类:主动性能测量、被动性能测量和混合性能 测量。例如, TWAMP( Two-Way Active Measurement Protocol,双向主动测量协 议) 3就是一种典型的主动性能测量方法。 TWAMP 通过要向网络中注入主动探测 报文,然后通过对探测报文的测量,推测网 络的性能。区别于主动性能测量方法, 被动性能测量则直接监测业务数据流本身,而无需发送额外的主动探测报文,也 无需改动业务报文,实现网络性能测量。例如, IP 流量信息输出协议( IP Flow Information Export, IPFIX)作为一种 IP 数据流的统计、输出标准,通过定义 的数据输出格式,可将 IP 数据流统计信息从一个输出器传送到采集器 4。此外, 混合性能测量结合主动性能测量和被动性能测量,通过对业务报文的某些字段进 行一定的改动,而不用向网络中引入额外的探测报文,实现网络性能测量。例如, IPFPM( IP Flow Performance Measurement, IP 流性能监控)通过对数据包进 行染色来实现对真实数据流的直接监测 5,是一种典型的混合性能测量技术。由 于混合性能测量方法未引入额外的主动测量报文,其性能测量的准确度可与被动 测量相当。 传统网络性能测量技术(如 TWAMP,IPFIX 等)难以满足高精度、实时的网络 性能监测要求,需要一种新型的测量技术,以满足未来网络和业务的发展需求。 目前,智能化成为网络发展方向,网络可感可知而是实现网络智能化的前提。另 外,感知应用的新型网络架构体系( APN) 6描述 了网络获取管理当前有关用户 和应用信息的能力。这些信息可用于优化网络资源的使用并提高服务质量。新兴 的带内流 Telemetry 技术( IFIT)可以提供高精度的流质量可视和实时的网络故 障告警(如抖动、时延、丢包、误码和负载不均衡)。 带内流 Telemetry 技术是一种主动与被动混合的数据面 Telemetry 技术。其 既不同于构造新的检测报文的主动 OAM 运维管理测量方法,也差异于仅观察用户 6 数据报文的被动 OAM 测量方法,通过直接将流质量测量信息编辑封装在用户数据 报文的方式实现在每个数据报文粒度上的流质量可视。带内流 Telemetry 技术 ( IFIT)包括 IOAM 随路 OAM7、 PBT 明信片式 Telemetry8、 EAM 增强替代标记 9 和 HTS 混合两步式性能测量方法 10。这一系列的带内流 Telemetry 技术可以实时 地并且在逐包粒度上提供完整转发路径上流质量测量信息。通过带内流 Telemetry,可以获得更详细的 OAM 信息。例如,报文转发路径(包括设备和出 入接口信息),报文在每个网络设备中纳秒精度的缓存时间以及识别竞争队列流 信息。 带内流 Telemetry 技术一般分为两类模式:护照模式( Passport)和明信片 模式( Postcard)。 a)护照模式:指业务路径上的每个节点将 telemetry 质量测量数据添加至 用户数据报文中,一直到 IFIT 尾节点才解封装并将采集信息输出至采集器。例 如 IOAM 的 Trace 方式和 IFA。护照模式的一个突出优点是,它自然保留了沿整 个路径的遥测数据相关性。护照模式还减少了数据导出数据包的数量和带宽开 销。这些有助于简化数据收集器和分析器的工作。而另一方面,护照模式需要对 用户分组进行更多处理,并且增加了用户分组的大小。 b)明信片模式指业务路径上的每个节点将采集的本地 telemetry 质量测 量 数据封装成独立的 OAM 报文,直接输出到采集器。例如 IOAM-DEX 方式。明信片 模式保持了数据报文的完整性,直接用一个独立的报文输出 telemetry 质量信息 数据,从而填补了护照模式的缺陷。但是需要更多的带宽以及计算开销去关联一 条流端到端的 telemetry 质量信息数据。 二、 IFIT 关键技术介绍 2.1 智能选流技术 由于使能质量监测对于转发性能和带宽消耗存在潜在影响,绝大多数情况 下,对所有业务应用流以及每条流的所有数据包都使能质量测量是不可行。因此, 一个可行的解决方案通常只需选择一部分流和部分报文来启用 IFIT功能 ,即使这 意味着可能会导致一些价值信息的丢失和影响测量的准确度。 在数据转发面,访问控制列表( ACL)提供了一种识别和选取流子集的方法。 针对具体的一条业务流可以为其设置采样率,以仅检测流的部分报文子集,且设 置不同的数据包采集不同的性能数据,并在网络任意特定节点上使能或禁止数据 采集 11。根据应用不同,还可以允许任意节点全量或者部分地接收或者拒绝对业 务流报文的数据采集。基于这些灵活的机制, IFIT赋予了业务应用级的智能选流 和监测数据选择策略来满足测量需求。 IFIT应用可以在任何时刻,基于网络负载、 转发处理 能力、测量关注点以及其他准则来动态地调整选流和采集策略。 例如,路由器数据面基于 sketch算法的大象流识别。网络运营商通常对于大 象流更有监测性能需求,因为大象流消耗带宽资源而且对网络变化敏感。通过在 数据转发路径的头结点实现 Count-Min Sketch算法 12,可以周期性识别出大象 流,上报给控制器。控制器维护当前大象流的集合,生成 ACL,下发到设备上, 从而实现对大象流的重点监控。 又例如自适应数据包采样。在指定流上针对所有报文都应用 IFIT可能会超出 网络承载能力。在这种情况下,应该在指定流上采用报文 采样方式来降低监测开 销。对于头节点,因为没有一条路径上的带宽实时开销信息,无法正确地设置合 适采样频率。如果速率过高会耗尽网络资源,甚至导致丢包。相反,速率太低会 导致信息丢失和测量不准确。 针对该场景 ,可以基于网络情况来实时动态调整采 样频率。在每个网络转发节点的数据平面上,确保用户的数据报文优先级高于流 信息测量报文。为了避免网络拥塞,控制器可以感知网络拥塞的一些信号,例如 报文缓冲区大小深度、长时延、丢包信息和数据丢失等,并且利用这些感知信息 来调整质量测量报文的采样频率。这样在每个调整周期,采样频率实时响应减小 或 者增加。 2.2 智能数据上送技术 IFIT技术可以实时地逐包粒度地捕获业务流质量信息。正是这种高密度的数 据流性能测量信息,会存在大量的冗余信息。所以,为了减少数据传输带宽和分 8 析器处理 负担 ,建议从数据中删除冗余。可以在保证信息数据不失真的同时,有 效降低采集信息对于网络传输带宽和集中分析服务器计算处理的开销。 除了有效的导出数据编码(例如 IPFIX RFC7011)外, IFIT也可以针对时 延不敏感的采集信息数据,进行缓存批量累加后再打包输出。在数据批处理过程 中,可以采用通用的多种重复冗余数据删除和压缩技术。从 IFIT运维应用角度来 看,该应用可能只是关注某些可以从遥测数据派生的特殊事件。例如,如果数据 包的转发延迟超过阈值,或者数据流转发路径发生了改变等,则无需将所有原始 数据累加发送到数据采集和分析器。因此, IFIT推荐利用网络设备的可用计算能 力来处理存储的带内监控原始数据,并通过事件通知方式推送给订阅的 IFIT应用 层。 按需异常事件实时监控是一个采用智能数据输出技术的应用实例。网络运维 人员往往更关注一些网络异常事件的实时准确感知,如路径改变、网络拥塞和丢 包等。这些异常都可通过 IFIT测量技术进行监控,如通过在数据报文 中封装逐包 的路径跟踪信息和报文在出入接口的时间戳等。同时,可以通过策略方式来描述 这些异常并且在数据转发面就能够识别异常,仅导出触发的事件。例如,当某条 流出现转发节点变化时,触发路径变化事件;当报文在某个网络节点转发时延超 过时延阈值时,触发拥塞事件;当报文因为缓存溢出而尾丢弃时,触发丢包事件。 2.3 动态网络探测技术 受限于数据面资源,难以实现网络数据的全面监控。一方面,网元 NP、 TM 等硬件资源是实现高性能转发的关键,同时为了处理和转发海量报文需要消耗大 量带宽资源,因此,网元硬件资源与网络带宽资源成为网络中的稀缺 资源。另一 方面,智能化的应用对于测量数据的需求也具有多样性和实时变化性。因此,在 有限的资源条件下满足动态数据测量要求至关重要。 数据平面可编程性允许 IFIT动态加载新的数据探针,即动态网络探针( DNP)。 DNP是一种在不同网络平面中使能探针进行自定义数据采集的技术。使用 IOAM或 PBT时, DNP可以通过增量编程或配置加载到数据平面。 DNP可以有效地进行数据 生成,处理和聚合,为 IFIT引入了足够的灵活性和可扩展性。 IFIT中采用 DNP技 术,通过按需信息探测不仅可以实现导出数据的优化,还可以基于业务需求实现 探测信息的定制化。 前面提到的基于 sketch算法的智能选流和异常事件触发都可以通过 DNP技术 来实现按需的加载和卸载。 2.4 封装与隧道化 在运营商网络中,用户流量通常会遍历各种隧道以实现 QoS,流量工程或安 全性。 为了满足不同的网络隧道监控需求, IFIT支持一致模式( Unified Mode) 和管道模式( Tunnel Mode) 13。 在一致模式中 ,隧道完全位于 IFIT头节点和端节点之间。入隧道的节点会将 数据包中的 IFIT指令头复制到隧道的外层封装上。从而使 IFIT指令在隧道的中间 节点和隧道外的节点得到一致的处理,实现逐跳的数据收集。 而在管道模式中 , 入隧道节点处理 IFIT指令,并做相应的数据收集。报文进 入隧道后, IFIT指令将被保留在原来的报文封装中,并 不会复制到隧道封装上。 使得隧道的中间节点在转发过程中,不 会处理 IFIT指令。直到隧道的出口节点将 隧道封装去除,继续处理 IFIT指令,并将整个隧道的数据作为一个节点数据记录。 从宏观的角度来看,整个隧道会被当作一跳节点处理 。 三、 带内流信息自动化测量 (IFIT)架构研 究 带内流信息自动化质量测量 (IFIT)提供了一种网络性能测量的架构和方案 。 通过遵循该架构可以构建出一个有效的、可实施的带内流信息自动质量测量的方 案。 IFIT通过智能选流、高效数据上送、动态网络探针 以及 隧道封装等,使得随 流网络性能测量可以在实际网络中部署 。 图 1描述了 IFIT的网络部署架构。通过集中控制器部 署 IFIT功能可以在 IFIT 域内实现网络数据面监测和测量。集中控制器负责在 IFIT域中配置网络节点,并 收集和分析遥测数据。通过配置确定使用哪种遥测技术、关注的遥测数据、与哪 些流量和数据包有关以及遥测数据的收集方式等。该过程可以是动态且交互的, 10 即遥测数据经过处理和分析之后,可用于指导控制器修改 IFIT域中节点的配置, 实现 IFIT采集数据的调整。 报文进入和离开 IFIT域的节点称为 IFIT域头结点和尾节点, IFIT域可跨多个 网络域。头节点负责使能 IFIT功能,而尾节点负责终止 IFIT功能 。 IFIT域中所有 节点均 能够执行所指定的 IFIT功能。需要注意的是,任何 IFIT应用都必须通过配 置和策略来确保任何具有 IFIT特定报头和元数据的数据包都不会泄漏出 IFIT域。 尾节点必须能够捕获具有 IFIT包头和元数据的所有报文,并去除 IFIT包头和 IFIT 元数据 ,然后再将其转发出 IFIT域。 图 1 IFIT 架构示意图 在图 1所示的 IFIT部署架构中,每个逻辑部件的功能要求如下: ( 1) Telemetry分析器和第三方运维应用,负责运维测量意图的输入、测量 数据分析以及结果呈现。一方面,基于业务应用级的质量性能测量意图调用网元 设备 配置管理部件 (如 SDN控制器 )来实现业务流测量使能,下发监控和测量任务, 包括但不限于指定测量的流对象和收集的数据,并且选择随路网络测量的数据面 封装;另一方面,呈现分析结果。 ( 2) SDN控制器,负责部署使能节点 IFIT功能 。所以北向提供网络级质量测 量服务接口,南向负责对接网络转发设备,部署流质量检测探针。 ( 3) Telemetry采集器,负责接收和存储网络设备上报的测量数据。 注: IFIT架构可以灵活支持多种随路流信息采集和数据输出技术,以适应于 不同的网络情况和不同应用的测量需求。例如,针对不同类型的信息数 据, IFIT 可以采用 IOAM或者 PBT来采集信息;针对应用丢包定界,则需要从 IOAM切换到 PBT 模式。 IFIT可以进一步集成整合多种数据面监控和测量技术,为网络运维提供全 面的数据面流信息自动化质量测量解决方案。 ( 4) IFIT使能的网络节点,在 IFIT域内执行用户数据报文粒度的网络带内 流信息自动化质量测量。其中按照带内测量操作的不同, IFIT使能的节点 分为如 下三类角色: a)IFIT头节点,负责识别过滤测量流,可以采用 IP五元组方式或者是流量 统计特征方式 (如统计大象流识别 ),并且进行 IFIT指令头的封装 (不 同网络承 载层有不同的封装标准 ),指令头部中明确指定需要带内测量的信息内容。 b)IFIT中间节点,负责识别 IFIT使能数据流报文,解析 IFIT指令头,并进 行相关指标信息的质量测量。 c)IFIT尾节点,负责识别 IFIT使能数据流报文,解封装 IFIT头,去除 IFIT 头 并将测量信息数据采用例如 IPFIX over UDP方式上报采集器,恢复用户原始 数据报文。 四、 应用场景介绍 4.1 IPRAN 5G 场景 SLA 感知与 故障定界 5G 业务对时延 、带宽提出了更高要求, 网络 丢包率、时延 等 SLA 是影响传输带宽的关 键因素之一。 为 保 障 IPRAN 5G 移动 承载 网络 提供高质量 、 稳定可靠的 网络服务 , 可在 IPRAN 的 L3VPN 场景中 部署基站 粒度 N2/N3 流量 的 IFIT 性能 监控 。 LTE 移动承载 网络中, 对于 网络性能劣化类故障 (如少量 丢包、时延 过大 等 ) 往往难以 快速排障 定界 ,是 网络运维的一大痛点。在 IPRAN 5G 移动 承载场景中,可 利用 IFIT 提供 的 随流 检测特性, 对 网络故障快速定界:对 IPRAN 网络 外部故障,可快速 准确 自证清白 ; 对 IPRAN 网络 内部故障,可快速定位到 故障 网元或链路, 提升 运维效率。 针对 IPRAN 5G 业务 的主动 E2E SLA 感知, 发 现 SLA 不满足 的业务 ,控制器 自动下发 IFIT 逐跳 定界, 运维 人员针对 SLA 不满足的业务直接 在运维 界面上查看逐跳检测结果 即 可 , 帮助 辅助 运维 人员快速缩小导致业务的质差点。 1) 全网业务 SLA E2E感知 12 图 2 IPRAN 5G 移动 承载 场景业务 E2E SLA 感知 与快速定界 如上图, IPRAN 5G 移动 承载 城域 L3VPN 场景部署基站业务 IFIT 检测( IPv4 或 IPv6) , 可提供: 全网 基站 7*24小时 N2/N3流量监控 , E2E SLA可视化 ,实时 掌握网络 健康 状况 监控基站流量 SLA指标 , 在指标 出现异常 、 或异常趋势时 自动 触发告警, 在 故障发 生前 进行干预、 调整, 主动 运维 , 降低网络故障 发生 率 对出现 异常 的 基站流量, 按需 开启 IFIT逐跳 监控,快速 排查 故障点 , 提升运维效率 依赖 全网 基站 实时性能数据, 可 构建大数据智能运维系统,对网络可能发生的风险 进行 分析评估 、调整优化,实现自动化 、 智能化的 运维 2) SLA质差业务快速定界 如上图 , 当 某基站的 N2/N3/Xn 业务 出现异常时 (例如 通过 基站 E2E SLA 监控到 指标 异常,或由无线客户 报告 网络故障等 ) , 需要对故障 进行定界排障: 首先 确定基站 N2/N3/Xn流量 IFIT E2E监控是否 异常 。 如 E2E测量 结果无异常,则可 初步 排除承载网络 内部 故障 ;如 E2E测量 结果异常,则开启 IFIT逐跳 检测。 根据 IFIT逐跳 检测结果, 快速 确定具体故障 节点 或链路。如 图中 N2/N3业务 ,在 NE3 与 NE4之间存在丢包率越限 或时延越限, 则可 快速 锁定故障 点在 NE3-NE4之间,进 一步排除 故障根因。 IFIT 基于真实 业务流的 精准 测量, 支持 逐跳检测能力,可大大 提升 IPRAN 5G 网络 运 维效率。 4.2 园区场景指定应用的 E2E 故障快速定界 在 园区企业场景下,大量用户访问云桌面,通常用户感知到使用云桌面办公、语音会议 等应用时出现速度慢、卡顿 、甚至断连的情况。此外,用户上传代码到代码库也存在速度慢 的问题。 图 3 园区网络指定应用的端到端故障定界 由此 , 例如云桌面 、 视频会议等园区场景下的应用 , 用户给予的故障问题体现很表象 、 很笼统 , 对于运维人员很难推测质差背后的真实原因 。 并且 ,园区应用访问流程很长,经过 节点多,不能够定界问题是在无线接入、园区网、 internet、数据中心、还是服务器或者终 端。 因此 , 通过使用 IFIT 随路流检测技术 ,可实现 逐包粒度的检测真实业务流逐跳或端到 端时延 、 丢包 、 抖动性能指标 ,逐跳上报。并且通过报文头中携带的 flow ID 和序列号 , 可 以方便的将性能检测结果与某个用户业务流绑定 , 达到 E2E 故障快速定界的目标 。 五、 下一步工作 1.进一步深化技术研究,提升 IFIT本身的技术能力,并实现更强的商业部署可 行性。 进一步改进 IFIT技术,增加更多的测量参数,有效提升测量精度。 通过多种技术手段,更大程度实现自动化部署和简易部署,减少数据上 送,从而提升性能。 2.更进一步推动产业合作,积极开展联合创新和验证,加快技术成熟,挖掘新 需求和应用潜力,促进技术应用发挥更大价值。 14 附录 一 :参考文献 1 IETF RFC 4443, Internet Control Message Protocol (ICMPv6) for the Internet Protocol Version 6 (IPv6) Specification. 2 IETF RFC 5880 Bidirectional Forwarding Detection (BFD). 3 IETF RFC 5357 A Two-Way Active Measurement Protocol (TWAMP). 4 IETF RFC 7011 Specification of the IP Flow Information Export (IPFIX) Protocol for the Exchange of Flow Information. 5 IETF RFC 8231 Path Computation Element Communication Protocol (PCEP) Extensions for Stateful PCE. 6 IETF draft-li-apn-framework-01 Application-aware Networking (APN) Framework. 7 IETF draft-brockners-inband-oam-data Data Fields for In-situ OAM. 8 IETF draft-song-ippm-postcard-based-telemetry Postcard-based On-Path Flow Data Telemetry. 9 IETF draft-zhou-ippm-enhanced-alternate-marking-04 Enhanced Alternate Marking Method. 10 IETF draft-mirsky-ippm-hybrid-two-step Hybrid Two-Step Performance Measurement Method. 11 IETF draft-song-ippm-IOAM-data-validation-option-02 In-situ OAM Data Validation Option. 12 一种改进数据流摘要:最小计数 sketch算法和其应用 (An improved data stream summary: the count-min sketch and its applications, 2005, Journal of Algorithms) 13 IETF song-ippm-ioam-tunnel-mode, In-situ OAM Processing in Tunnels. 致谢 感谢以下各位专家在本报告编制过程中的贡献: 周天然,华为技术有限公司 王雅莉,华为技术有限公司 周铖, 中国移动通信研究院 陈丹阳, 中国移动通信研究院
展开阅读全文