2020年管理面数据采集在智能IP网络运维场景中的应用研究.pdf_报告吧baogao8.com-

资源描述

管理面数据采集在智能 IP 网络运维场景中的应用研究 2020 年版权声明本白皮书版权属于 SDN/NFV/AI标准与产业推进委员会，并受法律保护。转载、摘编或利用其它方式使用本白皮书文字或者观点，应注明“来源： SDN/NFV/AI标准与产业推进委员会 ”。违反上述声明，本联盟将追究其相关法律责任。前言本研究报告旨在分析管理面数据采集应用的研究现状，阐述当前管理面数据采集在智能 IP 网络运维场景中应用面临的问题和挑战，并给出管理面数据采集三方管理架构，关键技术，解决方案和研究建议。目录前言 . 3 1 研究目标和应用场景 . 6 1.1 研究目标 . 6 1.2 应用场景 . 6 2 国内外研究现状分析 . 7 2.1 IP 网络智能运维数据采集与人工智能、数字孪生、意图驱动网络的关系 . 7 2.2 IP 网络智能运维数据采集技术分析 . 8 2.3 管理面数据采集技术研究现状 . 8 3 管理面数据采集在 IP 网络智能运维面临技术挑战和问题 . 9 3.1 海量数据采集和处理的挑战 . 9 3.2 数据处理和存储的挑战 . 9 3.3 集中管控面对网络事件快速响应的挑战 . 10 4 管理平面 MDT 三方管理参考架构 . 11 5 MDT 三方管理数据采集关键技术 . 13 5.1 运维数据自动标注技术研究 . 13 5.2 自适应变频采集技术研究 . 18 5.3 基于事件驱动的订阅数据采集技术研究 . 20 6 IP 网络智能运维场景 MDT 三方管理解决方案 . 25 6.1 运维数据自动标注方案举例 . 25 6.2 变频采集方案举例 . 26 7 总结和后续工作展望 . 27 7.1 当前研究总结 . 27 7.2 后续工作展望 . 28 8 参考文献 . 28 9 作者列表 .错误 !未定义书签。图目录图 1-1 管理面数据采集应用场景分类 . 7 图 3-1 海量数据采集和处理 . 9 图 3-2 数据处理和存储挑战 . 10 图 3-3 网络事件快速响应 . 11 图 4-1 MDT 三方管理架构 . 12 图 5-1 OPM 模型剖析 . 13 图 5-2 运维数据标记模型结构示图 . 17 图 5-3 IETF 定义运维标记分类 . 18 图 5-4 WLAN 性能质量监控场景下数据采集策略定义举例 . 19 图 5-5 变频采集订阅模型结构示图 . 19 图 5-6 变频采集通知模型结构示图 . 20 图 5-7 基于事件驱动数据采集示例 . 20 图 5-8 ECA 策略管理模型剖析 . 21 图 5-9 ECA 模型结构图 . 23 图 5-10 ECA 策略管理典型案例 . 24 图 6-1 运维数据标记在 IP 智能运维场景下解决方案举例 . 25 图 6-2 变频采集在 IP 智能运维场景下解决方案举例 . 26 图 7-1 MDT 关键技术相关 IETF 标准工作汇总 . 28 表目录表 1 对象名举例 . 14 表 2 属性名举例 . 15 表 3 指标名举例 . 16 1 研究目标和应用场景 1.1 研究目标 ALL IP 化是未来网络和业务发展的趋势，随着 IP 化网络的规模和复杂度与日俱增 ,尤其是 IP 网络承载的应用越来越多 , 带宽和流量持续增长，越来越多的领域出现了对海量、高速到达的数据实时处理需求，如何从浩瀚的数据海洋中挖掘有用的知识变得尤为重要。与此同时，用户对 IP 承载网络的运维管理提出了更高的要求，包括监控数据拥有更高的精度以便及时检测和快速调整微突发流量，同时监控过程要对设备自身功能和性能影响小以便提高设备和网络的利用率。另一方面，随着应用容器化和微服务的兴起，借由 Docker 和 Kubernetes 等工具， IP 网络承载的服务的快速开发和部署成为可能，构建微服务应用变得越来越简单。但是随着大型单体应用拆分为微服务，服务之间的依赖和调用变得极为复杂。这些服务可能是不同团队开发的，可能基于不同的语言，微服务之间可能是利用 RPC、 RESTful API，也可能是通过消息队列实现调用或通讯。如何在这样的分布式环境下快速调试、追踪 IP 承载服务的处理耗时、查找服务性能瓶颈、合理对服务的容量评估都变成一个棘手的事情。本项目研究目标是从当前传统 IP 网络运维面临的问题和挑战出发，阐述管理面数据采集 IP 网络智能运维场景中的应用价值。本报告分析数据采集的分类，数据采集与人工智能，数字孪生，意图驱动网络的关系，数据采集技术现状和挑战，提出模型驱动数据采集三方管理关键技术，实现精准定向自适应数据采集，有效减少数据上送量，降低数据传输、存储、分析的成本 ,提供一种高价值、低成本、易对接的数据采集技术。 1.2 应用场景本研究报告提出的管理面数据采集方法是通用方法，可以采集不同类型网络设备，不同层的数据源（设备层、网络层，应用层），不同类型的数据源（配置，状态，转发表等），提供近实时、全程、全量数据监测、上送，并进行统一数据表达和呈现，构筑高价值的基础数据，可以应用于 IP智能网络运维 1-3-5主动运维场景 (1分钟故障感知、 3分钟故障定位、 5分钟故障修复 )，网络配置变更验证场景，网络参数动态调优等应用场景，也可以应用在分布式体系，微服务架构场景解决故障跟踪，服务质量评估问题。图 1-1管理面数据采集应用场景分类 2 国内外研究现状分析 2.1 IP 网络智能运维数据采集与人工智能、数字孪生、意图驱动网络的关系人工智能技术在 IP 承载网络应用之所以能取得突飞猛进的进展，得益于各类感应器和数据采集技术的发展，我们开始拥有以往难以想象的海量数据，人工智能是基于大数据采集技术的，运用于人工设定的特定性能和运算方式来实现的，大数据是不断采集、沉淀、分类等数据积累。数据采集技术是连接大数据积累到人工智能的重要纽带 ,是在线计算，在线分析的关键技术。如果把 IP 网络智能运维数据采集比作人的眼睛和耳朵，人工智能就是人的大脑。意图驱动网络是基于 SDN网络架构构筑一个闭环系统，通过高速大数据采集，掌握网络的实时运行状况并及时发现网络中的变化，确保用户意图和网络状态的高保真，做到 “ 网随意动 ” 。 IP 网络智能运维数据采集是构筑 SDN 网络闭环系统的必不可少的重要环节， IP 网络数据采集的精度和性能决定网络随意动的用户体验。数字孪生是因建模仿真技术而起、因传感技术而兴，并将随着新一代信息技术群体突破和融合发展而发展壮大。数字孪生是综合运用感知、计算、建模等信息技术，通过软件定义，对物理空间进行描述、诊断、预测、决策，进而实现物理空间与赛博空间的交互映射。目前数据孪生也在逐步向 IP 网络通信领域延伸 1，数字孪生中数据基础、数据模型驱动、软件定义三大要素在 IP 网络中赋予了新的含义。而数据基础依赖 IP 网络智能运维数据采集技术构筑强大的数据底座。 2.2 IP 网络智能运维数据采集技术分析 IP网络智能运维数据采集技术从数据源角度可以分为：日志数据性能数据配置数据状态数据告警事件数据 Web数据数据库数据 IP网络智能运维数据采集技术从采集精度和速率角度，可以分为秒级高速数据采集比如 Syslog日志分钟级低速数据采集比如 CLI， SNMP get 亚秒级高速数据采集比如流采集 streaming Telemetry IP网络智能运维数据采集技术从网络层，应用层角度，可以分为网络层数据采集比如 IETF定义的 YANG Push 订阅发布机制应用层数据采集比如 Opentelemetry12定义的跟踪 API，日志 API，性能指标 API. IP网络智能运维数据采集技术从数据平面，管理平面角度，可以分为数据面数据采集比如 IOAM （ In-situ OAM） 14， iFIT（ In-situ Flow Information Telemetry） 13随流检测管理面数据采集比如 YANG Push订阅发布机制， MDT（ Model-driven Telemetry）三方管理数据订阅机制 2.3 管理面数据采集技术研究现状 IP 网络智能运维管理面数据采集基础协议分为动态订阅，静态订阅两种模式，目前已经发布的标准主要是针对动态订阅场景，或者称为 Dial In（网管发起设备纳管） , 是网管发起订阅的采集： RFC86398提供了动态订阅场景下对数据流订阅和发布机制，实现一次订阅，多次发布 RFC86419提供了动态订阅场景下对数据集的订阅和发布机制 ; RFC8640 10和 RFC865011还为 IETF定义的订阅发布机制提供了 NETCONF， RESTCONF 传输协议支持。为了进一步实现静态订阅场景， IETF目前正在定义数据采集传输安全，可以广泛应用在 Dial Out(设备主动发起纳管流程 )场景，实现对 TLS， SSH， HTTPS 等传输协议安全参数的配置，目前传输安全标准已经稳定，即将进入标准发布环节。相比传统 SNMP网络设备数据采集方法， IETF基于模型驱动的管理面数据采集方法（比如动态订阅，静态订阅）实现了从网管系统发起查询的 PULL模式，到基于网络设备发起的主动 PUSH 模式转变，从分钟级的采集精度提高到秒级的精度。随着采集精度和广度的增加，也使得采集的数据有了上百倍的增加，但是采集精度不准确的情况，仍旧需要进一步优化 : 进一步提高采集的精度，比如亚秒级采集数据本地预处理，提高采集数据集中上送的有效性，在采集数据源头过滤无效采样数据采集数据快速响应，分布式本地快速处理，实现设备小闭环系统可以基于事件驱动 Telemetry上报 ,其中事件可自定义； 3 管理面数据采集在 IP 网络智能运维面临技术挑战和问题 3.1 海量数据采集和处理的挑战当前网络层管理面数据采集技术已经可以实现秒级，毫秒级数据采集精度，但是面对海量数据采集和处理， IP 网络智能运维管理平面仍旧面临巨大的挑战，比如数据上送通道负载过重，即使网络运维管理平面能够应对数据上送通道瓶颈的挑战，如何从海量数据挖掘高价值的特征数据，这是大数据采集面临的主要难点。图 3-1海量数据采集和处理 3.2 数据处理和存储的挑战相对于 SNMP（ 5分钟采集精度）数据采集，秒级，毫秒级网络层管理面数据采集，数据量成本增加了 100 倍，导致了分析器部署的成本压力非常大。为了应对这一挑战，在很多大规模 IP 智能运维数据采集应用场景，可以允许设备和分析器支持多个不同采样周期，但是如果总是设定为高频采集，高频采集对采集通道是一个巨大的压力，浪费了大量的处理器资源，如果总是设定为低频采集，采集的数据量有限，往往导致很多网络故障无法发现，定位和修复。图 3-2数据处理和存储挑战 3.3 集中管控面对网络事件快速响应的挑战在 IP 网络性能监控过程中，或者 IP网络故障跟踪管理过程中，当性能指标或者 IP网络故障指标超出网络预先设定的门限，网络设备会触发对网络事件的上报，这些 IP 网络事件往往上报给统一的集中管控平面，由统一的集中管控平面对上报的事件进行处理，触发响应的动作，该动作会进一步触发新的网络策略的下发。但是从事件上报到新的网络策略下发往往需要经历很长的处理时间，虽然能够实现对网络故障的闭环管理，但是往往很难实现对网络事件的快速响应，导致这一类的网管故障无法及时发现，恢复。图 3-3网络事件快速响应 4 管理平面 MDT 三方管理参考架构 MDT三方管理是运营商网管系统对接不同厂商设备，基于模型驱动数据采集机制实现对不同厂商设备的管理。为了应对管理面数据采集在 IP 智能运维中的挑战，本报告提出一套管理平面 MDT 三方管理参考架构，如图 4-1所示。该架构主要由设备平面，管控平面，网络运维管理应用平面三部分组成：设备平面：包含数据存储层，数据建模层，数据生产层，数据输出层。数据存储层可以支持不同设备，不同版本，不同种类的数据源数据建模层对 IETF YANG模型， Openconfig YANG, Native YANG的建模数据生产层提供自动标记，自动变频采样，自动数据预处理能力通告，自动能力通告支持数据输出层支持二进制， XML, JSON不同数据编码格式，支持 TCP， UDP,GRPC,安全传输不同传输的支持 ; 管控平面：包含采集器层，采集管理层，分析器层采集器层实现对指定数据订阅，对设备发布数据的接收 ; 采集管理层实现对数据的存储以及对设备采集的配置管理分析器层实现对数据加工包括过滤，压缩，关联，推理分析。网络运维管理应用平面：多种第三方运维应用，例如可视化运维应用及网络调优等图 4-1 MDT三方管理架构模型驱动的数据采集是基于 YANG 模型对数据采集对象，网络的配置和状态进行建模设计，根据模型自动化工具生成数据采集的 API，实现对 YANG 模型建模对象的采集。管控平面和设备平面之间，通过模型驱动数据采集三方管理协议机制，支持：基于运维数据标记，提供精准数据采集基于不同数据质量，实现高频，低频变频数据采集基于 Event驱动，提供事件驱动数据采集 ; 5 MDT 三方管理数据采集关键技术 5.1 运维数据自动标注技术研究图 5-1 OPM 模型剖析运维数据自动标记主要的思想是对运维管理数据进行分类，从特征数据角度，将其分为对象，属性，指标三类特征数据（见图 5-1） ; 对象是特性中的实体对象，每个特性至少一个根对象，每个对象归属唯一服务 ; 属性是对象的属性，一个对象可以有多个属性，也可以没有属性（如容器类对象） ; 指标是对象的指标，每个指标归属到一个唯一服务 ; 关系是各 OPM元素之间的关系，允许跨特性，如果没有，可以不必定义关系。特性是一组相关对象、属性、指标的集合，特性划分与服务实现划分解耦，服务划分变更时， OPM模型可以保持稳定，仅涉及服务归属变化。以下表 1，表 2，表 3分别给出对象，属性和指标的举例说明。表 1对象名举例表 2属性名举例表 3指标名举例除此以外，运维数据自动标记还可以对运维管理数据从其他角度进行分类，比如 1. 对于性能指标数据，操作类型标记可以用来对 KPI 性能指标标识最大值，最小值，平均值，求和，阈值常量，精度范围，取值范围 ; 2. 数据源标记可以将运维管理数据按照数据源划分为资源类数据，连接类数据，策略类数据， QoS 类数据，硬件类数据 ; 3. 业务标记可以将运维管理数据按照业务类型划分为隧道业务类型数据， L3VPN业务类型数据， L2VPN 业务类型数据 ; 4. 任务标记可以将运维管理数据按照任务类型划分为故障诊断任务数据，业务发放任务数据，业务保证任务数据 ; 5. 多源汇聚标记可以将运维管理数据，主要是性能指标 KPI 数据按照多源汇聚类型分类，划分为成员和汇聚两种类型 ; 运维数据自动标记定义在 IETF标准草案 2。针对运维数据自动标记 , 2定义了一种数据节点标记 YANG模型，该模型基于 YANG Extension Statement定义了 9种不同的运维数据标记，分别代表性能指标标记，操作类型标记，指标精度标记，指标范围标记，指标组标记，业务标记，任务标记，多源汇聚标记，数据源标记。同时，允许对 9种不同类型的标记进行标记管理，允许用户在模型设计阶段，或者模型实现部署阶段添加运维数据标记，同时用户自由的从设备中删除设备模型中定义的数据节点标记，另外 9种标记不必同时支持 ; ietf-data-object-tags 模型是基于 ietf-module-tags 模型基础上，扩展支持对数据节点标记对象的增加和删除，具体模型结构如下：图 5-2运维数据标记模型结构示图该报告以 example-ifm模型举例，介绍如何用数据节点标记模型中定义各类运维数据标记对 example-ifm模型中的特征数据进行标注： module example-ifm /. import ietf-data-node-tags prefix ntags; container interfaces ntags:opm-tag “ ietf:object-type”; list interface leaf ifName type pub-type:ifName; ntags:opm-tag “ietf:property”; leaf ifStatiEnable type boolean; container ifStatistics ntags:opm-tag “ietf:metric”; leaf receiveByte type uint64; ntags:operation-type “ietf:sum”; 从这个举例可以看到， example-ifm 模型引用了 ietf-data-node-tags 模型，基于 ietf- data-tag模型中定义的 OPM 标记和 operation-type标记对 example-ifm中接口对象，接口名称属性，接口统计进行标记，同时标记统计参数的操作类型 ; 为了在厂商之间形成一套统一运维数据标记标准， draft-tao-netmod-yang-node-tag2对运维数据标记格式进一步进行定义，比如运维数据标记采用 “ietf: ” 前缀代表 IETF 定义的前缀，运维数据标记采用 “vendor: ” 前缀代表 vendor 定义的前缀，运维数据标记采用 “user: ” 代表用户定义的前缀。以下表格给出了 IETF定义，采用 “ietf: ” 前缀的运维数据标记：图 5-3 IETF定义运维标记分类 5.2 自适应变频采集技术研究目前网络层数据采集技术支持周期数据采集和增量变化数据采集两种方式，周期数据采集需要在采集器和网络设备协商固定的周期订阅采集周期，一旦选定采集周期，数据采集将按照固定采集频率进行数据采样，而增量变化数据采集，是在采集对象状态发生变化或者对采集对象的操作类型（比如增加，删除，修改）发生变化时，触发变化数据上送，或者变化操作类型上送。当数据变化非常频繁时，对数据上送通道将是一个巨大的负载挑战。变频采集假设采集器和网络设备支持多个采集周期，并可以不同的条件满足情况下，切换到不同的采集周期，当采集周期切换时，网络设备会立即通知采集器周期发生变化。典型的应用场景是 WLAN网络性能监控场景（如图 5-4）， WLAN 信号强度 RSSI比较高的情况下（比如大于 -65dB），一般网络质量是稳定的，可以采用低频采集 (比如数据上送周期设为低频 60s)，少采一些数据； WLAN信号强度 RSSI比较弱的情况下 (比如小于 -65dB)，如果采集的数据不够的话，很难进行故障定位，所以在 WLAN信号弱时，可以采用高频采集 (比如数据上送周期设为高频 10s)，多采一些数据。图 5-4 WLAN性能质量监控场景下数据采集策略定义举例为实现变频数据采集，需要设计变频数据采集订阅策略，订阅策略包括采集周期，上报周期，条件表达式，条件表达式关联的采集对象，采集对象阈值几部分组成，针对每一个条件表达式可以设置一个采集对象阈值（也可以看成水线），以及对应的采集周期和上送周期，上送周期是采集周期的整数倍。变频采集订阅策略是基于 IETF定义的 YANG Push定义发布模型所做的扩展，在支持周期订阅和增量订阅同时，增加了一种新变频采集订阅，具体模型设计如下图 5-5 变频采集订阅模型结构示图当网络设备完成采集周期切换，网络设备需要触发采集周期变化通知上报，具体模型设计如下：图 5-6变频采集通知模型结构示图从采集周期变化通知看，该通知内容包括变化后的采集周期 (period)，上送周期 (anchor- time)，以及变化后采集周期影响的数据集中的数据对象 (datastore+selection filter); 5.3 基于事件驱动的订阅数据采集技术研究基于事件驱动的订阅数据采集主要是监控和跟踪特定采集对象状态的变化，当采集对象的状态变化满足一定条件的情况下，可以出发不同的动作，实现设备自组织管理，比如自我监控，满足一定条件的情况下，实现满足条件的采集对象集合对象的状态上报，进一步也可以触发设备对故障的自我管理，实现故障的自愈，但只局限于设备级的故障事件的修复。图 5-7基于事件驱动数据采集示例 draft-wwx-netmod-event-yang-09 草案 3提出 ECA模型，该模型对策略变量，事件，条件，触发动作进行建模，策略变量是指定跟踪的采集对象，策略变量可以用来表达事件，满足条件，触发动作，分为策略变量源，策略变量结果，策略变量源可以是指定采集对象的 XPATH路径，也可以是常量，或者矢量数组结构体，策略变量结果可以是常量，或者是矢量数组结构体，事件对象包括几类事件，比如数据集事件，由数据集名，数据对象路径两部分组成，服务器事件，由事件流，对应的 YANG 模型名称，对应的事件对象组成，另外还可以是定时器事件，可以用来制定采集周期，故障诊断事件，可以用来调试对应设计的标准 API函数，条件，用来表达被跟踪的采集对象所满足的条件，比如网络拓扑对象 T中对应链路 L所对应的 TE Metric大于 100，可以表达为： /nw:networks/nw:networknetwork-id=T/nt:linklink-id=L/tet:te /tet:te-link-attributes/tet:te-delay-metric 100 比如网络拓扑对象 T中对应链路 L所分配的带宽大于策略变量 B的 75%，可以表达如下： /nw:networks/nw:networknetwork-id=T/nt:linklink-id=L/tet:te /tet:te-link-attributes/tet:max-resv-link-bandwidth (ietf-eca:policy-variables/policy-variablename=B/value) * 0.75 动作目前支持两种动作，一种是事件通知上报，另一种是采集周期切换或者选择； ECA 策略管理由事件，条件，动作三要素共同组成。图 5-8 ECA策略管理模型剖析 ECA 模型结构如下所示： module: ietf-eca +-rw gncd +-rw policy-variables | +-rw policy-variable* name | +-rw name string | +-rw (xpath-value-choice)? | +-:(policy-source) | | +-rw (pv-source) | | +-:(xpath-expr) | | | +-rw xpath-expr? yang:xpath1.0 | | +-:(scalar-constant) | | | +-rw scalar-constant? string | | +-:(nodeset-constant) | | +-rw nodeset-constant? | +-:(policy-result) | +-rw (pv-result) | +-:(scalar-value) | | +-rw scalar-value? string | +-:(nodeset-value) | +-rw nodeset-value? +-rw events | +-rw event* event-name | +-rw event-name string | +-rw event-type? identityref | +-rw policy-variable* - /gncd/policy-variables/policy- variable/name | +-rw local-policy-variable* - /gncd/ecas/eca/policy-variable/name | +-rw (type-choice)? | +-:(server-event) | | +-rw event-stream? string | | +-rw event-module? string | | +-rw event? | +-:(datastore-event) | | +-rw datatore? string | | +-rw data-path? string | | +-rw data? | +-:(timer-event) | | +-rw time-schedule! | | +-rw period? centiseconds | | +-rw count? uint16 | +-:(diagnostics-event) +-rw conditions | +-rw condition* name | +-rw name string | +-rw (expression-choice)? | +-:(xpath) | +-rw condition-xpath? string +-rw actions | +-rw action* name | +-rw name string | +-rw action-element* name | | +-rw name string | | +-rw action-type? identityref | | +-rw (action-operation)? | | +-:(notify-operation) | | +-rw notify-operation | | +-rw name? string | | +-rw policy-variable* name | | +-rw name string | +-rw time-schedule! | +-rw period? centiseconds | +-rw count? uint16 +-rw ecas | +-rw eca* name | +-rw name string | +-rw username string | +-rw event-name string | +-rw policy-variable* name | | +-rw name string | | +-rw (xpath-value-choice)? | | | +-:(policy-source) | | | | +-rw (pv-source) | | | | +-:(xpath-expr) | | | | | +-rw xpath-expr? yang:xpath1.0 | | | | +-:(scalar-constant) | | | | | +-rw scalar-constant? string | | | | +-:(nodeset-constant) | | | | +-rw nodeset-constant? | | | +-:(policy-result) | | | +-rw (pv-result) | | | +-:(scalar-value) | | | | +-rw scalar-value? string | | | +-:(nodeset-value) | | | +-rw nodeset-value? | | +-rw is-static? boolean | +-rw condition-action* name | | +-rw name string | | +-rw condition? - /gncd/conditions/condition/name | | +-rw action? - /gncd/actions/action/name | +-x start | +-x stop | +-x next-action +-rw eca-func-libs +-rw eca-function* func-name +-rw func-name string +-rw eca* eca-name +-rw eca-name - /gncd/ecas/eca/name 图 5-9 ECA模型结构图下面举一个 ECA 策略管理的典型案例，比如监控 ietf-interfaces 模型中接口对象，每 5 秒钟扫描指定类型的接口上的收到的错误计数器统计信息，连续扫描 60秒，当满足特定条件时，返回匹配条件的接口统计条目信息： ECA策略设计如下，该策略由网管下发给制定的网络设备 event-name interface-self-monitoring event-type server-event event-stream NETCONF event-module ietf-interfaces event if:interfaces/if:interfaceif:type=if:gigabitEthernet interface-self-monitoring server-event NETCONF ietf-interfaces if:interfaces/if:interfaceif:type=if:gigabitEthernet if-monitoring-condition event/statistics/in-errors 1000 if-matched-statistics 5 12 interface-eca-handling interface-self-monitoring sustained-event if-monitoring-condition if-matched-statistics sustained-event interface-eca-handling 图 5-10 ECA策略管理典型案例 6 IP 网络智能运维场景 MDT 三方管理解决方案 6.1 运维数据自动标注方案举例图 6-1 运维数据标记在 IP智能运维场景下解决方案举例 1.基于 IETF 定义的运维数据标记标准 2，对已经部署的设备 YANG模型比如 BGP 模型，接口管理模型， IP 地址管理模型定义运维数据标记，标识运维数据的性能指标 ; 2.基于 IETF 定义运维数据标注服务器能力通告技术 7，对性能指标相关的采集对象进行能力通告 3.采集器根据 RFC8641 定义的订阅发布机制，对性能指标相关的数据采集对象进行定向数据采集 4.多指标，多维数据上报 6.2 变频采集方案举例图 6-2 变频采集在 IP智能运维场景下解决方案举例 1. 基于 IETF定义数据传输服务器能力通告技术 6，对指定采集对象具有的阈值处理功能，以及那些采集对象支持多个采集周期进行通告 ; 2. 采集器根据数据传输能力通告编排变频数据采集订阅策略； 3. 采集器根据 RFC8641定义的订阅发布机制，通过对动态订阅消息扩展，下发变频采集订阅策略 4. 当设备切换采集周期时，设备自动生成采集周期变化通知消息，上送给网管； 5. 当设备采集周期确定情况下，按照固定采集周期方式，实现数据上送 ; 6.3 事件驱动的订阅数据采集案例图 6-3 事件驱动的订阅数据采集在 IP智能运维场景下解决方案举例 1. 基于 IETF定义数据传输服务器能力通告技术 6，对指定采集对象具有的阈值处理功能，以及那些采集对象支持多个采集周期进行通告 ; 2. 采集器根据数据传输能力通告编排 smart filer 数据采集策略 ; 3. 采集器基于 ECA模型 3下发 smart filter 策略规则 ; 4. 当 smart filter 采样条件匹配时，实现匹配条件数据上送。 7 总结和后续工作展望 7.1 当前研究总结本文从技术应用的角度对数据采集在 IP 智能运维场景方面的应用进行研究和思考。首先阐述了数据采集的目标和应用，接下来对国内外研究的现状做了分析，然后探讨了管理面数据采集面临的挑战和难点，提出了 MDT三方管理参考架构，具体阐述了运维数据自动标注关键技术，变频数据采集，基于事件驱动的数据采集关键技术。最后，给出了运维数据自动标注，变频数据采集在 IP 智能运维场景应用的解决方案案例。 7.2 后续工作展望图 7-1 MDT关键技术相关 IETF标准工作汇总本文从具体应用场景的实际情况阐述了数据采集在 IP 智能运维方面能够起到的作用，可以看出对网络智能运维而言， MDT三方管理数据采集对实现高价值数据采集，减少数据上送，以及实现跨厂商对接起到至关重要的作用。但是，本文中列举的案例，对于数据传输服务器能力通告，运维数据标记能力通告，批处理订阅数据采集， ECA在自愈场景下的应用未展开描述。建议本组的下一步工作可以在以上方面进行展开研究。 8 参考文献 1 Zhou, C., Yang, H., and X. Duan, Concepts of Digital Twin Network, draft- zhou-nmrg-digitaltwin-network-concepts-00 (work in progress), July 2020. 2 Wu, Q., Claise, B., Geng,L., and Z. Du, Self Explanation Data Object Tags,draft-tao- netmod-yang-node-tags-05 (work in progress), July 2020. 3 Bierman, A.,Wu, Q., Bryskin,I., Birkholz,H.,Liu,X., and B. Claise, A YANG Data model for ECA Policy Management,wwx-netmod-event-yang-09 (work in progress), July 2020. 4 Wu, Q., Wei,S., Liang,G., and P. Liu, Adaptive Subscription to YANG Notification,draft- wang-netconf-adaptive-subscription-01 (work in progress), July 2020. 5 Wang,Z.,Wu, Q., Liu,P., and H. Cai, Bulk Subscription to YANG Event Notification,draft-wang-netco

展开阅读全文