数据中心自动驾驶网络白皮书.pdf

返回 相关 举报
数据中心自动驾驶网络白皮书.pdf_第1页
第1页 / 共32页
数据中心自动驾驶网络白皮书.pdf_第2页
第2页 / 共32页
数据中心自动驾驶网络白皮书.pdf_第3页
第3页 / 共32页
数据中心自动驾驶网络白皮书.pdf_第4页
第4页 / 共32页
数据中心自动驾驶网络白皮书.pdf_第5页
第5页 / 共32页
亲,该文档总共32页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据中心自动驾驶网络白皮书 01 数据中心自动驾驶网络白皮书 目录 目录 CONTENTS 1 自 动驾驶网络的产生背景和驱动 力 1.1 数 据中心网络的挑 战 1.2 数 据中心网络的机 遇 1.2.1 人 工智能驱动的网络保 障 1.2.2 数 学验证技术的引 入 1.2.3 意 图驱动网络的发 展 1.3 业 界在积极行 动 1.3.1 行 业领导者大力规划实践网络自动驾 驶 1.3.1 TOP标准组织积极推动网络自动驾驶标 准 2 华为自动驾驶网络战略解读 3 华为数据中心自动驾驶网络方案 3.1 整体解决方案 3.2 意 图决策 模块 3.3 自 动化 模块 3.4 仿 真验证 模块 3.5 分 析 模块 3.6 数 字 仓库 3.7 用 户 体验 4 华为数据中心自动驾驶网络典型应用场景 4.1 规建环节:规划设计仿真并自动验收 03 03 04 04 05 05 05 06 08 08 11 12 13 15 16 16 19 19 04 04 02 数据中心自动驾驶网络白皮书 目录 目录 CONTENTS 4.2 维 护环节:自动翻译业务意图,自动验收,异常回 退 4.3 维护环节:网络变更意图 buildin, 异常快速回 退 4.4 维护环节:基于意图的网络监控,实现故障闭 环 4 华为数据中心自动驾驶网络典型应用场景 21 24 26 29 03 01 自 动驾驶网络的产生背景和驱动力 数据中心自动驾驶网络白皮书 自 动驾驶网络的产生背景和驱动力 过去十多年来 , 数据中心无论在技术还是部署上都在极速发展 , 日新月异 。 粗略可以将其划分为三个阶段: 第 一阶段是以数据中心大集中 ( Data Center Consolidation) 为主的 DC 1.0,对应的网络是传统的二层架构 STP+VLAN。 第 二阶段是以利用资源虚拟化 ( Virtualization) 和服务动态管理 ( Dynamic Service Orchestration) 为手段 , 提升 资源共享利用率和资源部署灵活度的 DC 2.0, 网络架构演进到全互联的 Overlay架构 。 上 述两个阶段技术上最大的分野为云计算技术的日趋成熟和大批量部 署 第 三阶段是为适应智能化时代所带来的业务量爆发性增长而产生的 DC3.0, 最大的特点是超大规模和分布式多地多中心 , 容器 、 RDMA等各种新技术都在应用中 , 网络架构的智能化要求也越来越高 。 总结数据中心的发展趋势 , 可以看出数据中心发展始终以支撑业务发展为中心 , 以开放性 、 高容量 、 易扩展 、 成本可控和 安全稳定为要求 , 最终实现业务弹性适配 、 应用快速部署 、 信息互通共享 、 系统分布扩展和负载灵活调度等各种能力的不 断提升 。 这些发展趋势对数据中心的规模 、 成本 、 规划设计 、 部署建设 、 维护优化 、 运营管理等各个方面都产生了巨大影响和全新 要求 。 面对这些新要求 , 当前的数据中心运营管理方案显得力不从心 。 产业界普遍达成共识 , 寻求建立一套更加高度智能 化的网络管理方案来应对 。 通过将人工智能 、 数学验证及意图驱动网络等关键核心技术和理念的引入 , 我们针对数据中心构建了一套自动驾驶网络方 案 , 围绕全面智能化和自动化的终极目标进行阶段式迭代发展 , 逐步演进到全面智能自治的数据中心网络 。 1.1 数 据中心网络的挑战 大 企业和运营商面临管理大规模网络的诉求 , 仅靠人工管理很难满足要求 , 需要引入网络自动化管控系统 , 自动化配置 和编排大规模网络比人工操作更安全 、 高效 。 企 业数字化转型对网络敏捷性 、 可用性等需求日益增加 , 网络变更频繁 , 传统运维方式无以为继 , 急需自动化管控系统 能够在网络运行中实时验证网络设计实现状况 、 及时发现故障 , 减少业务中断时间 。 云 应用会跨越异构 /多云的基础设施部署 , 但需要提供一致的网络服务 , 这就解决异构环境之间网络管理问题 , 使得用 户能够完成以业务意图为导向的统一管控 。 同时 , 屏蔽基础设施层不同设备差异以及各种私有接口 , 进一步地解除厂商 绑 定 。 企业投入成本受限 , 当前 OTT对传统行业冲击巨大 。 企业面临巨大竞争压力 , 内在要求提升效率 。 网络投资也会受投入 产出限制 , 降低 OPEX压力越来越大 , 那么如何降低人工成本 、 提升网络性能成为 CIO必须首要解决的问题 。 04 自动驾驶网络的产生背景和驱动力 企 业投入成本受限 , 当前 OTT对传统行业冲击巨大 。 企业面临巨大竞争压力 , 内在要求提升效率 。 网络投资也会受投入 产出限制 , 降低 OPEX压力越来越大 , 那么如何降低人工成本 、 提升网络性能成为 CIO必须首要解决的问题 。 1.2 数据中心网络的机遇 1.2.1 人工智能驱动的网络保障 人工智能是一个研究领域 , 它能赋予机器如人类般的智能 。 当今网络所产生的海量的配置 , 状态 , 告警 , 日志等运维数据 呈指数型增长 , 数以万计甚至千万计的运维指标远远超出了运维人员可以有效利用的范围 , 监控阈值不合理或者 “ 报警风 暴 ” 甚至对故障的判断产生巨大干扰 , 人工智能技术为更好地利用网络产生的数据提供了一种可能性 。 当前 , 基于人工智 能技术对网络数据的分析 , 能够了解网络环境的复杂性 , 在网络故障发现 , 根因定位 , 网络资源预测等领域已经有了很多 应用 , 显著提升了网络运维的效率 。 人工智能在网络运维领域的应用已经得到业界的广泛认可 , Gartner预测 , 电信业整体 AI市场将以 48.8%的年复合增长率从 3.157亿美元到 2025年增至 113亿美元 , 电信运营商主要将 AI用于网络运营监控和管理 , 此期间这方面支出将占到电信业 AI支出的 61 。 数据中心自动驾驶网络白皮书 1.2.2 数学验证技术的引入 数学验证技术又称为形式化验证 , 含义是根据某个或某些形式化规范或属性 , 使用数学的方法证明其正确性或非正确性 。 形式化验证方法通过严格的数学证明保证程序行为与预期一致 , 已经广泛应用于正确性要求极高的领域如无人机 、 航天器 、 操作系统等的程序正确性验证 。 在数据中心网络承载关键应用的金融行业 , 断网的损失高达 6.89M美元每小时 , 而 Gartner 统计 40%的网络事故是由于人工配置错误导致 , 因此网络配置的正确性的要求越来越高 , 使用形式化验证方法 , 可以将网络 的配置文件信息和所要验证的预期属性如网络节点间的可达性 , 隔离性 、 路径信息 ( 必经节点 ) 、 路由黑洞 , 均转换为一 系列逻辑公式 , 使用数学求解器进行求解 , 这个方法称为网络变更仿真 , 可以最大程度的降低配置 出错的 概率 , 提升数据 中心网络的可用性 。 1.2.3 意图驱动网络的发展 意图驱动网络是一种在掌握自身 “ 全息状态 ” 的条件下 , 基于人类业务意图 , 借助人工智能技术进行搭建和操作的闭环网 络架构 。 意图网络的概念最早由 ONF在 2015年 2月提出 。 2017年 2月 , Gartner发布报告定义了基于意图的网络系统 , 并预言 意图网络系统是网络领域的 “ 下一件大事 (The next big thing)” , 预计到 2020年底 , 1000+企业将部署意图网络系统 。 意 图网络的目标是网络提供服务能力的进一步增强 , 以近似于人类语言的方式操作网络 。 根据定义 , 意图构成了全网范围的 声明性 ( declarative) 策略 , 人类操作员定义的是预期 , 而网络计算出可满足要求的解决方案 。 在数据中心领域 , 存在大 量异构的设备和多云环境 , 意图驱动网络能够屏蔽这些差异 , 使网络管理员能够更为专注业务诉求 。 另外意图网络是一个 闭环系统 , 这里面有两层含义 , 第一是网络的不断变化不影响已下发的意图 , 第二是如果监控发现意图不满足 , 系统需要 主动进行调整以确保意图 不受影 响 。 05 自动驾驶网络的产生背景和驱动力 1.3 业界在积极行动 1.3.1 行业领导者大力规划实践网络自动驾驶 金融: 工商银行:工商银行全面布局 AIOps智能运维建设 , 逐步打造 “ 智慧运维 ” 新生态 。 在数据中心领域 , 工商银行于 2017年下 半年建立了面向数据中心大规模集群的云运维体系 , 提升云上应用自动化 、 精细化的运维水平 , 为智能运维的实施提供有 力抓手 , 后续将进一步深化 、 推进智能运维建设 , 打造银行业智慧运维 , 向无人化运维的终极目标持续逼近 , 助力工商银 行建设 “ 智慧 、 开放 、 共享 、 高效 、 融合 ” 的智慧银行信息系统 , 数据中心网络的自动驾驶是其中重要的组成部分 。 运 营商 : 中国联通:提出智能网络战略 CUBE-AI, 意在以创新技术助力网络智能化和业务智能化的发展 , 聚焦 5G+AI、 网络智能运维 及行业创新 , 形成网络人工智能典型应用 , 迈向网络自动驾驶 中 国电信:发布 CTNET2025网络架构白皮书 , 全面启动了网络智能化重构 , 从目前按需 、 自助 、 弹性的网络服务向自动化闭 环 、 意愿驱动的网络组织演变 。 短期目标减少业务发放时间 50%-90%, 减少中断次数 50%。 数据中心自动驾驶网络白皮书 1.3.2 TOP标准组织积极推动网络自动驾驶标 准 TMF:发布 自治网络:为电信行业数字化转型赋能 白皮书 , 首次定义了网络自动驾驶的分级标准 , 数据中心网络是 其认为最适合首先落地自治网络 ( Automonous networks) 的领 域 ETSI:成立 ENI ( 可体验的智能网络 ) 和 ZSM( 0 接触的网络和业务管理 ) 工作组 , 专门研究网络智能化 , ENI在 2017年 2月成立 , 其目标是定义一个感知 -适应 -决策 -执行控制模型的体验式感知网络管理架构 , 通过人工智能技术提升 客户在网络部署和操作方面的体验 。 其核心理念是网络感知分析 , 数据驱动决策 , 基于 AI的闭环控制 。 当前已发布网络 智能分级 1.0, 正式发布写入了数据中心网络智能的分级标 准 GSMA: 发布 AI使能网络自动化 ( AI 6) 用户确认仿真结果可达预期后 ,进行业务的下发;网络配置下发完成后 , 先下发业务监控的配置 , 然后模拟流量进行拨 测 , 反馈结果; 7) 当 监控到业务出现异常时 , 触发故障闭环系统 。 23 4.2.5 价值 华 为数据中心自动驾驶网络典型应用场景 数据中心自动驾驶网络白皮书 实现意图驱动的网络配置 , 隐藏网络的实现细节 , 屏蔽多厂商的差异 , 业务开通更敏捷 , 网络操作更简单 。 如上图所示 , 传统典型业务开通耗时 35天且易出错 , 使用 iMaster NCE-Fabric以后 , 耗时 10分钟且无配置类故障 。 专家设计 网络及评估,耗时 35天 40% DCN 故障来自人为 错误 智能理解 业务意图、评估和验证, 耗时 10分钟 0 DCN 配置类故障 提升效率 降低故障 降低技能 业界 SDN:业务发布自动化部署,变更易出错 iMaster NCE-Fabric:全流程自动化部署,配置零差错 意图 自规划 意图 自仿真 业务自 校验 配置 自下发 投入 200+人天 /月 忙于网络设计和变更 约 40%故障 由人为配置错误引起 60+次 /年 临时扩缩容 应对电商促销突发巨流 配置 下发 业务 验证 10分钟 12天 自动 手工 金融 互联网 大企业 网络部 网络部 网络 设计 23天 手工 业务部 网络部 网络 设计工单 Leaf1 Leaf2 Leaf3 Leaf4 Leaf5 Leaf6 Spine1 Spine2 ! Leaf1 Leaf2 Leaf3 Leaf4 Leaf5 Leaf6 Spine1 Spine2 BANK Leaf1 Leaf2 Leaf3 Leaf4 Spine1 Spine2 意图翻译 意图 仿真 配置下发 配置校验 24 华 为数据中心自动驾驶网络典型应用场景 4.3 维护 环节:网络变更意图 buildin, 异常快速回退 4.3.1 场景介绍 网络人员结合现网业务和网络状态 , 制定网络变更方案 ( 硬件替换 、 软件升级 、 路由切换等 ) 并实施 。 网络 变更 意图 网络变更结果反馈 与客户等相关方协商的时间窗 意图决策模块 iMaster NCE-Fabric 自动记录回退 业务验收用例 故障验收用例 比对 还原 变更方案 仿真验证模块 仿真验证 自动化模块 变更实施 仿真验证模块 校验测试 异常回退 自动化模块 人工快照回 滚 定时快照 人工回滚 自定义意图 API编程:自定义 API API编程:自定义 API 端口替换 设备替换 批量升级 批量补丁 定期修改密码 路由维护 极致扩容 设备下线 DFS组 出口配置 内置 TOP5 内置 TOP10 变更意图1 2 3 4 5 6 数据中心自动驾驶网络白皮书 4.3.2 痛点 网 络变更时间窗短 , 变更效率要求高 , 当前大部分变更为手工操作 , 耗时长 ( 小时级 ) ; 网 络变更风险高 , 操作失误易导致现网业务中断 , 手工进行回退操作无法保证 100%准确 , 变更导致的网络中断 , 恢复的 时间一般为小时级 ; 网 络变更操作涉及的设备操作多 , 系统 build in能力难以全覆盖 ; 不同于业务发放阶段的网络操作 , 网络变更是网络人员主动发起的维护操作 , 一般是硬件替换 , 软件升级 , 路由切换 , 网 络扩容等设备级批量操作 。 iMaster NCE-Fabric提供意图驱动的网络变更操作体验 , 内置数据中心的常用 TOP10变更操作 , 其他的操作可以通过开放编程快速适配 。 4.3.3 方案 1、 意 图决策模块根据变更意图分解为变更方案 , 变更方案具体到哪些设备进行哪些操作 , 意图决策模块将这些操作输入到 仿真验证模块进行仿真 ; 2、 仿 真验证模块呈现结果 , 用户确认后 , 自动化模块进行变更的实施 。 如仿真验证结果不符合预期 , 可进行手工调整 , 确 保网络变更符合预期 。 3、 变 更完成后 , 仿真验证模块的事后验收部件进行业务的拨测验收并呈现结果 。 如果测试结果不符合预期 , 自动化模块提 供异常回退功能 , 可以是回滚到之前用户的快照 , 或者是用户选择系统自动记录的快照 , 以确保异常情况下系统能够快速 回到变更前的状态 。 4.3.4 价值 实现变更操作的可靠性仿真和操作的自动化 , 提升变更操作的效率 , 数据中心的常见网络变更时间由小时级优化到分钟级 , 同时支持发现异常后的配置快速回退 , 最小化变更失败导致的业务中断时长 。 以数据中心场景的出口扩容场景来看 , 效果 如下图 25 华为数据中心自动驾驶网络典型应用场景 数据中心自动驾驶网络白皮书 TOBE:网络变更意图内置,事前仿真,事后验证,异常回退AS-IS:人工规划,人工操作、人工验证、出错率高 编制 会审 扩容 方案 设备 上 电 设备基 础 配置 Underlay 连通性 验证 1天 1小时 1小时 NCE纳管 设备 加入 Fabric 变更 意图 10秒 变更 方案 出口 配置 自动 下发 扩容 建议 1分钟 异常 回退 方案 审视确认 新增一对出口( border leaf) , 接入 内 网 验证结果审视: Y 1小时 Border leaf 上 的出口配置 1小时 验证和内 网 的 连通性 1小时 验证 失败 手工 回滚 1小时 10秒 设备上电 10秒 10秒 新增一对出口( border leaf) 接入 内网 4.4 维护 环节:基于意图的网络监控,实现故障闭环 4.4.1 场景介绍 用户完成网络配置下发或网络变更后 , 对网络运行状态进行例行监控 , 发现网络故障或性能下降时 , 进行问题定位 、 故障 修复及修复后验证 。 26 华为数据中心自动驾驶网络典型应用场景 数据中心自动驾驶网络白皮书 智能分析模块 重保业务、客户等诉求 新意图创建 , 自动 生成监 控任务 iMaster NCE-Fabric 意图决策模块 监控任务 健康 度 异常识别 问题定界 根因 定位 意图决策模块 生成修复方案 意图决策模 块仿真评估 自动化模块 业务恢复操作 仿真验证模块 业务验证 1 2a 2b 3 4 85 6 7 自动验收 业务验收用例 故障验收用例 闭环 动作 固定规则 机器学习、智能决策 需要人确认 4.4.2 痛点 数 据中心网络复杂 , 设备多 , 发生网络故障时 , 传统运维方式下依赖人工对设备的大量告警进行分析 , 问题的定界和定 位通常需要数小时 。 修复预案靠人工判断后根据经验给出并经过专家评审 , 准确率只有 70%左右 , 无法保证修复操作 100%准确 。 故障修复需要人工操作 , 效率低 , 耗时长;平均处理一次故障需要 5个小时 。 修 复执行后需要人工验证故障是否闭环 , 验证点多 , 效率低;验证业务耗时可达小时级甚至天级 iMaster NCE-Fabric, 可以根据用户主动下发的监控规则和意图 , 在业务创建时自动生成监控任务 , 实时检测网络异常情 况 、 进行根因定位 , 输出问题根因 、 自动修复和验证 。 目标是实现故障的 1分钟发现 , 3分钟根因定位 , 5分钟自动闭环 , 简 称 1-3-5故障闭环 。 27 4.4.3 方案 1、 意图决策模块在网络配置下发或网络变更时根据业务意图自动创建监控任务 ( 用户可以查看或自行创建监控任务 ) 。 2、 意图决策模块将监控任务下发到智能分析模块 , 通过实时和离线计算 , 对采集上来的 TCP流 、 Telemetry性能 Metrics进 行大数据分析 , 并结合基线异常检测 、 多维度聚类分析等 AI算法 , 基于设备 、 网络 、 协议 、 Overlay及业务五层模型对象主 动感知 Fabric内的健康度并发现可能存在的故障 , 智能分析识别是否存在网络或者应用的群体性故 障 。 华 为数据中心自动驾驶网络典型应用场景 数据中心自动驾驶网络白皮书 健康度五层评估模型 网络知识图谱 28 3、 华为根据 30+年运维经验和数千客户故障案例 , 梳理 75+故障 Case, 覆盖 85%故障场景 。 一方面 , 分析平台持续开展数据 中心攻防演练进行故障知识的积累和定位效率的提升 , 另一方面通过 AI学习推理构建出网络知识图谱 。 进一步的 , 当分析 模块发现故障后 , 根据故障传播的知识图谱进行根因分析 , 在问题根因确定后 , 将其上报给意图决策模块 。 4、 意图决策模块需要根据故障根因生成修复预案 。 这个过程有两种方法: 对于闭环动作明确的故障采用固定规则 , 即根 因到预案的映射是系统内置的固定规则; 对于闭环动作不明确的故障采用机器学习智能决策技术 , 根据用户历史选择的 修复预案和效果进行智能推荐 。 5、 预案生成以后 , 经过仿真验证模块进行仿真评估 , 并将仿真结果呈现给网络维护人员 , 并由维护人员选择修复预案交给 自动化模块执行 。 6、 修复预案执行后 , 由仿真验证模块确认闭环效果 。 华 为数据中心自动驾驶网络典型应用场景 数据中心自动驾驶网络白皮书 4.4.4 价值 自动发现故障并定位根因 , 无需人工操作 , 发现故障时间由 “ 分钟级 ” 缩短到 “ 秒级 ” , 定位时间由 “ 小时级 ” 缩短到 “ 分钟级 ” ; 基于智能推荐决策 , 系统推荐最优预案 , 规避故障方案制定不准确 , 闭环时间由 “ 天 ” 下降到分钟级; 故 障预案人工确认后 , 系统自动执行并执行验收用例 , 验证时长由 “ 小时级 ” 缩短到 “ 分钟级 ” 。 29 华为数据中心自动驾驶网络典型应用场景 05 数据中心自动驾驶网络的发展展望 当前 , 华为数据中心自动驾驶网络方案正处于高速发展阶段 , 整体上处于 L2向 L3的过渡阶段 , 即将迈入 L3并朝着 2030年实 现 L5级全场景自治网络的目标迈进 。 数据中心自动驾驶网络白皮书 数据中心自动驾驶网络的发展需要整个产业界的密切配合 , 尤其在以下三个方面 推 动接口标准 化 只 有解决了兼容性的问题 , 才能使不同厂商的异构组件共同为客户部署自动驾驶网络方案 , 消除用户对于厂商绑定的顾虑 。 推动接口标准化是解决此问题的关键 , 业界各方应当积极参与标准化组织 , 推动定义更加丰富的南北向接 口 。 30 华为数据中心自动驾驶网络典型应用场景 数据中心自动驾驶网络白皮书 建设开放型网络平台 数据中心自动驾驶网络系统根本价值在于统筹网络资源来确保满足业务需求 。 要实现这一点 , 自动驾驶系统必须对接客户 的 IT应用系统 。 这就需要自动驾驶系统提供开放型的平台 , 客户也需要根据自己的业务快速自定义新功能 , 充分发挥自动 驾驶网络的全部价值 。 打 造开放的产业生 态 在积极推动接口标准化 、 建设开放型平台的同时 , 还需要加强开源平台的建设 。 开源平台对于运营商 、 设备商 、 网络服务 提供商企业都有巨大吸引力 , 一些开源平台也由上述角色牵头或参与 , 开源平台和标准组织也不断协调 , 促进各自的发展 , 为产业的生态带来重要影响 。 良好的数据中心网络产业生态还需要标准组织 、 开源平台 、 运营商 、 设备商 、 网络服务提供 商之间彼此积极协作 , 将促进整个产业的健康快速发展 。 华为技术有限公司 深圳龙岗区坂田华为基地 电话: +86 755 28780808 邮编: 518129 本文档可能含有预测信息,包括但不限于有关未来的财务、运营、产品系列、新技术等信息。由于实践中存在很多不确定 因素,可能导致实际结果与预测信息有很大的差别。因此,本文档信息仅供参考,不构成任何要约或承诺,华为不对您在 本文档基础上做出的任何行为承担责任。华为可能不经通知修改上述信息,恕不另行通知。 版权所有 华为技术有限公司 2020。保留一切权利。 非 经华为技术有限公司书面同意,任何单位和个人不得擅自摘抄、复制本手册内容的部分或全部,并不得以任何形式传播 。 商标声明 是 华为技术有限公司商标或者注册商标,在本手册中以及本手册描 述的 产品中,出现的其它商标,产品 名称,服务名称以及公司名称,由其各自的所有人拥有 免责声明 c
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642