资源描述
2 3 目录 Contents 前言 1)电信 AI 市场趋势 2)运营商面临的机遇和挑战 3)运营商在行动 1)华为自动驾驶网络解决方案 2)实现自动驾驶网络的五个阶段 3)引入 AI 的独特性 1)整体解决方案 2)数据湖 3)训练平台 4)推理框架 5)电信 AI 模型服务 6)部署方案 1)运维效率倍增 PON 光模块和光链路故障定位及预测 2)能源效率倍增 基站智能节能 3)资源效率倍增 Massive MIMO 智能调优 4)用户体验提升 ECA 加密恶意流量智能检测 5)5G 智能网络 AI 使能 5G 全流程(规建优维)极简建网 01 02 04 05 06 06 07 07 09 10 11 12 16 16 17 18 19 人工智能经历了六十多年的浮浮沉沉,随着计算算力的进步,算法的创新和互联网发展下的海量数据积累, 人工智能技术未来十年将焕发出新的活力,成为最具有冲击力的科技发展趋势之一。 电信网络作为信息通信的基础设施,具有应用人工智能技术的巨大空间和潜力。如何利用人工智能算法提供 的强大分析、判断、预测等能力,赋能网元,网络和业务系统,并将其与电信网络的规划、建设、维护、运行和 优化等工作内容结合起来,成为电信业关注的重要课题。 基于对电信领域的深刻理解和多年经验沉淀,以及在 All Intelligence 战略中的长期坚决投入,华为在网络 全云化的基础上将 AI 技术引入到电信网络中,推出 iMaster NAIE 网络人工智能引擎。旨在结合电信领域应用 场景,使能网络达到自动(业务自动部署,自动运行)、自愈(故障自动恢复)、自优(网络自我优化)和自治 (网络自我演进)的自动驾驶网络,提升整个网络的效率,降低 OPEX。 本白皮书将结合电信网络智能化的市场趋势大背景,阐述华为在该领域的实践落地。包括华为自动驾驶网络 战略解读,iMaster NAIE 网络人工智能引擎(包括通信智能平台,AI 模型服务,部署方案)以及通信智能典型 应用场景探索。希望对与我们一起在通信网络智能化探索过程中的同仁有所帮助。 电信 AI 市场概况 华为自动驾驶网络战略解读 华为 iMaster NAIE 网络人工智能引擎 iMaster NAIE 网络人工智能引擎典型应用场景01 02 电信 AI 市场概况 电信 AI 市场概况 1)电信行业 AI 市场趋势 2)运营商面临的机遇和挑战 电信 AI 市场概况 电信行业将成为最大 AI 市场 2021 年迎来重要拐点 Tractica/Ovum 预测,到 2025 年,全球电信业对人工智能软件、硬件和服务的投资将达 367 亿美元 , 成为最大的 AI 应用市场。其中,电信业整体 AI 用例软件市场将以 48.8% 的年复合增长率从 3.157 亿美元到 2025 年增至 113 亿美元。而 SDN/NFV 和 5G 的大规模部署将推动 2021 年成为网络自动化的转折点。 我们正进入一个跨界竞争的新时代,每个行业都面临着结构性挑战,电信行业尤其如此。 首先,从收入结构来看,运营商的业务正遭遇来自 IT 产业的挑战。之前,电信业务分为三个层次:终端、 网络和 IT 基础设施以及上层应用。随着网络接入速率的大幅提升,导致 IT 产业从卖产品变成卖服务,骨干网 络和 IT 基础设施逐渐变成云服务的形式。运营商如果能把云服务做好,就可以与 AWS 等云服务巨头争抢万 亿美元的云市场,反之则将丧失很多传统的电信业务,如语音,短信,数据中心之间的专线业务等。 其次,运营商的效率和成本也面临结构性挑战。如今,电信网络结构复杂,使得设备维护 OPEX 支出约 为 CAPEX 的三倍,给运营商带来沉重的负担。其主要表现在: 北美,欧洲和亚太地区电信 AI 软件收入占全球 90% Tractica/Ovum 预测,北美、欧洲和亚太电信 AI 软件收入占全球 90%,成为电信 AI 重点市场。北美市 场电信 AI 软件收入持续全球领先,亚太 2021 年后收入增长强势,预计 2025 年将超过北美。 网络优化成为电信市场最大的 AI 应用 Tractica/Ovum 对 AI 技术在电信领域的 5 个主要用例场景:网络 /IT 运营监控和管理、客户服务和市场 营销 VDAs(虚拟数字助手)、智能 CRM 系统、提升客户体验管理和网络安全的分析发现:网络 /IT 运营监 控和管理将成为电信业最大的 AI 用例,将占据 2016-2025 年期间电信业 AI 支出的 61%。 网络 /IT 运营监控和管理通俗的称就是网络优化,意味着利用 AI 技术来理解网络实时发生的事情,然后动 态地改变网络进行服务交付。 AI 驱动的网络管理解决方案包括网络设计、 网络负载平衡、 网络覆盖容量优化等。 IDC 统计,63.5% 的电信组织正投资 AI 以改善其基础设施建设,而其余 31.5的电信组织主要关注利 用现有投资或基础设施。 2016 5,000 10,000 15,000 20,000 25,000 30,000 35,000 40,000 2017 2018 2019 2020 2021 2022 2023 2024 2025 (来源:Tractica) ( Millions) 全球电信AI总收入按行业预测:2016-2025 软件 服务 硬件 63.5% 的电信组织正投资AI 36.5% 关心利用现有投资 来源:IDC 其它10% 欧洲28% 亚太27 % 北美35 % 2018 亚太32% 欧洲23 % 其他12% 北美33 % 2025 2016 2,000 4,000 6,000 12,000 8,000 10,000 2017 2018 2019 2020 2021 2022 2023 2024 2025 (来源:Tractica) ( Millions) 全球电信AI软件收入按应用场景预测:2016-2025 欺诈预防 预测性维护 网络安全威胁预防 客户体验提升管理 智能CRM系统 客户服务&营销 VDAs 网络/IT运维监控和管理 填充弹性流量(实时、准实时) 当前能耗曲线 骨干网未填充弹性流量,利用率低 100% 利 用率 时间 实时流量 无网络流量,能源浪费惊人 能耗 流量 目标能耗曲线 (与流量成正比) 缩小阴影面积 降低无效能耗 网络复杂度 指数级增长 故障被动响应 缺乏预防性运维 网络复杂,故障解决依赖人工 资源利用率低 能源消耗高 运维效率低 设备OPE X 3 倍 设备CAPE X03 04 电信 AI 市场概况 电信 AI 市场概况 资源利用率低:无线、IP、光传送等资源未得到最大化利用。如热点 DC 间的 IP 骨干网络利用率接近 70%,非热点 DC 间的网络利用率只有 30%,供需不均衡,且未填充弹性流量,利用率低。无线基站传统 Massive-MIMO 波束及倾角参数仅基于用户分布做粗略估算,无法基于话务分布、干扰、小区负载等做精确 调整,空口利用率低。 能源消耗高:基站能耗无法随网络流量减少而下降,能源浪费惊人。数据中心 PUE 居高不下,制冷能耗 占非 IT 能耗比例高。 运维效率低:Gartner 调查显示:37% 的网络故障是由于网络变更造成的,当前网络结构越来越复杂, 网络的运维管理已远远超过人的能力;75% 的网络问题都是被最终使用者感知和发现,并通过投诉向运营商 反馈问题,客户体验和满意度很难得到保证;运维人员 90% 的时间都用来识别发现故障的原因。 37% 网络故障是由网络变更造成 网络复杂度指数增长,基础网络四代共生 (2/3/4/ 5G), 核心网十域并存(CS/PS/IMS/ 物联网等) 网络管理超过人的能力,自然人只能理解 3.5 维 (X/Y/Z 和过去的 0.5 个时间轴),网络管理涉及 N维 运维人员 90% 时间都在定位问题 网络问题源难识别,跨域问题定界困难 问题根因定位复杂,过度依赖专家经验 75% 的网络问题都由最终用户发现 网络故障很难事先被发现和预防 客户体验和满意度很难得到保证 75% 37% 90% 来源:Gartner 网络分层解耦,人工故障处理耗时耗力 随着电信网络 NFV/SDN 技术引入,云化网络分层解耦带来了运营效率的大幅提升,但涉及跨层故障定 界还需要卷入多个团队参与分析,分析效率低,无法匹配海量局点维护和应急恢复要求。 要解决电信业面临的挑战,仅仅靠产品创新远远不够,需要整个系统架构创新和商业模式创新,才能提升 运营商的竞争力,解决结构性问题。什么是系统架构创新?以云计算为例,它并不是某个服务器或存储产品的 创新,而是通过全新的分布式系统提升资源利用效率,是系统级的创新。产品创新、系统架构创新和商业模式 创新三者相互支撑,互相促进。电信网络 AI 的创新体系需按照这三个维度来设计。产品层面,设计网络设备 的指导思想是“奥运精神”,即大容量、低时延。系统架构创新领域,目标是构建敏捷的自动化、智能化网络。 在商业模式创新上构建网络时代的在线智能服务模式。 业务层 150 240 340 360 分钟 应用层 虚拟层 硬件层 信息收集 3 个团队 10 人 3 个小时 某运营商云化网络故障处理 故障定界 方案下发 业务恢复 3)运营商在行动 中国三大运营商 国内三大运营商都已在人工智能领域布局, 中国移动发布了人工智能平台九天, 主要应用于智能客服、 深度学习平台、智能营销机器人、网络智能化等。该平台一方面是深入电信行业,聚焦于运营商的市场运营、 网络还有服务等应用领域, 同时, 面向垂直行业, 以应用场景驱动的方式提供端到端的 AI 应用解决方案和实施。 中国电信与合作伙伴共同打造了人工智能开放平台灯塔,侧重点在赋能,主要应用于智慧家庭、智能 客服、用户身份识别等领域。 中国联通通过混改与百度等合作伙伴一起共赴人工智能盛宴。据悉,中国联通与百度、科大讯飞、烽火等 公司均有 AI 项目合作。其中,联通与科大讯飞的合作聚焦人工智能技术在智能终端产业链上的应用,与烽火 在智慧城市方面开展合作,并共同推动相关标准的制定。 海外运营商 西班牙电信启动人工智能新项目,先期在三个服务运营中心(分别位于阿根廷、智利和德国)启用了人工 智能分析技术,分析移动网络的使用情况,预测潜在的问题区域,同时能帮助其获得用户服务体验的实时数据, 有助于发现提升用户体验的新手段。 软银公司除了收购人工智能专业公司外,还与 IBM 合作将后者的 Watson 人工智能系统引入其网络。 NTT 此前也推出了 AI 平台,主要研究“助理 AI”、 “心动 AI”、 “ 环境 -AI”、 “网络 -AI”四大方向。 正如业内人士所言,通过人工智能挖掘更多商业机会,改善网络性能,提升客户体验已经成为更多运营商 最为关注的领域。尽管电信运营商起步明显落后于互联网巨头,前路所面临的困难可能会更大,但在这一领域, 运营商不能缺席。05 06 华为自动驾驶网络战略解读 华为自动驾驶网络战略解读 1)华为自动驾驶网络解决方案 2)实现自动驾驶网络的五个阶段 华为自动驾驶网络战略解读自动驾驶网络是电信网络自动化、智能化方案,将网络能力原子化后形成网络资源,通过集中的网络控 制单元将网络资源统一调度,支撑上层业务编排器全局协同的方案;通过自动驾驶网络,可以实现运营商运营 效率的提升,是运营商数字化转型的关键部分。 自动驾驶网络分为三层智能:物理网络逐步数字化,有效产生和采集更多网络数据,实现边缘智能;增加 AI 推理分析框架,各领域的网络管控系统和跨域网络管控系统逐步自动化,实现在线智能;在网络设备和网 络管理之上的云端,增加 AI 平台,进行数据管理和模型训练,实现云端智能。 要实现网络的自动驾驶,必然是一个长期的过程,不可能一蹴而就。参考汽车自动驾驶五级标准,华为提 出从客户体验、网络环境复杂性和解放人的程度三个方面来定义自治网络的五级自动驾驶等级: 从自动驾驶网络的全景图可以看出,iMaster NAIE 解决方案在云端打造数据湖和 AI 训练平台,在管控 单元和各网元设备打造 AI 推理框架,为网络各领域提供电信 AI 训练模型并构建推理框架。AUTIN 解决方案 作为华为服务领域解决方案,提供网络规划,建设,维护,优化全流程的自动化和智能服务。MAE 是移动宽 带领域(MBB)自动化和智能解决方案,NCE 是固定宽带领域(FBB)自动化和智能解决方案。 iMaster NAIE 是自动驾驶网络智能化使能部件,将为服务,无线,固网,核心网和数据中心领域提供基本的 AI 数据 管理和模型训练服务。 训练好的模型可以提供到各个领域进行推理分析, 帮助各领域有效实现自动化和智能化。 本白皮书主要围绕自动驾驶网络的 iMaster NAIE 网络人工智能引擎方案和实践进行阐述。 等级 定义 L0: 人工运维 L1: 辅助运维 L2: 部分 自治网络 L3: 有条件 自治网络 L4: 高度 自治网络 L5: 完全 自治网络 执行 (手动) 不适用 子任务 特定模式 单元级别 特定模式 单领域级别 特定模式 跨领域级别 特定模式 所有模式 意识 (观察) 决策 (思考) 业务 (体验) 系统 (复杂度) L0 人工运维:仅有辅助的监控能力,所有运营和维护的动态任务都是由人完成。 L1 辅助运维:系统基于已知规则重复性的执行某一子任务,例如 GUI 式配置向导,批量配置工具。价值 是简化操作、降低技能要求,提高重复操作的执行效率。 L2 部分自治网络:系统基于特定模型持续完成某单元的控制任务,系统中某单元调度和执行能力达到高 度自动化的水平。例如云计算中 DCN 网络提供配置 API 接口,按云平台的调度需求执行自动化的网络配置操 作,整个过程无人干预。 L3 有条件自治网络:L3 相比 L2 最核心的变化,系统能在限定范围内观察并分析动态变化的环境,并通 过自动化控制来保持目标。L3 级别定义为在单领域(如无线接入,固定接入,核心网领域)内,系统能面向 既定目标持续执行控制任务。例如在特定领域内,基于 AI 完成告警聚合和故障场景识别,触发故障定位模块, 快速找到排除故障的具体措施并自动派单。 L4 高度自治网络:电信网络业务天然是跨多个网络领域,例如家庭宽带业务跨了固定接入,IP 城域以及 头端 IPTV 平台等,要实现业务级自动驾驶必然会涉及跨域。L4 相比 L3 的核心变化,系统在更复杂的跨域业 务场景中,能基于客户体验进行网络自动控制。例如家庭宽带业务,系统实时感知和分析客户体验,持续识别 网络动态异常,主动针对业务体验问题和网络异常进行优化、异常修复或自动派单,实现预测性运营维护,大 幅提升客户满意度。 L5 完全自治网络:完全实现无人驾驶的网络,想在所有的网络条件和业务领域都实现并不现实,但在业 务较简单、网络标准化程度较高的云数据中心或全虚拟化网络中值得不断探索和创新。 3)引入 AI 的独特性 将 AI 引入电信网络,带来的全新价值是“可预测性”。电信网络的管理和控制中心通过一定的策略和规 则实现对整个网络的管理和调度,实施依据主要有三个条件:网络的可达性、SLA 要求和资源效率,这些是 网络实现自动化的基础。但随着网络日益复杂,仅有这些已远远不够,需要在网络中引入基于算法的网络管控、 在线 AI 推理和数据分析,实现流量预测、质量预测和故障预测。预测性是 AI 的核心价值,基于预测结果来调 度网络,实现故障发生前规避故障、质量劣化前优化质量、网络拥塞前调整流量,结构性提升运维和运营效率。 iMaster NAIE解决方案的范围 云端智能 在线智能 边缘智能 嵌入式公共能力 网元Sensor MBB 网络管控单元 MAE CloudSOP 管控析单元 Saas AUTIN跨域服务(OP) iMaster NAIE (OP) 跨域服务单元 云中漫步 云地协同 云地联动 BSS/OSS CloudSOP 跨域智能运维平台 AUTIN 规、建、维、优 公有云/EI 网络人工智能引擎 iMaster NAIE 数据湖服务 训练服务 网络知识库 CloudSOP HCS-online/HCS 优 维 建 规 5G规划 网络管理 网络控制 网络分析 IP仿真 流量预测 . 训练服务 数据湖服务 HCS-online 领域 自治 单位 FBB NCE CloudSOP Network AI推理框架 Digital twins 网元AI推理框架 无线域(5G.) 数通域(IP.) 传送域(OTN.) 云核域(EPC.) 接入域(OLT.)07 08 华为 iMaster NAIE 网络人工智能引擎 华为 iMaster NAIE 网络人工智能引擎 2)数据湖 1)整体解决方案 华为 iMaster NAIE 网络人工智能引擎 iMaster NAIE 网络人工智能引擎,由数据湖,训练平台,应用模型市场和推理框架四大部分组成。推理 框架中的推理模块从设备管控平台采集训练数据,交给数据湖做数据预处理,或者直接交给训练平台做数据训 练(训练平台支持基于原始训练数据做训练,而不需要经过数据湖处理),训练平台完成训练之后,将模型发 布到应用模型市场,由应用模型市场推送到推理模块。 推理平台结合实时网络数据,调用业务模型进行推理分析,并将推理结果下发到管控平台或各网元执行推 理结果,控制网络行为。网络行为的结果数据会再次被收集用于平台训练,优化模型,从而实现闭环控制。 接下来,对数据湖,训练平台和推理框架进行详细介绍。 部署形态:公有云+s tack 网络 数字地球 领域通用模型服务 电信 工具链 EI 主题数据 原始数据 训练数据 数据湖 AI 平台 电信网络 管控平台 数据 预处理 AI 模型 管理 AI 镜像 管理 AI 推理平台运行态 南向数据采集 训练平台 推理平台 模型系列化 商业流程 模型评估反馈 应用模型市场 Aggregation IP Core/ISP IGW Access BS Sites BSC/RNC 痛点:电信行业数据难获取、质量低 数据获取难,尽管电信网络数据很大,但不同部门和层级数据语义和格式、数据存储和管理应用机制不同、 数据监管限制等原因,真正能有效利用的数据并不大,例如 KPI 异常检测,网络中异常样本很少,难获取。 数据治理难,电信领域专业性强,数据难理解,难建模。数据质量差,数据存在缺失,异常,重复等问题,难 以应用。数据安全风险高,数据平台与数据自身存在安全漏洞,发生安全事件影响大。 数据湖主要功能和价值iMaster NAIE 通信智能数据湖,提供主题和训练数据集服务。准确适配各种模型训练需求,结合领域专 家经验知识和现网反馈,提供数据治理服务。提供数据目录管理,元数据管理,数据安全和用户权限管理等数 据资产管理功能。 数据湖Console 数据目录管理 元数据管理 数据安全管理 用户权限管理 数据质量管理 数据资产管理 NAIE训练数据湖 华为公有云 训练数据集服务 主题数据集服务 原始数据集服务 BDI DG TIE FMA 数据标注服务 数据集服务 数据集服务 拓 朴 发现服务 时 空 分 析 服务 用 户 体 验 服务 网 络 性 能服务 故 障 定 位 服务 数据治理 FDI 互联网爬虫 数据手工上传工具 实验室模拟数据采集 GTS数据底座共享 数据入湖 数据安全 数据获取 数据传输 数据存储 数据使用 数据销毁 数据采集与脱敏 获取审核 分类分级存储 定期备份 容灾恢复 订阅/授权机制 访问监控审计 出湖数据审批 加密传输 协议到期数据销毁 管控维系统 第3方系统 应用市场 训练服务 推理服务 OSS 数据底座 数据丰富,训练集获取耗时节省 90%:聚焦运营商关注的四大 AI 热点方向,积累电信网络千万级标注样 本数据。网络数据覆盖全面,当前涵盖 1000+ AI 训练集,网络特征属性约 3 万 + 个。通过运营商签约授权、 华为历史故障库、 实验室生成等正规渠道, 获取包括接入网/承载网/核心网/数据中心的全域主要网元脱敏数据。 标注样本数据丰富 : 专业团队对样本做时序,故障根因,网络状态等专业标注,形成高价值样本集,当前标注 样本约 1 亿条。 电信数据治理高效,数据处理效率提升 5 倍以上:依托一站式 ETL 和“数据 + 网络” 可视化,支撑高效 数据治理和应用开发。数据属性易理解:集成华为全业务领域的数据字典,降低用户处理华为电信设备数据的 领域知识门槛。数据关系易理解:通过数据到电信网络的映射(主题域 + 数字网络地图),使体验 / 网络 / 状 态 / 拓扑等数据关联成网,实现数据可视,关系可视,加速用户对数据关系和网络业务场景理解和应用。数据 治理工具效率高:支持多种主流文件的导入和 ELT 自动化处理能力,一站式完成清洗 / 转换 / 治理。 ( 文件类 型 :txt/csv/xml/gzip/json) 电信数据质量好:构建分域分层的电信数据质量管理能力,提供质量标准统一的数据资产。体系化的数据 质量标准:基于最专业的领域专家经验和行业标准,形成按数据源和主题域分别定义的数据质量度量指标、数 据模型质量约束、数据质量治理规则、数据质量稽核规则 。电信数据质量监控评估工具:提供数据质量管理 的工具化能力,保障数据质量要求的高质量落地。专业的数据治理团队:对数据进行标准化的清洗、转换、去 噪等工作,保障数据高质量,使用者只需关注应用开发。09 10 华为 iMaster NAIE 网络人工智能引擎 华为 iMaster NAIE 网络人工智能引擎 多租户隔离,实现用户数据端到端安全:通过数据全生命周期可管理、可审计、可回溯及细粒度权限控制, 保障数据的安全治理和合规使用。 数据全生命周期监控:提供数据生命周期的系统化安全日志,实现数据的可管理,可审计,可溯源。 数据存储安全 : 对数据按照分类分级存储, 并采用数据加密 / 块存储桶隔离等方式保障数据不被非授权使用。 数据使用安全:支持细粒度权限管控、数据库表级权限控制,并实现单用户单资源的可视,可搜,可使用 权限能力。 嵌入通信经验:领域模型服务,预置 4 类 ,30+ 种预集成电信模型服务,Zero 编码。提供流量预测、KPI 异常检测,智能控制,告警关联模型服务,电信经验固化为服务,用户输入数据即可获得模型;向导式模型开 发过程,从数据准备到特征提取,模型训练,提供电信领域模板,提升训练效率;集成电信知识图谱,内置 50+ 数据分析工具,通信经验转化为工具辅助专家决策。 高效工具:支持联邦学习,模型训练分布化,多点联合训练,应对电信行业小数据量,数据缺失场景,满 足数据安全要求;支持迁移学习,只需少量数据即可完成非首站点模型训练,让模型快速适配使用;增强数据 处理能力,提供字段编辑,样本评估,智能修复,脚本修复等增强数据处理能力,数据分布可视化;一站式开 发、上线、部署环境,从数据准备,到特征提取,模型训练,再到上线销售,部署到推理平台,提供端到端开 发部署环境。 开放协同:线上线下协同,提供线下 IDE 开发环境,和云上平台协同开发;团队协同,同一开发团队成 员经验共享,协同工作;支持多种机器算法框架和算法移植,支持所有主流算法框架 Tensorflow,MXNet, Caffe2、SparkML 等,并提供工具,帮助在其他平台开发算法可快速移植到华为平台。 3)训练平台 4)推理框架 痛点:通信领域 AI 应用开发门槛高,效率低,效果不可控 业务知识缺乏:算法科学家需要花大量的时间了解业务场景,电信领域 AI 积累少,可借鉴经验少。 算法开发效率低:AI 算法多,选择范围广,试错成本高。在线开发工具无智能提示,无断点调试等能力, 代码开发效率低。 模型训练周期长:模型训练依赖大量并且昂贵的计算资源。超参优化周期长,单次训练耗时高。 模型可复制性差:模型对数据的依赖比较大,往往很难在不同的局点之间复制交付,实际应用效果不可控。 训练平台主要功能和价值:iMaster NAIE 网络人工智能引擎,实现一站式高效模型训练,集成电信领域的特征处理,辅助快速识别 等关键特征,内置电信领域 AI 典型算法,如异常检测、根因分析、优化控制、业务预测等相关功能的算法, 支持模型快速验证。 痛点:推理应用开发周期长,模型效果难评估 典型 AI 推理应用包括:数据采集,预处理,模型执行,推理结果下发、推理结果评估。开发人员需要开 发各个组件或服务,开发周期很长,组件对接复杂;上线后服务运维压力大。应用上线后,模型实际运行效果 难以预估,应用价值无法呈现。 推理框架主要功能和价值: 推理框架支持 4 大功能: 应用管理:支持应用模型的浏览与订购、自动更新和安装部署、灰度发布(指在黑与白之间,能够平滑过 渡的发布方式。 在其上可以进行A/B testing, 即让一部分用户继续用产品特性A, 一部分用户开始用产品特性B, 如果用户对 B 没有什么反对意见,那么逐步扩大范围,把所有用户都迁移到 B 上面来。灰度发布可以保证整 体系统的稳定, 在初始灰度的时候就可以发现、 调整问题, 以保证其影响度) 。 支持多个模型的融合编排、 调度。 数据采集及处理:支持跨网络的数据传输,从各种网管系统、业务系统上采集网元拓扑、告警、KPI 等原 始数据。支持以实时流或者批量数据的方式接入,对原始数据进行清洗转换。 KPI异常 检测服务 DC PUE智能 优化控制服务 基站流量 预测服务 告警关联及 根因定位服务 Tensorflow MXnet Caffe2 Cloud BU ModelArts 公共工具 服务能力 面向AI模型 开发者提供 电信领域模型 开发服务 面向应用 开发者 提供电信 SaaS服务 CNTK Keras 数据准备(7) 特征工程(10+) 模型训练(5) 模型管理 电信数据预处理模板 特征处理模板 电信特有算法库 模型训练项目服务化 训练服务构成&能力 AI模型训练工作流开发&集成 IDE(云端&离线) AI基础使能服务 电信领域AI模型开发可复用资产 联邦学习/迁移学习/基于知识图谱的电信领域模型开发向导 MLS DLS ExeML Batch UPredict RLS 应用管理 数据采集 AI应用市场 数据处理 &储存 推理执行 及监控 推理评估 及推理结 果可视化 推理平台 2 1 3 4 业务平台 实时数据AI应用同步 训练平台 在线闭环11 12 华为 iMaster NAIE 网络人工智能引擎 华为 iMaster NAIE 网络人工智能引擎 推理执行及监控:支持深度学习 Tensorflow、机器学习 MLLib、Python/Java 的 AI 模型运行框架。支 持多模型的推理执行,定时调度,并对外提供 API 接口。推理服务的监控。 推理评估:支持用户手动或自动评估推理结果;支持推理可视化,查询历史推理并输出统计报表。 推理框架的关键价值: 应用模型敏捷上线:一键式订购,自动化部署,实时监控,自动弹性扩容,流控,故障自愈,简化 AI Case 运维管理。 升级简单, 和业务系统解耦, 应用 / 模型可各自独立升级, 灰度发布。 推理方式灵活, 支持单次, 批量,实时,异步,流式及定时推理。 在线模型优化:提供在线增量学习自优化能力,使用在线数据进行增量学习,使模型精度等度量指标达到 最优运行效果。集成电信运营商领域的最佳实践和专家知识,与 AI 的增强学习相结合,提供电信领域运维支 撑和体验。 智能反馈评估:模型推理结果实时可视化展示,协助用户快速完成推理结果反馈,生成高价值数据;基于 推理反馈,周期性自动统计计算模型性能,形成推理评估数据集,用于进一步优化模型; 5)电信 AI 模型服务 6)部署方案 模型生成服务: 基于华为 iMaster NAIE 训练平台,可提供专业高效的电信领域 AI 模型生成服务。 无线小区流量预测模型生成服务,通过集成无线小区预测模型的特征提取、数据建模、算法等,让开发者 输入小区话统、工参等数据,即可快速生成预测模型。该模型能够预测无线小区的流量 / 负载 / 用户数等,应 用于基站智能控制业务场景。 告警关联模型生成服务,通过 AI 算法分析大量网络告警、拓扑和工单等数据,提取告警之间的关联规则, 生成告警关联模型。该模型应用在网络故障发生后产生重复工单的场景 , 可实现工单压缩,从而减少重复派单, 降低运维成本。 数据中心 PUE 优化模型生成服务, 服务提供 AI 技术与数据中心工程经验相结合的一套自动化建模工具 ( 如 数据中心拓扑模板、PUE 特征 / 算法库、模型训练平台 ),帮助能源工程师在没有 AI 知识背景和编码功底的 情况下,只需输入数据中心。 iMaster NAIE 网络人工智能引擎,结合不同的场景需求(如是否部署云服务,应用案例对时延敏感性, 数据敏感度等)支持灵活的部署方式。训练平台 / 数据湖实现模型的离线训练开发,更关注部署的便捷性和数 据敏感性。推理框架主要实现实时推理,还需关注应用场景的时延敏感性。 通信模型服务: 基于华为 iMaster NAIE 推理平台,可提供专业高效的通信模型服务。 KPI 异常检测模型服务:从大量的 KPI 输入数据中识别出 KPI 异常数据的服务,该服务根据用户的业务 配置和数据类型识别输入 KPI 的模式,并自动进行算法调优,帮助预判系统故障或在故障发生时帮助快速定 位问题。 ECA 异常检测模型服务,基于 AI 算法通过海量的样本提取恶意流量特征,通过异常检测模型训练,输出 检测结果,在不需要对流量进行解密或是破坏数据隐私的条件下,快速进行网络流量的安全性检测,识别恶意 加密流量,帮助客户提升网络防御能力,降低系统风险。 硬盘异常检测模型服务,基于业界标准的硬盘 S.M.A.R.T 指标集,提取 30+ 关键特征构建 AI 模型,输 出硬盘的健康状态检测结果,并预测硬盘故障,帮助客户构建硬盘的主动式故障处理机制,保证系统和业务的 可靠运行。 训练平台 输入 输出 业务场景 亮点 话统 工参 历史流量 无线小区流量 预测模型 基站智能节能 重大事件网络保障 移动负载均衡 模型预测精度高 海量小区模型训练快 可视化参数配置 训练平台 输入 输出 业务场景 亮点 网络拓扑 历史告警 告警关联 模型 无线接入网告警压缩 向导式高效建模 场景化模型选择 增量式模型验证 训练平台 输入 输出 业务场景 亮点 控制参数 状态参数 PUE DC PUE 优化模型 制冷系统能耗优化 适配多种拓扑类 零编码建模 控制策略全面 优化效果好 推理框架 输入 输出 业务场景 亮点 KPI指标数据 异常点信息 (时间、 异常值) 日常维护 升级、配置优化 辅助故障定位 适用领域广泛 异常定位精确 运行高效率、易集 推理框架 输入 输出 业务场景 亮点 流量报文 告警 (数据包信息, 危害, 处置建议) 企业园区流量检测 数据中心流量检测 样本种类全 检测准确性高 识别速度快 推理框架 输入 输出 业务场景 亮点 硬盘SMART信息 预测结果 (硬盘名, 剩余寿命) 硬盘上下架/更换维护 硬盘健康状态例行巡检 硬盘类型覆盖全 故障预测准确率高 覆盖场景全13 14 华为 iMaster NAIE 网络人工智能引擎 华为 iMaster NAIE 网络人工智能引擎 训练平台 / 数据湖部署方式 训练服务平台主要由三种部署方式:华为公有云部署、合营云部署和 Huawei Cloud Stack Online(HCS Online) 驻地云部署。 华为公有云部署:训练平台部署在华为的公有云上,这种部署方式要求对数据不敏感。 合营云部署:对拥有自己云平台的运营商,训练平台以合营云的方式部署在运营商自己的私有云上。训练 平台由运营商负责运维,满足数据不出局的要求。 HCS Online 驻地云:没有自己的私有云,又对数据隐私敏感的运营商,采用 FCS 驻地云模式部署。 HCS Online 是华为 Huawei Cloud Stack Online 解决方案的简写,HCS Online 全栈专属云解决方案是 华为公有云的延伸,以一体化全栈方式交付完整的云服务平台,与华为云统一架构,统一服务,统一 API。 HCS Online 可在合营云或卫星站点机房部署,满足客户云资源专属、数据合规的要求,也可在用户机房内就 近部署,减少服务时延。满足运营商数据不出局的要求。HCS Online 训练平台采用的是集中式运维模式: HCS Online 训练平台的维护信息(告警、日志、话统等)发送到公有云的训练平台,同时接受公有云训练平 台的管理(生命周期管理,版本升级,模型升级等),华为负责统一运维。 推理框架部署方式 推理平台部署方式灵活,根据应用案例对时延的要求和推理功能的范围,支持设备嵌入,单域网管集成, 跨域独立私有云和公有云部署。 公有云平台 计算服务 存储服务 网络服务 大数据服务 数据库服务 云桌面 公有云 集中运营、 运维 华为公有云 驻地云 NAIE训练平台 NAIE训练平台 HUAWEI Cloud 公有云平台 计算服务 存储服务 网络服务 大数据服务 数据库服务 云桌面 NAIE训练平台 DT Cloud 公有云平台 计算服务 存储服务 网络服务 大数据服务 数据库服务 云桌面 NAIE训练平台 电信天翼云 HCS Online 合营云 SDC 公有云 AI应用市场 训练平台 AI推理 训练数据上传 模型下发 跨域管控中心 无线管控中心 独立推理模块 (IES-基于ONAP) (U2020 & mAOS) Design-time SO 策略规则 南向接口和数据采集 管理控制 Policy A&AI 适配 移动网络 DCAE Runtime Execution AI推理 模型管理 模型管理 实时数据处理 推理集群 机器学习框架 评估&反馈 也可 独立 外置 PON&Eth 固定网络 IP & 光 基站 基站 IMS/HSS EPC/SBC AI推理 网络管控中心 (NCE) 策略规则 南向接口和数据采集 管理控制 AI推理 核心管控中心 (U2020 ) 策略规则 南向接口和数据采集 管理控制 AI推理 AI推理 1. 设备嵌入:应用内嵌形态,设备本地实时执行 AI 推理功能直接嵌入到设备内部。羽量级,单个应用可分配内存 50M 以内。仅包含 AI 算法模型的执行, 不含数据批处理、流处理等功能,也不含软件生命周期管理等 PaaS 功能。应用场景:对实时性要求高的场景, 典型 Case:基于智能栅格的多载波优化。 2. 网管集成:嵌入各单域管控系统或设备边缘 AI 推理功能集成到单域或跨域多种网管产品的内部。轻量级:单 VM 3VM(虚机),应用共享在线计 算平台,采用轻量化 gPaaS 进行自管理。面向实时流数据处理场景,数据不落地、无存储。应用场景:利用 现有网管平台,对实时性要求不高。典型 Case: Massive MIMO 、网络攻击检测、基站智能关断、PON 故障预测 & 定位、光层调测、云核异常检测、DC PUE 优化等。 3. 私有云部署:数据湖形态,运营商全网集中部署 平台以私有云服务方式提供,提供完整的多租户管理和隔离。内置数据湖,提供流和批数据处理能力,长 期和跨域数据入湖存储进行综合分析。中量级:3VM 以上云化形态。应用场景:多应用和跨域推理等场景, 对网络安全隐私有要求,典型 Case:DCI 资源利用率提升、视频业务体验优化。 4. 公有云部署:分布式数据联邦形态,华为公有云部署 面向全球客户,以公有云形态提供推理服务,包括服务订购、运营管理等功能。平台物理分散,逻辑集中, 统一管理。应用场景:为开发者提供推理测试,为使
展开阅读全文