5G UPF硬件加速白皮书.pdf

返回 相关 举报
5G UPF硬件加速白皮书.pdf_第1页
第1页 / 共27页
5G UPF硬件加速白皮书.pdf_第2页
第2页 / 共27页
5G UPF硬件加速白皮书.pdf_第3页
第3页 / 共27页
5G UPF硬件加速白皮书.pdf_第4页
第4页 / 共27页
5G UPF硬件加速白皮书.pdf_第5页
第5页 / 共27页
亲,该文档总共27页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
5G UPF 硬件加速白皮书 2020 年 7 月 5G UPF硬件加速白皮书 I 目 录 1 前 言 . 1 2 UPF硬件加速背景概述 . 2 2.1 业务硬件加速需求 . 2 2.2 硬件加速技术背景 . 3 2.3 NFV标准和开源情况 . 5 2.4 UPF硬件加速应用现状 . 8 3 UPF硬件加速技术要求 . 9 3.1 智能网卡关键技术要求 . 10 3.1.1 加速芯片选型-移动 . 11 3.1.2 智能网卡设计要求 . 14 3.2 智能网卡管理和编排要求 . 19 4 扩展应用场景 . 20 4.1 固移融合场景 . 20 4.2 多业务融合场景 . 21 4.2.1 UPF全卸载方案 . 22 5 展望与呼吁 . 23 1 1 前 言 UPF(user plane function)作为5G核心网的网络功能网元,承担了数据流量处 理、路由转发等核心网络处理功能,是5G用户数据流量接入运营商网络的桥梁。 伴随着5G技术发展和边缘业务的兴起,UPF承载的用户数和业务种类日益增 加,新业务、新场景对UPF的处理性能提出了更高要求。在智能制造、智慧城市、 车联网、云游戏、AR/VR等各个垂直领域,时延与带宽成为此类边缘业务的核心 关注点。以工业控制领域为例,对端到端转发时延要求不超过1ms,UPF转发作为 其中一环,处理时延要求更低。AR/VR类应用对带宽要求在28Gbps以上,而承载 人网流量的UPF,在承载百万级用户量的前提下,带宽要求甚至要达到300Gbps以 上。 随着运营商网络功能虚拟化(Network Function Virtualization, NFV)的推进, 控制面网元已经逐步完成了云化部署。下沉到边缘机房的UPF需要具备灵活切片 能力,同时与边缘计算业务共站点部署,云化是必然要求,实现业务的灵活部署 和资源最大程度的共享。然而,边缘云节点在空间、供电、承重等方面存在着很 强物理约束,这个特点使得边缘无法复制核心云端的无限资源、大规模部署模式, 在边缘云具体部署实现时,必须需要考虑在有限空间、供电资源、承重能力这些 前提下,如何满足业务对UPF的性能需求。因此,UPF硬件加速技术应运而生。 本白皮书以边缘计算发展理念为基础,以网络转型需求和业务发展趋势为指 引,向业界系统阐释中国运营商面向UPF进行硬件加速的整体架构、关键技术及 该加速方案的扩展应用场景。倡议业界联合对UPF硬件加速技术的架构、方案及 扩展应用等进行深入研究和实践,共同推进UPF硬件加速技术的成熟,更好的支 持边缘场景的业务发展和网络转型。 5G UPF硬件加速白皮书 2 2 UPF硬件加速背景概述 2.1 业务硬件加速需求 虚拟化技术的引入使包括UPF在内的5G核心网网元可以部署在通用服务器 资源池内,不再依赖于专用硬件,从而获得对资源的充分灵活共享、新业务的快 速开发和上线等优点,并基于实际业务需求实现自动部署、弹性伸缩、故障隔离 和自愈等功能。通用服务器资源池的建设方式降低了5G核心网的建设难度,但通 用服务器的CPU丧失了专用性,不擅长处理UPF中的核心业务“报文转发”这种 高并行处理任务,并且电信业务特性对计算性能的要求超过了“后摩尔定律时代” CPU的性能增长速度。 5G uRLLC超低时延和eMBB高带宽特性对核心网转发面网元UPF的处理时延、 带宽、抖动和丢包率等性能提出了更高要求。在5G uRLLC场景下,例如车联网对 端到端处理时延要求为5ms,目前转发面网元U面转发处理时延在0.5ms0.8ms左 右,存在下降空间,但是仅通过软件优化降低处理时延无法从根本解决时延问题。 另外,随着提速降费以及无限量套餐的普及,核心网数据转发量迅猛上升,同时 伴随5G发展,AR/VR、4K/8K高清视频、3D游戏等大带宽应用将进一步提升用户 上网数据总流量。而摩尔定律失效,单位面积CPU处理能力提升速度难以满足转 发处理需求,单纯通过CPU堆叠提升带宽能力将带来单bit转发功耗和成本的上升。 边缘计算融合网络、计算、存储等业务在网络的边缘侧提供计算服务,而UPF 下沉到边缘场景为边缘计算的落地和发展提供了良好的网络基础。随着边缘计算 技术的应用和发展,边缘计算情景下,业务种类不断丰富。在支持固移融合(Fix Mobile Convegent)的MEC中,可实现4G、IoT、WiFi等各种固网与移动网的综合 接入,提供无缝的FMC业务,部署在在工业园区场景中,有视频监控、AGV (Automated Guided Vehicle)等应用且要在边缘完成视频的分析和识别,会占用 大量带宽和计算资源。而5G作为最主要的接入方式之一,低时延、高带宽的业务 需求使UPF不得不面对的严峻考验,而UPF加速卡可以在空间上分离处理逻辑,从 3 而达到更快的处理速度、更稳定的处理时延。同时,边缘场景中的OVS、虚拟网 络防火墙、安全网关、IPSec、深度包检测、高精度定位算法、AI在线推理、视频 编解码等多种计算密集型、规模并行型业务也都对通用服务器提出了挑战,目前 各种GPU卡、FPGA卡、AI加速卡等逐渐引入了边缘计算场景。形形色色的加速卡 造成了一个个“加速卡烟囱”,为边缘计算资源池和机房的建设提高了难度,同 时也限制了虚拟化技术的灵活优势的发挥,增加了维护成本。因此UPF加速卡作 为边缘计算场景中不可或缺的加速卡,在设计上兼顾其他业务加速需求,通过动 态可重构技术支持OVS等业务的加速,可以有效避免边缘计算资源池中的“加速 卡烟囱”现象,提高资源池的灵活性和建设方案的可复制性,降低后期维护成本。 5G网络中,为满足5G网络的大带宽和低时延等特性,UPF有非常大的性能提 升需求,只靠X86处理器性能难以满足;并且UPF的部署位置逐渐向边缘下沉,边 缘机房的电力、承重无法按照核心机房要求建设且空间较小,引入硬件加速可以 有效降低设备占地、功耗。同时,服务器数量的减少也有利于降低边缘节点运维 难度。 2.2 硬件加速技术背景 随着网络用户体量的增长和业务的发展,数据中心对计算算力的需求迅猛增 长。在过去很长的一段时间里,通用处理器性能同摩尔定律预期一致,每十八个 月即可翻一倍,及时满足了应用的发展需求。随着半导体技术进入10nm阶段,性 能突破周期延长,业务的性能需求仍在爆炸性增长,并显现出高并行、高密度等 计算特点,通用处理器能力与业务需求之间逐渐出现鸿沟。 硬件加速(Hardware Acceleration)通过将处理工作分配给加速硬件(协处理 器)以降低中央处理器负荷,是上述问题的一种解决方案。硬件处理效率是软件 算法优化的基础,利用适合的加速硬件具有的处理优势可实现性能提升、成本优 化的目的。 引入硬件加速的计算架构又称为异构计算(Heterogeneous Computing),相对 5G UPF硬件加速白皮书 4 于通用计算(又称同构计算)来说,所谓的异构,就是CPU、SoC、GPU、ASIC、 FPGA等各种使用不同类型指令集、不同体系架构的计算单元,组成一个混合的系 统,执行计算的特殊方式。 加速硬件依据实际需求广泛部署在从端到云的多种需求场景。 SoC在一颗芯片上集成CPU内核、特定功能ASIC模块及GPU等,构成片上系 统级芯片。在手机等终端领域以较低功耗实现图像视频等处理加速。 高性能FPGA在数据中心的计算、网络、存储加速领域有广泛应用。 微软Catapult项目历经三代FPGA架构,将Bing搜索中排名运算卸载到FPGA加 速,使系统吞吐提升两倍,服务器数量投入减少一半,时延下降29%,后续继续 卸载了深度神经网络(DNN)等时延敏感型计算任务。同时,FPGA与网络直连, 还可用于加速Azure解决网络和存储虚拟化带来的开销,使虚拟机网络性能由25G 达到接近40G线速,数据中心内虚机通信网络延迟降低10倍。在MICRO16 会议 上,微软提出了Hardware as a Service(HaaS)的概念,即把硬件作为一种可调度 的云服务,使得 FPGA 服务的集中调度、管理和大规模部署成为可能。2017年, 微软推出了brainwave项目,这一基于FPGA的深度学习加速平台代表着FPGA在数 据中心的应用向人工智能领域扩展。 图1 Azure的FPGA架构 GPU作为图形图像处理硬件,在游戏渲染、人工智能和高性能计算等领域应 5 用广泛。Summit超级计算机搭载了27000多个Nvidia GPU,性能达到3 exaop/s,其 中GPU贡献了95%的算力。 随着Amazon AWS在16年推出EC2实例F1 FPGA计算实例后,主流公有云厂家 均陆续部署了FPGA、GPU实例,为用户提供便捷的加速能力。以阿里云为例,阿 里云异构计算加速引擎涵盖了包括FPGA、GPU在内的多款异构实例,可满足从图 形渲染到高性能计算及人工智能等复杂应用的计算需求。特别是在人工智能领域, 可将深度学习成本缩减一半,大幅降低人工智能计算门槛;而基于阿里云异构平 台的全新高性能计算实例E-HPC,可一键部署获得媲美大型超算集群环境的“云上 超算中心”。 图2 阿里云的异构实例 在业务稳定、需求成熟的场景下,使用者更倾向于定制专用的ASIC实现性 能提升。18年,京东云采用基于ASIC芯片的OvS卸载智能网卡,降低成本、提 高网络吞吐能力,有效解决电商等业务高峰期的稳定性问题。Google在16年发布 的TPU则是专为加速神经网络计算而设计的一款AISC芯片,已应用到包括谷歌 图像搜索、谷歌照片、谷歌翻译等多款基于神经网络的产品和服务中。 随着在特定场景下采用CPU作为算力解决方案的性价比降低,多硬件组合 的加速方案在不同业务场景下日渐成熟。 2.3 NFV标准和开源情况 现今NFV主要的开源组织以及标准对硬件加速均有所涉及,最新的ETSI NFV 架构引入了加速硬件,OpenStack社区提供了硬件加速统一管理软件框架标准。 5G UPF硬件加速白皮书 6 图3 ETSI NFV参考架构 ETSI NFV架构在提供了一种通用加速架构标准之外,同时还定义了硬件加速 的两种实现方式,分别为Pass-though模型和抽象模型。 1. Pass-through模型,可以将插槽上的硬件加速卡直接给到某个制定的虚拟 机使用,此方式最为通用。 2. 抽象模型,由NFVI负责加速硬件卡的虚拟化管理,并将虚拟加速卡挂在 给虚拟机上,此方案可以将虚拟卡资源被多个虚机使用。 图4- 1 Pass-through模型 7 图4- 2 抽象模型 在E TSI定义硬件加速框架同时,OpenStack开源社区也启动了Cyborg项目 (起源于ETSI NFV-IFA 004 doucument)。 图5 OpenStack发起Cyborg项目 Cyborg项目的目标是提供通用的硬件加速管理框架,被管理的加速硬件可包 括G PU、FPGA等。Cyborg的主要功能包括硬件资源的发现、上报、挂载卸载等资 源管理。用户可以通过Cyborg列出计算节点上已经被发现和上报的加速器、并创 建带加速器的实例。对于一些特殊硬件的特殊功能或配置(如:FPGA的加速逻辑 加载),也将在Cyborg实现。Cyborg将加速器与Nova创建的虚机实例进行连接建 立,提供了通用的硬件加速管理框架。 Cyborg通过管理、使用计算节点上的加速器硬件, 可以提供电信运营商在 NFV以及边缘计算场景下的各种加速服务、提高用户体验、降低CPU负载。基于 5G UPF硬件加速白皮书 8 Cyborg的通用硬件加速框架,有利于帮助我们把采用统一抽象逻辑和交互系统屏 蔽各类加速硬件底层实现差异同时规范不同硬件业务处理能力运维人员可以通过 Cyborg列出、识别和发现加速器,挂载、卸载加速器实例, 安装、卸载驱动。其中 Cyborg调用加速器过程如下图所示。 图6 Cyborg调用加速器流程图 2.4 UPF硬件加速应用现状 当前UPF硬件加速的应用与NFV通用、共享、统一的要求仍有一定距离,因 此需要针对现有问题进行分析,在运营商的方案制定中联合业界共同解决问题、 完善方案,推进加速技术的成熟。硬件加速方案在UPF中的应用现状,可以总结 如下: 加速硬件使用方式简单 当前主要采用将加速硬件以SR-IOV方式挂载给单一虚拟机使用,无法在多虚 拟机之间共享使用,导致加速资源利用不均衡。 加速方案不统一,硬件不通用 9 各UPF厂家选择的加速硬件不同,加速方案的研发进展各异。加速硬件与UPF 软件绑定,其他厂家难以适配,不符合NFV硬件通用性要求。厂商方案软硬锁定, 形成专用设备,不符合NFV分层采购建设要求。 加速硬件管理不成熟,MANO需扩展 硬件加速的使用可以分为感知、分配、调度、释放等四个阶段。感知需要云 平台对硬件类型进行识别,分配需要VNFM和NFVO支持网元对加速硬件资源请 求的解析,调度需要云平台进行加速资源的监控和部署,释放则需要云平台对加 速硬件资源进行重新编程。这些都需要对MANO进行扩展。 3 UPF硬件加速技术要求 硬件通用部署需要实现解耦,加速硬件解耦方式有两种,第一种是软硬解耦, 如图1- 3(a)即UPF加速软件与UPF软件同厂商,与加速硬件异厂商;第二种是软 软解耦,如图1-3(b),UPF加速软件与与加速硬件同厂商,与UPF软件异厂商。 图7 解耦方式 5G UPF硬件加速白皮书 10 软硬解耦需要统一加速硬件设计,加速硬件需要兼容多VNF厂商加速需求, 这使得硬件资源可能存在冗余。 软软解耦由硬件厂家将加速卡与加速软件作为一个整体提供业务卸载加速服 务。通过标准化硬件加速卡与VNF之间的API,实现VNF与硬件加速卡的协同工作, 具有无需VNF厂商在不同硬件上重复开发即可调用异厂商的加速能力的优点。但 在实际操作时也面临困难: 1. API标准化难度大:VNF业务功能与API呈映射关系,众多功能导致API标 准化工作量大;各厂家的VNF业务逻辑实现方案不同,使得API的参数难 以统一;每个API的标准化都可能影响到VNF软件方案,推动VNF厂家兼 容与适配的难度极大;因此,API参数定义难度大,会拉长上线周期。 2. 加速卡厂家开发要求高:加速卡硬件厂商实现VNF业务逻辑卸载,需要 理解VNF处理逻辑,对开发团队的能力要求较高。 3. 测试、调优难度大:加速卡加速软件与VNF软件之间配合实现VNF的业 务功能,测试和性能调优的配对难以指定,性能评价标准难以统一。 4. 升级、运维困难:加速软件与VNF软件升级需要与对方重新进行适配和 兼容测试,还需要保证两者同步升级,会拉长上线周期和后期增加维护 难度。 目前,三层解耦的推进已经面临着集成和维护困难的问题,加速卡的软软解 耦方案则会导致三层解耦的难度进一步增加,综上,在现阶段建议采用软硬解耦 方案。 3.1 智能网卡关键技术要求 加速芯片可以通过PCIe插卡或封装为智能网卡两种方式使用,UPF作为处理 网络数据包的转发类网元,智能网卡方式可以在接收数据包后直接送加速芯片处 11 理,以更加高效的in-line或fast -path形式设计卸载方案,达到更好的加速效果。因 此,以下技术要求是基于智能网卡形态的加速芯片选型及设计要求。 3.1.1 加速芯片选型 通常可以将加速芯片分为四种主要类型,即GPU、FPGA、ASIC、SoC,结合 业务实际需求进行选型。从当前UPF的需求来看,部署在边缘机房的UPF需要处理 低时延场景和高并发的大带宽场景,同时,满足UPF快速功能迭代和加速功能演 进。根据以上需求,我们可以从芯片架构、性能、功耗、开发难度等几个方面对 四类加速芯片进行对比。 GPU(graphics processing unit,图形处理器)擅长处理图形、图像处理类的并 行计算,这一类计算的特征为计算数据之间关联性小,计算密度高。图8给出了GPU 的硬件架构,GPU架构中多个计算单元共享一个逻辑控制单元和存储单元,GPU 的指令处理与CPU相似,需要经过取指令(逻辑控制单元)-指令译码(逻辑控 制单元)-指令执行(计算单元)的过程,这种结构就要求适合GPU处理的算法 本身复杂度较低,对于密集型数据的并行处理可以发挥GPU的计算优势。GPU的 高并行计算能力基于多计算单元和高时钟频率,由此使得GPU的功率偏高,在应 用时需要考虑供电、散热等机房条件的保障。GPU基于CUDA或OpenCL进行开发, 开发环境稳定,技术普及程度高,软件开发门槛较低。 5G UPF硬件加速白皮书 12 图8 GPU硬件架构 FPGA(field programming gate array,现场可编程逻辑门阵列)是由逻辑门电 路组合成的可重复编程器件。图9给出了FPGA的硬件架构,CLB是FPGA的基础逻 辑单元,由可编程LUT和触发器等组成,CLB之间的PI是可编程互联线,IOB作为 可编程IO模块,支持FPGA直接收发网络数据包。当前一块FPGA集成的CLB数量 数以万计,可以在较低功耗下实现高性能数据计算,丰富的I/O和编程器件使其在 并行计算领域有广泛应用。FPGA一般通过Verilog或VHDL语言开发,硬件描述语 言直接定义片上电路的组合连接,从而实现某种功能,与软件编程相比,无需经 过指令处理,这使得FPGA的计算处理速度更快,适合于时延敏感业务。FPGA应 用对开发人员要求较高,需要了解底层硬件知识,目前FPGA厂家为了降低开发门 槛,在不断优化开发平台(如xilinx Vitis),以期使FPGA开发更加快速、便捷。 图9 FPGA硬件架构 ASIC(application specific integrated circuit)是一种专门为某种特定需求定制 的集成电路。ASIC芯片的计算能力、性能均可按需定制,定制化使得AISC在尺寸、 功耗、性能方面具备极好的优势。然而量体裁衣式的定制化要求“体”,即特定需 求必须稳定、不可变更,这使得ASIC芯片更适用于成熟稳定期的应用,难以支持 持续演进领域的需求。同时,定制化使得ASIC芯片在前期的设计、验证上需要花 13 费大量时间和人力,从研发到市场应用的周期很长,这也使得ASIC芯片需要批量 化大规模应用才能弥补前期的投入。 SoC(systerm on chi p,片上系统)是一类将多种芯片集成,组成有专用目标 的芯片系统。通常集成了中央处理器和特定功能的ASIC芯片,以满足性能要求。 当前SoC芯片主要用于终端设备,在数据中心的应用暂不成熟。由于涉及ASIC集 成,硬件也需要根据客户需求定制。 图9 SoC架构举例 综上可以总结出四类主流芯片的特点如表1。 表1 四类主流加速芯片的特点 芯片 芯片架构 灵活性 性能 功耗 开发难度(软件/硬件) GPU 适合复杂度较低的大 规模并行计算 高 高 高 中/ - FPGA 适合并行计算、低时延 应用、支持算法的优化 和演进 高 高 中 高/ - ASIC 根据应用定制 低 高 低 -/高 SoC 根据应用定制集成 中 中 低 低/中 5G UPF硬件加速白皮书 14 前面提到,UPF主要面临的问题包括高并发大带宽和低时延的性能要求,下 沉到边缘机房的低功耗要求以及后续持续的优化演进。因此,FPGA作为一种灵活 性高,能耗比高且处理时延更低的加速硬件,更加适合当前UPF的加速需求。 3.1.2 智能网卡设计要求 3.1.2.1 大网、通用2B场景 在NFV架构下采用软硬解耦方式引入FPGA智能网卡,运营商在定制智能网 卡设计要求时需要考虑三个问题: 1、UPF厂家需要基于FPGA智能网卡开发加速功能,在NFV模式下,多UPF厂 商多智能网卡配对,为保证业务快速上线,需要考虑降低适配开发工作量; 2、在OpenStack社区,Cyborg组件可以实现FPGA智能网卡的发现、管理以及 加速功能加载,FPGA智能网卡需要支持通过Cyborg实现自动化重配置, 保证后续UPF的功能迭代; 3、FPGA智能网卡加载加速逻辑后,不能影响服务器的稳定运行。 针对以上问题,FPGA的shell -role技术给出了解决方案。Xilinx FPGA架构下的 shell-role和Intel FPGA架构的BBS -GBS,本质上是将FPGA片上资源划分为两大区 域:静态区域和动态区域。静态区域由网卡厂家预先完成开发调试,封装PCIe接 口、DDR控制器等通用逻辑,对动态区域提供调用接口;动态区域加载用户的加 速逻辑。 1. 由网卡厂家提供通用逻辑,减少应用的重复开发,应用直接调用硬件平 台能力,可专注于业务加速逻辑的开发,降低开发工作量; 2. Shell提供支持通过cyborg自动加载的模块,同时,shell屏蔽了加速逻辑与 硬件之间的关联,可实现在线的自动加载; 15 3. 网卡厂家提供shell,应用无法修改,可形成FPGA用户到服务器的隔离, 为设备稳定、可靠提供保障,也可保证用户安全。 此外,FPGA开发是基于芯片硬件的布局,针对不同厂家、不同型号的芯片适 配开发不同的加速bin包,同时,shell-role架构涉及硬件资源划分,role的划分区域 不同同样会生成不同的加速bin包。厂家的适配开发压力较大,同时多个bin包会使 开发调试和上线后的软件版本管理变得复杂,因此为了降低适配和管理难度,定 制智能网卡需要明确板卡芯片型号及shell-role设计。 图10 FPGA智能网卡架构 综上,引入FPGA智能网卡的架构如图10所示。 需要定义的智能网卡要求可以总结为: 1. 通用要求,如:尺寸、功耗、环境适应性等; 2. 部件要求,如:FPGA型号、网口、内存、PCIe等; 3. 软件要求,需支持shell-role架构,并明确shel l部分的功能要求: a) 提供基本网络功能,使智能网卡在加载加速bin包前具备网卡功能, 5G UPF硬件加速白皮书 16 如支持SR-IOV、VLAN透传、组播等; b) 提供UPF加速使用的基本IP功能,降低VNF厂家开发工作量,如PCIe、 内存控制器、数据包收发端口等; c) 管理类功能,如role资源利用率监控、部分可重配模块实现FPGA在线 重配置等。 4. 板卡设计及shell-role设计。 下表列出了FPGA智能网卡部分技术要求: 表2 FPGA智能网卡部分技术要求 类型 要求 FPGA 可编程逻辑资源满足UPF卸载需求 内存 72Gb DDR4 PCIe Gen 3.0 x 16及以上 网络接口 2个100GE以太网QSFP28接口 驱动 支持DPDK和cyborg纳管 静态区域网 络功能 1、 支持SR -IOV,每个网口的VF数量不少于63个; 2、 支持VF桥接功能,同一网口上VF之间的通信流量在网口内部交换,而 无需出网口; 3、 支持链路状态感知功能,当SR -IOV网口下线时(比如网线被拔出), 其上PF及所有VF的状态也需自动更新为下线状态; 4、 其他 静态区域基 础IP 1、 支持FPGA AFU资源使用率监控; 2、 支持config over pcie,例如烧写PR bitstream; 3、 PCIe IP:负责FPGA芯片和主机系统间基于PCIE协议的数据交互; 4、 板载内存控制器(EMIF):内存控制器主要负责FPGA芯片对板上内存 的读写/控制; 5、 其他 静态区域管 1、 部分可重配模块(Resets):提供FPGA芯片的部分可重配功能,FPGA 芯片支持一个PR,并支持通过Cyborg管理; 17 理类IP 2、 FPGA管理引擎(FME):负责系统中断的提交,监控数据的上报,以 及硬件错误的上报(RAS) 3、 其他 3.1.2.2 边缘、多业务场景 MEC作为云计算的演进,将应用程序托管从集中式数据中心下沉到网络边缘, 更接近消费者和应用程序生成的数据,在靠近移动用户的网络边缘提供IT和云计 算的能力,并利用网络能力开放获得高带宽、低延迟、近端部署优势。MEC是实 现5G低延迟和提升带宽速率等的关键技术之一,同时MEC为应用程序和服务打开 了网络边缘,包括来自第三方的应用程序和服务,使得通信网络可以转变成为其 它行业和特定客户群的多功能服务平台。因此5G与MEC是密不可分的,边缘UPF 下沉到边缘位置,在边缘UPF资源池构建MEC,使UPF与MEC共平台,可以更充 分地利用资源。因此边缘UPF的建设方案需要同时考虑MEC场景中的业务需求。 如果说现网大区场景中UPF加速卡的初衷是为了通过加速卡实现高性能的 UPF业务,其设计原则是针对UPF的业务特点进行加速卡的规格配置设计,使其性 价比达到最大,那么边缘场景中的UPF加速卡设计原则却与之“背道而驰”。 边缘场景中UPF对加速卡的需求主要来自低时延、确定性网络等业务要求。同 时,随着边缘计算技术的应用和发展,软件防火墙、加解密、视频编解码、人工 智能技术的AI训练和推理等计算需求都对以通用处理器为主要计算资源的边缘 计算方案提出了严峻考验,越来越多的边缘计算场景中引入智能网卡、GPU、AI 计算加速卡等硬件加速设施,但是这些硬件加速设施通常功能单一,以软软接口 的方式为VNF提供加速服务,而这些API接口通常由加速卡供应商定义,没有统一 的接口规范,每款加速卡仅余若干VNF适配兼容,形成了加速卡“烟囱”。设想 在边缘场景中,有限的通用服务器上根据业务需求分别部署着若干UPF加速卡、 AI加速卡等各种业务的加速卡,而这些加速卡又与VNF/APP绑定,那么云化的灵 活部署、快速上线等优势荡然无存。 因此在网络、安全、视频、存储、AI等各种业务并存、业务的复杂性和对业 5G UPF硬件加速白皮书 18 务灵活调度的需求也远高于现网大区的边缘场景中,UPF加速卡的设计原则不应 该再针对UPF业务做最优化设计,而应该在支持UPF加速软件部署的同时还可以 按需部署、AI等业务加速逻辑。以实现在边缘场景部署UPF加速卡的硬件白卡后 可以支持多种业务按需调度并将业务加速逻辑部署到加速卡中的效果,并通过根 据多种业务逻对资源的需求不同进行合理组合编排的方法分担加速卡的成本,实 现加速卡的性价比最优化。因此,这种边缘场景的UPF加速卡应兼容多业务融合 边缘场景中的各类业务的加速需求,在满足shell-role设计要求的基础上,还需要 满足以下技术要求: (1) 多role 考虑到边缘计算场景中的业务多样性,一块FPGA卡可以支持多种业务的加 速软件部署,譬如同时支持UPF加速和AI推理加速,在提高灵活性的同时,也能 更充分地利用FPGA的计算资源,提高FPGA卡的性价比。 目前多role之间的资源管理还不够成熟,多个子区域中的加速软件之间的资 源隔离会造成资源损耗,所以现阶段同一颗FPGA芯片中的多role加速软件的开发 和设计还主要由同厂家设计开发。随着多role之间资源管理技术的发展,可支持异 厂家加速软件部署在同一颗FPGA芯片中,可以实现更小粒度的资源管理,更充分 利用FPGA白卡的板上资源。 在当前多role技术尚不成熟的阶段,单加速卡上设计多颗FPGA芯片的方式也 是一种加速卡级的多role方案。该方案中多颗FPGA芯片分散设计的方法更有利于 散热,但是也引入了多颗FPGA芯片与服务器之间通信接口复杂的问题。 (2) 提供丰富的IP资源和友好易用的SDK FPGA白卡供应商应提供丰富的基础功能IP和友好易用的SDK,方便VNF/加 速软件厂商在FPGA白卡上实现加速功能。同时可以探讨引入IP供应商的合作模式, 使FPGA白卡的生态更加繁荣。 19 3.2 智能网卡管理和编排要求 在UPF加速场景下,FPGA智能网卡的加速管理和编排需要MANO、OpenStack 和智能网卡协同完成,共同打通管理编排流程。对FPGA智能网卡的管理编排可以 分为对加速资源和加速镜像的管理编排。加速管理架构图如图4-11所示。 图11 加速管理架构图 对于加速资源和加速镜像的管理编排流程和接口要求包括: 表3 加速资源管理编排要求 NFVO/VNFM Hypervisor VIM NFVO能够获取VIM上的 加速资源信息 VNFD中有对加速资源的 描述信息 VNFM能够解析VNFD中 的加速资源信息 其他要求(可靠性、安全 和兼容性要求) 加速管理Agent对加速硬件 的纳管 加速数据的标准化(包括加 速镜像名称、镜像UUID、设 备商、版本号、驱动、驱动 版本等) 其他要求(可靠性、安全和 兼容性要求) Cyborg相关组件的管理、调 度和其他组件的协同 VIM北向接口加速相关原 生接口使用 VIM需要将普通网卡与加 速器信息区别上报 其他要求(可靠性、安全和 兼容性要求) 当前,Cyborg组件针对FPGA智能网卡需要支持加速镜像的远程自动加载,随 着FPGA智能网卡应用的扩展,也会对Cyborg及MANO提出新的管理要求,如 FPGA通过划分多个role支持多应用加速,C yborg组件需要支持对多role资源的发 5G UPF硬件加速白皮书 20 现和识别。 4 扩展应用场景 4.1 固移融合场景 随着边缘计算技术的发展,运营商应支持移动网和固网同时接入,多种接入 方式可以为垂直行业提供灵活化的网络接入以及高带宽、低时延的无缝连接承载 网络。 移动网接入的边缘计算在距离用户最近的位置提供了业务本地化和边缘业务 移动性能力,进一步减小业务时延,提高网络运营效率、提高业务分发以及改善 终端用户体验等。其采用灵活的分布式网络体系结构,把服务能力和应用推进到 网络边缘,极大地缩减了等待时间。 固网接入的边缘计算是将业务节点和固网专用设备部署在一起,它帮助计算 遍布在从端到边到云的各个环境,赋能万千行业,使业务在本地能进行闭环,大 幅降低响应时延,缩减IDC带宽成本的消耗。 21 图12 固移融合 NFV能够将传统电信设备功能,通过软件的形式部署在通用服务器上,实现 网络功能和硬件设备的解耦,便于网络功能的快速迭代。BRAS是在城域网边缘的 重要设备,虚拟化后的BRAS(vBRAS)与5G UPF可通过使用FPGA智能网卡,加 速NFVI层的通用硬件设备,更好的扩充设备能力,保障时延以及带宽的需求,推 进边缘计算在固移融合场景下的各种应用。 4.2 多业务融合场景 边缘计算作为工业互联网工厂内网的关键技术,以及连接工厂内外网的有效 手段,是推动企业企业转型发展的重要使能技术。例如工厂内网存在需要大量实 时交换的生产数据,需要利用边缘计算节点对本地数据进行采集、过滤、清洗等 实时处理,以及进行跨层协议的实时转换,实现各种生产设备的统一接入管理, 为其他平台或工控应用提供“流量入口”。 从MEC角度来看,UPF是作为MEC host中的DP(Data Plane)在5G场景下的 一种具体实现。但是在工业互联网的行业专网场景中对于边缘UPF,只需要具备 基本功能(例如分流),大部分UPF的高级功能(例如计费统计)并不是必须的。 同时由于边缘UPF仍然需要接受5G核心网的统一管理,所以边缘UPF的部署位置 不可能“下沉”太低,无法满足超低延迟场景的需求(例105ms以下超低时延)。 另外,从UPF成本以及UPF接口的解耦现状来看,部署边缘UPF将导致整个网络建 设成本过高,而且无法满足UPF能力向异厂家第三方平台开放的定制化需求。所 以,目前国内外运营商出现了无需下沉UPF,采用更加轻量化的MEC DP进行分流 的解决方案,包括N3 LBO和F1 LBO。例如,在中国联通EdgePod解决方案中,MEP 内置负载均衡器,通过MEP与MEC DP协同,可以将特定第三方用户流量分发到 相应的APP上。同时提供了平台API、SDK和开发者工具集合,让用户可在边缘节 点快速实施应用入驻。 MEC DP(Data Plane)作为MEC的数据面,如果部署在无线接入网和核心网 5G UPF硬件加速白皮书 22 之间提供数据转发通路,则具备N3 GTP(GPRS Tunneling Protocol)分组数据包 解析能力,这样通过MEC D P就可以实现数量流量的本地卸载。例如通过解析出 GTP包的目的IP地址,可以直接将本地流量数据包路由到本地网络。 图13 MEC Data Plane网元接口 在实际部署场景中,MEC DP包括GW -U 插件for LTE、UPF插件 for 5G、IoT插件 for NB、BNG-U插件 for 固网/ WiFi等形式。可以通过对加速软件中功能模块的灵 活裁剪和定制增强,实现FPGA白卡对不同形式的MEC DP的加速。 4.3 UPF全卸载方案 5G UPF在现网核心网中的应用已经相对明确,但是在边缘场景中的应用方案、 功能和设备形态研究还在起步阶段。基于边缘场景中UPF加速卡可以针对需求进 行灵活定制开发实现一些定制化的功能,可以促使边缘UPF的技术发展。 UPF从核心逐步下沉到边缘计算甚至行业专网场景中,其运行的平台也从受 信任的核心网通信云平台下沉到了MEC云平台甚至工厂园区的机房环境中。在这 些边缘场景中的软硬件平台难以评定安全程度,因此将UPF网元软件部署在边缘 场景的资源池中存在安全隐患。 同时,在边缘场景中,往往对UPF的功能需求相对现网需求又稍弱一些,边 23 缘场景尤其是行业专网场景中的媒体流量相对明确,通常不需要URL解析等功能。 而分析UPF业务功能可以发现,只有L7层DPI、头增强等业务涉及到非结构化的报 文内容检索和修改不易在硬件加速芯片中实现,其他诸如GTPU封装卸载、 L3/L4DPI、QoS、计费等业务可以下沉到FPGA芯片中通过FPGA加速软件实现。 因此只需要在加速卡上集成一颗低功耗CPU或者选用一款集成CPU核的 FPGA芯片,利用加速卡上的CPU实现与SMF间的N4协议交互和对加速卡的配置 管理,就可以在加速卡中实现满足边缘场景需求的UPF的全业务卸载, 该方案是对边缘多业务融合加速卡的一种应用,UPF全卸载到加速卡,不再 依赖服务器的通用处理器,只需接受边缘云的MANO管理即可,不需要考虑VNF 与边缘云的兼容性和适配问题。可以有效减少核心网的安全隐患、降低UPF在边 缘场景中与MEC共平台部署难度。 5 展望与呼吁 随着5G与边缘计算的快速发展,面向新场景、新架构、新需求的业务如雨后 春笋般不断涌现,对网络提出了更高的要求,因此,硬件加速技术成为边缘场景 下的必要条件。然而,硬件加速技术、尤其是转发面网元硬件加速技术的方案制 定和产业成熟度等诸多方面尚未成熟,亟需进一步完善和推进。 当前,中国移动、中国电信、中国联通均开展了相关方案、架构、关键技术 的研究。后续将共同在标准、开源、产业等方面,推动硬件加速尤其是UPF加速 方案和技术的成熟,组建联合实验室,验证技术方案的可行性,逐步推动硬件加 速技术成熟商用。 加快标准化工作,共同推进UPF加速硬件、即FPGA智能网卡设计的标准 化,研究硬件加速在运营商网络架构中的需求和加速方案。我们在此也 再次呼吁业界合作伙伴联合开展标准讨论制定。 5G UPF硬件加速白皮书 24 开源方面,积极跟踪、参与OpenStack中的Cyborg项目,致力于实现加速 卡在NFV管理架构下的统一管理和运维;同时,紧密关注OHCF、DPDK 等加速相关开源社区,推动整个硬件加速产业发展。 产业推进方面,为凝聚产业力量,积极与业界分享UPF硬件加速技术的相 关研究和验证成果,将依托产业论坛、产业峰会等多种形式,进行更加深 入的技术和产业合作的探讨,共同推动UPF硬件加速产业发展和成熟。 建设联合测试平台,推动加速方案的成熟落地。依托联合测试实验室,开 展面向硬件加速的技术方案验证。为寻求更加合理的解决方案,后续将 吸纳更多的厂家参与到硬件加速技术尤其是转发面网元加速技术的技术 攻关和试验验证之中,加速转发面网元硬件加速的商用进程。 为了推动UPF硬件加速技术与产业成熟,中国移动、中国电信、中国联通将 以开放合作、包容共赢的态度,分享最新研究进展,接收产业最新知识,愿与业 界携手共同推进UPF硬件加速技术与方案的早
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642