资源描述
AI Fabric,面向AI时代的智能无损数据中心网络AI Fabric ,面向AI时代的智能无损数据中心网络1 AI时代来临,企业数据中心将更聚焦数据高效处理2 从TCP到RDMA跨越式变迁,对网络提出新诉求3 分布式架构成为趋势,加剧网络拥塞,驱动网络变革4 AI Fabric重构数据中心网络,AI时代数据存储和处理效率提升2540% 5 AI Fabric成功实践1.1 AI时代主题:从数据中挖掘智慧.11.2 计算和存储变革以提升数据处理的效率,而通信成为制约因素.22.1 RDMA替代TCP/IP成为大势所趋.32.2 当前RDMA的两类网络承载方案均存在不足 .43.1 分布式架构对网络的影响 .53.2 数据中心网络变革方向:0丢包、低时延、高吞吐.64.1 AI Fabric独创算法,保证0丢包的基础上实现吞吐最高,时延最低 .74.2 AI Fabric加速AI时代数据计算和存储的效率,带来45倍的ROI.84.3 AI Fabric为未来的DC构建统一融合的网络. 94.4 AI Ready的交换机硬件架构,支撑AI Fabric长期演进.105.1 AI Fabric在互联网的实践.115.2 AI Fabric在金融行业的实践.112.2.1 InfiniBand封闭架构,无法兼容现网.42.2.2 IP以太网络拥塞丢包,导致吞吐率极低 .4目录1AI时代来临,企业数据中心将更聚焦数据高效处理人机围棋大战 Alpha Go的胜利向全世界强势宣告,AI时代已经到来。AI正在以前所未有的速度深刻改变人类社会生活,改变世界。 华为GIV(Global Industry Vision)预测,到2025年企业对AI的采用率将达到86%,越来越多的企业将AI视为数字化转型的下一站,利用AI助力决策、重塑商业模式与生态系统、重建客户体验的能力将是数字化转型计划取得成功的关键推动力。2016年当前各行各业的数字化转型正在加速。分析数据显示,64%的企业已经成为数字化转型的探索者和实践者(IDC),全球2000家跨国公司中,67%的CEO已将数字化确定为公司战略的核心(Gartner)。数字化过程中将产生大量的数据,这些数据正在成为企业核心资产,华为GIV预测,2025年新增的数据量将达到180ZB。然而数据本身不是目的,从中提取出来的知识和智慧才是永恒的价值。但是由于这些数据中非结构化数据(比如原始采集的语音、视频、图片等未加工数据)比例持续提高,未来将达到95%以上,当前大数据分析处理方法束手无策,如采用人工处理,则由于数据量巨大远超全人类的处理能力。而基于机器运算进行深度学习的AI算法,可以完成海量无效数据的筛选和有用信息的自动重组,从而给人们提供更加高效的决策建议和更加智慧化的行为指引。通过AI从海量数据中挖掘智慧成为AI时代不变的主题。数据成为所有人和企业的重要资产,通过AI机器学习利用各种数据辅助实时决策,已经成为企业经营的核心任务之一。与云计算时代相比,AI时代企业DC的使命正在 从聚焦业务快速发放向聚焦数据高效处理进行转变。AI时代主题:从数据中挖掘智慧1.1Cloud聚焦应用,云业务快速上线邮件 网页 社交 视频AI聚焦数据,AI运行效率提升人脸识别 数据挖掘生命科学无人驾驶AI Fabric, 面向AI时代的智能无损数据中心网络1图1:数据中心正在从云时代走向AI时代算法、算力、数据被称为 AI发展的三大关键要素, 2012年深度学习算法的突破引爆人工智能产业发展。而深度学习的算法严重依赖海量的样本数据和高性能的计算能力,以无人驾驶技能的AI训练为例,一天采集的数据接近P 级,如果采用传统的硬盘存储和普通CPU来处理,则至少需要 1年的时间才可能训练完成,几乎不可行。为了提升 AI数据处理的效率,存储和计算领域正在发生革命性的变化。存储介质从机械硬盘(HDD)演进到闪存盘(SSD),来满足数据的实时存取要求,介质时延降低了不止100倍;为了满足数据高效计算的诉求,业界已经在采用GPU甚至专用的AI芯片,处理数据的能力提升了100倍以上。随着存储介质和计算能力的大幅提升,在高性能的数据中心集群中,当前网络通信时延成为性能进一步提升的瓶颈,通信时延在整个存储E2E时延中占比从10%跃迁到60%以上,也就是说,宝贵的存储介质有一半以上的时间是空闲通信等待;计算瓶颈也类似,如某语音识别训练,每次迭代任务时长为650ms700ms,通信时延为400ms,也就是说,昂贵的处理器也有一半时间在等待模型参数的通信同步。另外,每次训练任务需要迭代百万次,通信时延的增长也放大了百万倍。总的来说,随着存储介质和计算处理器的演进,通信时长占比激增到50%以上,阻碍了计算和存储效率的进一步提升; 只有将通信时长降低到与计算和存储接近,才能消除木桶原理中的“短木板”,推动计算和存储的性能得到有效提升。计算和存储变革以提升数据处理的效率,而通信成为制约因素1.2AI Fabric, 面向AI时代的智能无损数据中心网络 2图2:网络通信成为系统性能的短木板存储HDD计算CPU网络通信计算GPU存储SSD网络通信2从TCP到RDMA跨越式变迁,对网络提出新诉求伴随着AI的热潮 ,深度学习服务器集群涌现,以及各种SSD等高性能新型存储介质的发展,对通信时延提出了更高的要求(us级)。服务器内部通信协议栈变革首当其冲,传统的TCP/IP协议栈已经不能满足高性能系统的要求。传统TCP/IP网络虽然经过30年的发展技术日臻成熟,但与生俱来的技术特征限制了AI计算和分布式存储的应用。根据某知名互联网厂商的测试数据, 采用RDMA可以将计算的效率同比提升68倍,而服务器内1us的传输时延也使得SSD分布式存储的时延从ms级降低到us级成为可能,所以在最新的NVMe接口协议中,RDMA成为主流的默认网络通信协议栈。因此,RDMA在AI运算和SSD分布式存储追求极致性能的网络大潮中,替换TCP/IP成为大势所趋。RDMA替代TCP/IP成为大势所趋2.1TCP协议栈在接收/ 发送报文时,内核需要做多次上下文切换,每次切换需要耗费5us10us左右的时延,另外还需要至少三次的数据拷贝和依赖CPU进行协议封装,这导致仅仅协议栈处理就带来数十微秒的固定时延,使得在AI数据运算和SSD分布式存储- 微秒级系统中,协议栈时延成为最明显的瓶颈。除了固定时延较长问题,TCP/IP网络需要主机CPU多次参与协议栈内存拷贝。网络规模越大,网络带宽越高, CPU在收发数据时的调度负担越大,导致CPU持续高负载。按照业界测算数据:每传输1bit数据需要耗费1Hz的CPU,那么当网络带宽达到25G以上(满载),对于绝大多数服务器来说,至少1半的CPU能力将不得不用来传输数据。RDMA的内核旁路机制,允许应用与网卡之间的直接数据读写,将服务器内的数据传输时延降低到接近1us 。同时,RDMA 的内存零拷贝机制,允许接收端直接从发送端的内存读取数据,极大的减少了CPU的负担,提升CPU的效率。限制一:TCP/IP协议栈处理带来数十微秒的时延限制二:TCP 协议栈处理导致服务器CPU负载居高不下RDMA规避了TCP 的上述限制,将协议栈时延降低到接近1usRDMA:How it WorksHARDWRERACK 1 RACK 2TCP/IPApplicationBuffer 1Buffer 1Buffer 1Buffer 1Buffer 1Buffer 1Buffer 1Buffer 1HCA HCAApplicationRDMA over InfiniBand orEthernetOS OSNIC NIC1 2KERNELUSERAI Fabric, 面向AI时代的智能无损数据中心网络3图3:RDMA vs. TCP/IP运行原理图总结:RDMA的高效运行,离不开一个0丢包、高吞吐的开放以太网作为承载。而拥塞丢包是传统IP以太网络的基本机制,一旦流量模型复杂出现丢包势必导致吞吐率极低。很多厂家会采用PFC 和ECN 机制来避免丢包提升吞吐率,而现有的RDMA拥塞并且,在分布式架构中,每个服务器的角色都是对等的,同时作为发送端和接收端,也就是说,无法通过增加接收端的端口带宽解决incast突发问题。“大包” 意味着随着分布式计算复杂度的增加,服务器之间交互的消息长度越来越大;如在图像识别的分布式计算中,每次交互的模型达到G 字节大小。对于分布式存储系统,也存在类似的阶段;比如在写阶段,把数据分发到多个存储节点,类似MAP过程;在读阶段,从多个存储节点读取数据,类似REDUCE过程。综上所述,分布式架构造成的incast突发流量和“ 大包” 特征,进一步加剧了网络拥塞。变化1:Incast流量特征变化2:“大包”交互AI Fabric, 面向AI时代的智能无损数据中心网络5ClientSwitchServersData Block1234Server RequestUnit(SRU)1234图6:分布式架构流量模型示意无论是应用分布式架构,还是RDMA通信效率的角度,均呼吁数据中心网络发生变革。从2000年以来,数据中心网络带宽已经从100Mb/s提升到100Gb/s,带宽增长了1000倍,摩尔定律支撑了带宽的增长,网络带宽享受着摩尔定律带来的福利,但由于存在网络拥塞,单纯的增加带宽并不能提升应用性能,网络变革的方向正在从带宽转向时延,这是一个巨大的飞跃,既是AI时代高效数据处理的需求,也是IP网络技术发展的必由之路。所谓时延不是指网络轻负载情况下的单包测试时延,而是指满负载下的实际时延,即流完成时间。详细分析网络时延构成可分为:静态时延和动态时延两类。静态时延包括数据串行时延、设备转发时延和光电传输时延。这类时延由转发芯片的能力和传输的距离决定,而这类时延往往有确定的规格,目前业界普遍为ns级或者亚us级,在网络总时延占比小于1%。当前个厂家宣称的芯片转发时延达到几百纳秒,就是指静态单包时延;但真正对于网络性能影响比较大的是动态时延,占比超过99%。动态时延包括内部排队时延和丢包重传时延,这类时延由网络拥塞和丢包引起。AI时代流量在网络中的冲突越来越剧烈,报文排队或者丢包成为常态,一旦发生则时延往往达到亚秒级,所以低时延网络的关键在于低动态时延。动态时延强调是单流时延或者多流时延;也就是说,一条流必然包括多个包,流的完成时间取决于最后一个包的完成时间;即任何一个包被拥塞,都会导致流的完成时间增大;而对于分布式架构,一个任务包括多流,任务完成时间取决于最后一条流的完成时间,即任何一个流被拥塞,都会导致任务完成时间增大;为了满足AI时代的数据高效处理诉求,应对分布式架构挑战,0丢包、低时延、高吞吐成为下一代数据中心网络的三个核心诉求。数据中心网络变革方向:0丢包、低时延、高吞吐3.2数据串行时延 + 光电传播时延 + 设备转发时延 + 内部排队时延 + 丢包重传时延网络总时延1ns/B(10G) 5ns/m 500ns静态时延动态时延0ms 0 秒AI Fabric, 面向AI时代的智能无损数据中心网络 6图7:网络端到端时延组成4AI Fabric重构数据中心网络,AI时代数据存储和处理效率提升2540%华为抓住AI时代数据中心RDMA代际切换机遇,创新地打造了下一代智能无损低时延的数据中心网络解决方案AI Fabric,依靠两级AI智能芯片和独特的智能拥塞调度算法,实现RDMA业务流的零丢包、高吞吐和超低时延,加速AI时代的计算和存储效率,最终获得专网的性能、以太网的价格,整体ROI达到45倍,为未来的DC构建一个统一融合的高效数据中心网络。“0丢包”,“低时延”和“高吞吐”是AI Fabric的三个核心特征;区别于业界通用的无损网络技术,华为的AI Fabric能够同时在这三个指标达到最优,而不是部分满足。通用的无损网络的拥塞控制算法DCQCN,需要网卡和网络进行协作,每个节点需要配置数十个参数,全网的参数达到组合达到几十万;为了简化配置,只能采用通用的配置,导致针对不同的流量模型,无法同时满足这三个核心指标。AI Fabric独创算法,保证0丢包的基础上实现吞吐最高,时延最低4.1我们知道,这三个核心指标是互相影响,有跷跷板效应,同时达到最优有很大的挑战:同时满足“0丢包”,“低时延”和“高吞吐”,背后的核心技术是拥塞控制算法。会抑制带宽,导致超低吞吐,反而增加了大流的传输时延;0丢包意味着降低交换机队列排队,导致低吞吐;低时延意味需要保持链路高利用率,会导致交换机的拥塞排队,导致小流的“高时延”;高吞吐AI Fabric, 面向AI时代的智能无损数据中心网络7面对动态流量和海量参数挑战,华为一方面投入研究团队分析各种应用,提炼出流量模型特征;另一方面通过在交换机集成AI芯片(华为昇腾),实时采集流量特征和网络状态,基于AI算法,本地实时决策并动态调整网络参数配置,使得交换机缓存被合理高效利用,实现整网0丢包。同时,全局部署的智能分析平台FabricInsight,基于全局采集到的流量特征和网络状态数据,结合AI算法,对未来的流量模型进行预测,从全局的视角,实时修正网卡和网络的参数配置,以匹配应用的需求。据权威第三方测试ENTAC测试结论,AI Fabric可以在HPC场景下最高降低44.3%的计算时延,在分布式存储场景下提升25%的IOPS能力,所有场景保证网络0丢包。从商业价值角度看,AI Fabric给存储带来25%的IOPS性能提升,相当于同性能下存储投资减少25%。以512个节点组成的分布式存储系统为例,采用AI Fabric意味着384个存储节点即可获得采用传统网络512个存储节点的IOPS性能。综合测算,存储CAPEX降低的收益与AI Fabric的投资相比,至少可带来45倍的ROI收益率。综上所述,数据中心投资中网络占比仅10%左右,相对服务器/存储的投资(占比85%),有10倍的杠杆效应,撬动服务器和存储投资的大幅降低;根据AI Fabric可以带来25%的存储性能提升,40%的计算效率提升,将带来数十倍的(ROI)能力。AI Fabric加速AI时代数据计算和存储的效率,带来45倍的ROI4.2AI FabricInvestmentReturn45xROICAPEX降低25%AI Fabric许可费用VIQ:虚拟输入队列设备内部流控,解决设备内部丢包、控制尾部时延动态ECN:动态拥塞水线定时采集流量特征,基于定制的算法,找到合适该流量特征的ECN参数Fast CNP:快速拥塞反馈拥塞标记后即刻产生CNP报文,通过报文原先入口发送给发送端,以第一时间降低流速,减轻缓存拥塞25G/100G/400G组网,独创拥塞调度算法25G/100G/400G组网,独创拥塞调度算法100G接入25G接入400G核心反压商业网卡FabricInsight全网调度AI Fabric, 面向AI时代的智能无损数据中心网络 8图8:AI Fabric独创调度算法图9:AI Fabric商业价值示意
展开阅读全文