云计算开源产业联盟:云容灾白皮书(2022)_59页_4mb.pdf

返回 相关 举报
云计算开源产业联盟:云容灾白皮书(2022)_59页_4mb.pdf_第1页
第1页 / 共59页
云计算开源产业联盟:云容灾白皮书(2022)_59页_4mb.pdf_第2页
第2页 / 共59页
云计算开源产业联盟:云容灾白皮书(2022)_59页_4mb.pdf_第3页
第3页 / 共59页
云计算开源产业联盟:云容灾白皮书(2022)_59页_4mb.pdf_第4页
第4页 / 共59页
云计算开源产业联盟:云容灾白皮书(2022)_59页_4mb.pdf_第5页
第5页 / 共59页
点击查看更多>>
资源描述
云容灾 白皮书 ( 2022年) 云计算开源产业联盟 2022年 5月 版权声明 本白皮书版权属于云计算开源产业联盟,并受法律保护。转载、摘编或利用其它方式使用本调查报告文字或者观点的,应注明“来源:云计算开源产业联盟”。违反上述声明者,本联盟将追究其相关法律责任。 前 言 业务系统的稳定是企业长期发展的基础,因此容灾一直是企业的刚需,但由于 传统容灾 的复杂性和高额的成本,常常使大多数企业望而却步。 在云计算 市场逐步扩大的背景下,云容灾成为新的选择。 从技术角度来看,云容灾基于数据复制技术,结合云原生资源特性,利用云上编排能力,满足数据安全性和业务连续性。云容灾 具备快速部署、按 量计费、高效运维、避免锁定和区域分布等特点,能够颠覆传统的容灾模式,加速企业数字化的转型 。 本白皮书首先对云容灾的发展历程和优势进行概述,指出云容灾实施的关键路径应包括的四个关键环节。同时梳理云容灾三大主要应用场景,并对六大行业的云容灾典型案例进行分析,最后对云容灾发展趋势进行了展望 。 参与编写单位 中国信息通信研究院、中国移动通信集团浙江有限公司 、 中移(苏州)软件技术有限公司、 中国电子系统技术有限公司 、天翼 云科技有限公司、 万博智云信息科技(上海)有限公司 、上海数腾软件科技股份有限公司、上海英方软件股份有限公司、烽火通信科技股份有限公司、 安超云软件有限公司 、 北京同创永益科技发展有限公司 、上海爱数信息技术股份有限公司 。 主要撰稿人 陈凯、马飞、金天骄、朱正秋、张朗、汤伟、郭旸、王丽红、 乔光辉、朱廷祥、冯欢、 孙琦 、胡白帆、徐礼长、焦基林、黄亮、 赵运峰、吴涛、李周华、韩立峰、钱红江、王瀚。 目 录 一、 云容灾概述 . 1 (一) 云容灾发展历程 . 1 (二) 云容灾与传统容灾的比较优势 . 2 (三) 云化给容灾方案带来新的挑战 . 3 二、 云容灾应用场景 . 4 (一) 云灾备 . 4 (二) 云双活 . 9 (三 ) 云多活 . 12 三、 云容灾实施关键路径 . 14 (一) 需求分析是云容灾的前提 . 14 (二) 规划设计为云容灾提供指导 . 16 (三) 方案实施是云容灾的核心 . 18 (四) 演练评估是云容灾的保障 . 19 四、 云容灾典型行业案例 . 22 (一) 金融行业客户云容灾实践 . 22 (二) 政务行业客户云容灾实践 . 27 (三) 电信行业客户云容灾实践 . 32 (四) 互联网行业客户云容灾实践 . 36 (五) 能源行业客户云容灾实践 . 40 (六) 交通行业客户云容灾实践 . 43 五、 云容灾发展趋势 . 46 (一) 从数据容灾向应用容灾演进 . 46 (二) 云原生容灾应用将 更为广泛 . 47 (三) 自动化容灾演练愈加重要 . 48 (四)多云容灾统一管理趋势凸显 . 49 云容灾 白皮书( 2022 年 ) 图目录 图 1 数据级容灾示意图 . 6 图 2 系统级容灾示意图 . 7 图 3 应用级容灾示意图 . 8 图 4 同城双活示意图 . 9 图 5 两地三中心示意图 . 11 图 6 三地五中心示意图 . 14 图 7 云容灾实施关键路径 . 14 图 8 需求分析流程图 . 16 图 9 演练评估流程图 . 20 图 10 国产化灾备方案架构图 . 24 图 11 某股份制银行异地灾备方案架构图 . 27 图 12 某省政务云两地三中心灾备架构图 . 29 图 13 山西省政务云同城异地灾备架构图 . 31 图 14 某大型通 信企业同城双活容灾架构图 . 34 图 15 某电信运营商架构图 . 36 图 16 某互联网行业双活容灾架构图 . 38 图 17 某大型油料贸易企业云容灾架构图 . 42 云容灾 白皮书( 2022 年 ) 图 18 中国船级社异地灾备架构图 . 45 云容灾 白皮书( 2022 年 ) 1 一、 云容灾概述 (一) 云容灾发展历程 在十四五规划中,明确将云计算作为未来数字经济发展的底座,为国内云计算发展带来红利。随着云平台的建设,容灾的场景也不断变化。从传统的环境到云上的容灾,到跨云之间的容灾,再到混合云之间的容灾,成为了云计算建设过程中的刚性需求。 云容灾是指以云计算的服务模式为企业提供业务容灾、数据备份、数据副本利用等多种数据应用场景的服务 ,云容灾的发展历程大致可以分为两个阶段。 云灾备容灾阶段 ( 2006-2013)。随着 阿里云、 AWS、 Azure 等云平台提供的云存储成为全球存储行业的发展潮流之一, 容灾技术的发展伴随着底层基础架构不断演进, 虚拟化云存储应用于灾备已是行业趋势和现实 。 此阶段以维护客户数据安全为核心 ,确保灾难发生时关键数据可用和可恢复,并及时将业务流量切换到备份环境,使业务系统持续对外提供服务。 云双活与多活容灾阶段 ( 2014-至今)。随着用户需求和技术的发展,云容灾解决方案不断成熟。能够保证业务连续性的云双活、云容灾 白皮书( 2022 年 ) 2 云多活案例不断涌现。除了在基础架构层保护用户数据安全性和业务连续性,容灾的理念也不断融入到云原生的开发框架中。特别是在 2018 年以后出现了 3 地 5 中心的应用多活架构,已经能够满足金融等行业对容灾的需求。 此阶段以保证业务系统的连续性为核心 ,在多个可用区或多个地域建立同时对外服务的业务系统。 (二) 云容灾与传统容灾的比较优势 快速部署 。 不同于传统的灾备方式,需要建立相同的一套架构来对应生产中心可能的故障失效,可能要花费数月甚至数年的建设时间。而云容灾 模式,允许用户将 传统 的采购模式转化为按服务交付使用的方式, 云数据中心的各种资源即开即用 , 能够快速部署,大幅缩短 了云容灾建设的 进程 ,让云容灾成为一种普惠型的服务。 按量付费 。 容灾实现 的等级与前期投入相关,等级越高,前期投资就越大。云容灾不仅 初期成本的投入降低, 而且 在容灾过程中,合理的使用云原生特性,能够大幅度降低用于容灾的云资源成本。例如:在容灾过程中,可以使用块存储或对象存储资源进行数据存储,而需要业务接管时,再恢复业务。在日常容灾过程中,用户只云容灾 白皮书( 2022 年 ) 3 需要为存储资源买单,在演练或接管时则按 量 付费,大幅度降低了容灾资源的成本。 高效运维 。传统运维业务系统复杂,需要大量的专业运维人员。而 云上资源的可编排性以及自助化的容灾使用体验,降低了对人员技术能力要求,直接降低了 运维的复杂度 。 避免 锁定 。在 云环境下,容灾本质上就是让数据在不同云之间进行流转的过程,在混合云环境下,用户通过云容灾的手段,可以在任意云中进行业务接管,从而降低了被厂商锁定的风险,为用户业务全面上云提供了强有力的保障。 地域分布 。由于云服务具有多区域和多可用区的特点,并且在多区域和多可用区之间提供高带宽和低时延的网络连接,因此云服务天然具备容灾的优势,与传统容灾相比更容易实现本地与异地容灾。同时异地演练也不会影响本地的生产系统,能够防范地域性自然灾害对业务系统的影响。 (三) 云化给容灾方案带来新的挑战 云资源天然具备弹性伸缩、即需即用的特性 ,构建于云平台的应用软件可以轻松获得资源动态调度的能力,降低成本的同时能够云容灾 白皮书( 2022 年 ) 4 应对不同的负载要求。因此,传统的应用软件不断向云转型,开始进行一系列的容器化、微服务化改造。云化的同时,却给容灾方案带来了新的挑战。 传统的容灾以备份和存储为核心,同时结合数据库、应用集群和网络的切换完成容灾技术架构的构建。而云上应用基于云所提供的资源服务运行,由于屏蔽了基础设施层,传统的容灾方案将变得不再适用。也因此,解决云上应用的数据保护和应急接管问题,将成为云容灾发展的下一个趋势和契机。 二、 云容灾应用场景 (一) 云灾备 随着 IT 基础架构 逐渐云化,灾备也面临着云化转型 。 据 IDC数据统计与 Gartner 报告显示,在经历大型灾难而导致系统停运的企业中,有 2/5 再也没有恢复运营,由此可见,数据保护至关重要。相对于传统灾备解决方案,云容灾解决方案是高效率、高可用、高性价比、免运维的现代化灾备方案,可以帮助企业把文件、数据库、虚拟机安全高效的实现备份上云,通过现代化的管理手段、高效的数据备份以及快速容灾恢复等高新技术来替代传统的备份方式。 云容灾 白皮书( 2022 年 ) 5 1. 数据级灾备场景 数据级灾备强调云端数据的备份和恢复 ,涵盖了数据的复制、备份、恢复等基础工作。在灾备恢复的过程中,数据恢复是最基础的要求,并确保数据完整性、一致性和可用性。 数据级灾备根据灾难恢复等级要求,可以归纳为低级别和高级别的数据级灾备。低级别数据灾备可通过将需要备份的数据用人工方式保存到异地 /云端来实现,比如将备份的磁带 /硬盘定时运送到异地保存, RTO 和 RPO 比较大,高达数天和数周级。高级别的数据灾备依靠基于网络传输的数据复制软件,实现生产中心和云灾备中心之间的异步 /同步的数据传输,比如采用基于磁盘阵列的数据复制功能(基于数据库的复制方式可分为实时复 制、定时复制和存储转发复制)实现数据级灾备, RTO 和 RPO 比较小,可达到小时级和分钟级,例如 CDP 备份、 CDM 副本管理等。 数据级灾备正在从周期性灾备迈向实时灾备 。传统的数据灾备通常设置以天 /周为单位的备份复制规则,当灾难发生时,通常会造成较大数据量的丢失。随着各行各业对业务连续性的要求不断提高,数据级灾备对数据丢失的容忍度越来越小, RPO 要求趋于零。因此,云容灾 白皮书( 2022 年 ) 6 用户对本地与云端、云端之间的文件、数据库等实时灾备的需求逐渐增加,以求更好地应对硬件故障、逻辑错误、病毒加密等安全事故的发生。 图 1 数据级容灾示意图 2. 系统级灾备场景 系统级云灾备是区别于传统双活、 HA 模式的全新容灾模式 。通过 将操作系统、应用和数据从物理层、虚拟化层和云 IaaS 层剥离,打包成兼容任意目标架构的虚拟机镜像,在不占用计算资源的前提条件下, 与源端业务系统实时镜像同步 ,保持数据一致性。 系统级云灾备恢复业务速度快,过程简单。 灾备端具备生产系统一致的操作系统、应用和数据,当生产业务系统异常时,利用灾备端 备份的镜像数据生成的虚拟磁盘作为数据源,无需在云端创建系统环境,可立即创建并启动云服务器,接替宕机的生产业务系统云容灾 白皮书( 2022 年 ) 7 作为云上服务器使用, 确保业务系统连续运行,实现应急容灾的效果, RTO 可达到分钟级甚至秒级 。 系统级云灾备验证和测试数据更加方便 。 在不影响数据复制和生产系统运行的状态下,可在云端 快速创建 与 业务环境一模一样的仿真测试环境, 且与生产环境网络完全隔离,用户可以利用此仿真测试环境,随时随地进行灾备演练、数据验证,还可以进行开发测试、大数据分析、补丁升级测试等更多衍生应用场景。 图 2 系统级容灾示意图 3. 应用级灾备场景 应用级灾备是在数据级灾备的基础上,在同城或者异地中心再构建一套灾备支撑系统。完整的灾备支撑系统包括数据备份系统、备用数据处理系统、备用网络系统等部分。应用级灾备能提供应用接管能力,即在主生产中心发生故障的情况下,在灾备中心接管应用,云容灾 白皮书( 2022 年 ) 8 尽量减少系统停机时间,保障业务的正常开展,从而提高业务连续性。 从业务层面考虑:发生灾难时,生产业务能继续在灾备端运行,以正常对用户提供服务; 从支撑层面考虑:需要进行灾备网络建设、 公 用服务支撑改造,提供 维持灾备应用、灾备数据服务及监控的必要支撑,通过时间服务器、 DNS 等支撑用户的正常访问。 图 3 应用级容灾示意图 数据级容灾是应用级容灾的基础,应用级容灾是数据级容灾的目标 。应用级容灾可以 保证关键应用在允许的时间范围内恢复运行,尽可能减少灾难带来的损失,让用户尽可能感受不到灾难的发生。其提供了比数据级容灾更高级别的业务恢复能力,以确保业务的连续性和可靠性。 云容灾 白皮书( 2022 年 ) 9 (二) 云双活 云双活在技术上更关注数据同步与流量管理能力 。 该架构要求两个生产中心之间的数据同步须保持实时性、一致性,并且外部能够通过调度策略、流量控制实现全局流量管理,各访问请求利用配置策略分发,避免单点故障。常见的应用场景包括同城双活和两地三中心。 1. 同城双活容灾场景 同城双活是在相隔距离较近的两个同城数据中心上部署相同的业务系统,实现两个数据中心的业务同时对外提供服务。其中两个数据中心运行相同的应用,数据实时同步,能够提供跨中心的业务负载均衡运行能力,实现整体业务的高可用。具体实现有多种方案,例如数据库主备同步、应用双写等等,其基本架构如下图所示: 图 4 同城双活示意图 云容灾 白皮书( 2022 年 ) 10 同城双活具备高效的容灾能力 。 若两地之一的数据中心因灾难、设备故障、网络攻击等因素导致该数据中心生产业务中断,可将该地数据中心的业务访问快速切换到另一个数据中心 ,确保业务不中断,持续性生产,客户侧无感。 双活架构不仅能应对灾难恢复,还能在日常业务中发挥作用 。如在系统变更和应用版本投产过程中发挥作用,可减少对外停机时间,提升关键应用的可用率。相比云灾备架构,可充分利用两地数据中心的资源投入到运营生产当中,避免其中一个数据中心资源长期闲置,造成浪费。通过资源整合,利用两个数据中心的资源,实现支撑成倍的业务增长。 此外,同城双活对应用架构也提出了更高的要求,需具备高可用、高性能、易扩展等特点。高可用是系统架构设计中必须考虑的因素之一,一般利用分布式部署模式来减少系统不能 提供服务的时间。其衡量指标包括平均故障间隔( MTBF)和故障恢复时间( MTTR),从公式得出的百分比,比例值越高代表故障的时间越短,系统可用性越高。高性能表示整个业务系统需要具有应对大流量、高并发处理能力以及更低的响应延迟。双数据中心的部署,可避免云容灾 白皮书( 2022 年 ) 11 单个数据中心因资源瓶颈导致的业务过载情况。易扩展则需应用系统满足动态扩容能力,发生灾难时容灾中心可充分利用云计算的优势,在不影响原有系统业务和不改动代码的前提下快速扩容,以应对业务流量。 2. 两地三中心容灾场景 业界有观点认为两地三中心容灾场景是一个生产数据中心 、一个同城灾备中心再加一个异地灾备中心组成。其中同城灾备与异地灾备相比,在 RTO 和 RPO 上有一定的提升,但实际功能类似,对业务连续性没有质的提高。 因此,本白皮书认为更应该 将同城灾备改造成同城双活,形成同城双活、异地灾备的两地三中心模式 。既能实现数据零丢失和故障自动切换,又能应对区域性重大灾难(如自然灾害、战争、城市骨干线路中断等)的发生,有效提升数据中心的可用率。 图 5 两地三中心示意图 云容灾 白皮书( 2022 年 ) 12 两地三中心是当下较为全面的解决方案 。 其架构与灾备或 双活架构相比,不是简单的增加数据中心数量,也不是资源配置的简单冗余,而是在中心功能定位、资源集约化使用、 RTO 和 RPO 等核心指标方面提出了新的要求。不仅要基于业务重要等级划分,实现核心业务和非核心业务的差异化解决方案,还要实现同城高可用,当关键业务系统出现故障或发生灾难时能快速切换到同城系统中,保障业务数据不丢失。 同时,同城双中心还要具备业务双活能力,实现资源灵活调度和使用效益最大化 。 (三) 云多活 云多活是指同一套业务系统分别部署在两个 地域 以上的 多个 数据中心,同时对外提供服务的业务场景。云多活主要体现在 “ 多地域 ” 和 “ 多活 ” 两个概念上。多地域是指地域划分,如不同省市地区或者不同国家地区;多活则是指多个地域部署同一套业务系统同时提供业务服务,都处于生产状态。能力要求上更侧重于具备异地双活以及多活的能力,由于长距离传输的时延问题,各业务场景下对实时性、一致性、可用性等要求不尽相同。 云容灾 白皮书( 2022 年 ) 13 云多活数据同步的实时性与地域范围存在一定的矛盾关系 。即数据中心距离越远,时延越高,对如何保证数据实时传输的性能是一个考验。对于企业、组织和机构来说,可根据自身业务做出取舍,当业务数据实时性要求不高时,应尽量保证数据的最终一致性,如科研机构、 银行等。而对于证券公司来说,既要保证数据交易的实时性,也要保证数据的一致性,避免股票交易出现异常或数据出错,这无疑是对整个多活业务能力的挑战。因此,并非所有业务都适合异地多活。如果贪大求全地要求所有业务都实现异地多活,将面临极高的开发维护成本和复杂技术瓶颈。 近几年提出的三地五中心容灾模式在金融领域开始逐步尝试 。其架构是在两地三中心的基础上,在异地又增加了两座数据中心,其本质仍是异地多活架构。一般采用 2+2+1 的方式进行建设。当任意一个城市的机房发生城市级的故障时,整体业务系统依然能够继续提供服务。同时这类 架构也对原数据中心应用引入了新的挑战,需要面临跨城带来的耗时增加,对业务的批处理、链路整体耗时等问题产生的影响。 云容灾 白皮书( 2022 年 ) 14 图 6 三地五中心示意图 三、 云容灾实施关键路径 云容灾实施的关键路径 是指在系统上云或跨云容灾过程中涉及的全流程步骤方法。基于大量的云容灾实践,可归纳为 四个关键步骤,包括需求分析、方案设计、方案实施与演练评估 。 图 7 云容灾实施关键路径 (一) 需求分析是云容灾的前提 各企业本地生产系统的基础架构差异大 。 由于业务类型、人员水平以及项目投入等多种因素,每家企业在技术选型、架构设计、云容灾 白皮书( 2022 年 ) 15 网络拓扑、应用部署等方面都有着较大的差异。因此需求分析需要先调研基础架构信息,包括 应用系统 的软件架构、 应用 组件 及 资源使用情况 , 系统中的数据流及数据量、单位时间内数据变化的数量 ,系统 与系统之 间的调用和依赖关系 , 业务对延时的敏感性 与带宽的要求, 外 部 单位的依赖情况 等 等 。 应用系统各类业务模块面临的安全隐患不尽相同 。 因此需要进行风险评估,识别核心业务资源所面临的风险因素,并判定灾难发生的可能性和严重性,提出风险规避方案和应对策略。根据风险评估分析对业务可能产生的影响,分析应用之间的关联性和重要性,明确 灾难 时对 企业的损失情况。 综合考虑每种损失情况 , 分析 各业务流程对于灾难受损的可容忍程度 ,确定业务恢复优先级。 云容灾成本投入对于企业容灾的建设是至关重要的 。 不同的容灾建设方案,在应用层、中间件层、网络层、存储层的基础架构各不相同,也就意味着在设备采购成本、研发成本、网络通信成本、投产运营成本等也各不相同。因此需要从多方面对云 容灾进行成本评估。 云容灾 白皮书( 2022 年 ) 16 RPO 和 RTO 是企业容灾建设的重要指标 。 应用系统的各类业务对容灾系统有着不同的等级要求。 关键数据丢失 或者核心 应用故障会对 企业 的业务造成重大损失 。 RTO 和 RPO 一般由 企业的 业务部门提出要求,与 IT 部门共同商议, 需综合考量 技术可行性 、 对现有系统影响、成本等多方面 因素。因此从企业各业务角度考虑,明确企业需求,分析企业痛点,选择符合企业当前现状的云容灾架构是十分必要的。具体 需求分析 可参考以下 三个步骤,包括基础构架信息调研、 IT 现状评估和容灾建设评估 。 图 8 需求分析 流程图 (二) 规划设计为云容灾提供指导 结合需求分析的分析成果,以及企业计划在容灾上的投入,通过制订企业的容灾策略和目标,制订出容灾的具体方案。 容灾规划设计常受地域的选择影响 。 容灾中心的距离不同,构架的容灾技术方案也不同,如本地容灾,同城容灾,异地容灾。本云容灾 白皮书( 2022 年 ) 17 地容灾是指在本地机房建立容灾系统,同城容灾是在同城或相近区域内建立的容灾系统,异地容灾通常要求百公里以上的距离。容灾中心的距离直接影响到容灾方案的效果和保护等级,当生产中心和容灾 中心的距离有几百公里时,无法有效解决由距离带来的时延问题, RPO 就越难趋近于 0。 云容灾中心的架构模式一般分为灾备和双活两种模式 。 灾备模式的架构通常是生产中心正常对外提供服务,备份中心处于待机状态。相对于双活技术实施难度相对较低,灾后业务恢复较慢,且存在资源浪费情况。备份的级别可以分为数据级备份、系统级备份,两种备份级别的功能、所需的成本、恢复的能力都不相同。数据级的灾备实施方案简单,投入资源和成本低,但是业务中断时间长,业务恢复完整性难度高。系统级灾备不仅备份数据,同时备份系统应用,灾难时可在灾备中心启动 并恢复业务。而双活模式一般是两个数据中心同时对外服务,且彼此保持双向同步。如一个数据中心发生故障,另一个数据中心可以立即接管业务,保障业务的连续性。较主备模式,双活模式业务恢复更快,但整体资源投入高,运维和实施难度更复杂,且可能存在业务冲突的风险。 云容灾 白皮书( 2022 年 ) 18 根据灾备和双活架构模式可组成多种应用场景 。 例如常见的两地三中心,甚至三地五中心,当然这并不是组合堆叠,从技术角度出发,各场景实现难度不可相提并论。但是归根结底,具备建设灾备和双活能力是实现上述场景的基础。 (三) 方案实施是云容灾的核心 云容灾体系的建立往往是跨部门协作的成果 。 容灾方案实施需要多部门合作完成,包括应用管理员、机房管理员和网络管理员等角色的配合实施,需要把每项工作的内容、目标要求、实施的方法步骤以及督促检查等各个环节都作出具体明确的安排。 容灾中心建设应包括生产系统完整的功能模块 。 具体实施包括应用、数据库、存储、网络层的部署。应用部署实施包括应用程序的部署、应用服务器集群的部署、域名接入以及 DNS 等配置。数据库部署实施可考虑数据库主备、主从等模式,若业务存在大并发访问,需要考虑读写分离、分库分表等手段。数据库同步可借助云平台的 原生同步软件或者第三方工具。数据库理论上也属于存储的一部分,而这里的存储主要是指中间件、日志、配置文件等信息的同云容灾 白皮书( 2022 年 ) 19 步。网络部署的实施包括生产中心与容灾中心之间的网络互联,根据容灾时延的需求,可选用互联网、 VPN、云专线等多种方式的接入。 方案实施的核心要点在于数据复制技术 。 具体来说,数据复制是完成数据从生产中心到容灾中心的复制传输,并保障数据的一致性的关键技术。一旦发生灾难导致生产中心的数据丢失或者损坏,可以通过容灾中心的数据来支撑应用系统运行。没有应用系统的不中断运行就没有业务的连续性可言,没有数据的存在就 没有应用系统的不中断运行可言,没有数据复制技术的支撑就没有容灾的必要性可言。因此,数据在应用系统当中的地位直接决定了数据复制技术在容灾框架当中的重要地位。 云容灾实施过程中需建立应急预案 。 方案实施过程难免出现异常,实施过程中发现异常情况要及时启动应急预案。通知相关人员进行故障的排查和处理,尽量减小对生产环境的影响。在解决故障后,根据故障分析报告,优化预案处理流程。 (四) 演练评估是云容灾的保障 云容灾演练评估是项目验收过程中的重要环节 。 成功的灾难演练即证明了容灾系统的完整性和可靠性,也最大程度保证了灾难发云容灾 白皮书( 2022 年 ) 20 生时容灾 系统能正常使用。具体的演练评估如下图所示,包括演练方案设计和演练测试两个部分。 图 9 演练评估流程 图 完善的演练方案可充分验证容灾系统 。 演练方案设计是依据灾难应急预案和恢复流程,设计合理和有效的灾难恢复演练方案,常见的容灾演练方式有以下三种方式,桌面演练、模拟演练和实战演练。 桌面演练是最基础的 容灾 演练方式 。 桌面演练也叫 “ 沙盘推演 ” ,通过对初始灾难恢复预案的一个理论验证,进而测试 应 急响应预案和灾难恢复体系的完整性和有效性,使相关人员了解应急响应及业务恢复流程,全面验证技术及业务管理指挥、流程操作、协调配合等方面的综合能力。 云容灾 白皮书( 2022 年 ) 21 模拟演练的过程高度接近真实灾难发生时的处理过程 。 演练以桌面演练结果为基础,由 IT 部门 协调其他 相关业务部门参加模拟演练,采用模拟数据和模拟业务系统 进行 演练。通过演练可以检验容灾 系统的可用性、灾难恢复预案的可行性以及增加参演人员对灾难处理过程的感知度与配合的默契度。 实战演练 是容灾 演练的最高的阶段 。 其 场景最为真实,更易于发现潜在问题并进一步 优化容灾 系统,但随之而来的 就是演练成本的提高。因此,在实战演练中,也会存在很多挑战,这时,关键是使其理解并支持演练能够周期性地进行,同时发现问题及时改进才是成功的演练 (无论是否用到真实环境 ),应避免流于形式的表演。演练风险评估包括生产中心和容灾中心的流量切换是否正常,容灾中心是否能承担生产中心的业务流量,容灾中心的数据库用户账户和对应权限是否和生产中心一致等。演练流程包括确定演练应用所涉及的所有网络拓扑结构,涉及的应用相关业主、应用厂家、运维人员、项目经理等,确认演练操作的所有具体步骤及演练时间点,与各团队进行最终确认后,并制定最终 的演练方案。 云容灾 白皮书( 2022 年 ) 22 严格的演练过程可确保测试结果的准确性 。 演练测试是根据演练方案,组织客户进行灾难恢复的演练与测试工作。在演练测试过程中,需监控各项业务和应用系统的恢复进程,并做好记录。当完成演练后,输出演练报告,评估演练的结果,总结演练中出现的问题,完善灾难恢复演练方案。 四、 云容灾典型行业案例 (一) 金融行业客户云容灾实践 典型案例一:某 金融监管机构国产化灾备实践 1.用户需求与面临的挑战 某金融监管机构是国务院直属事业单位 , 为了响应 关于 实施党政机关电子公文系统安全可靠应用全面替代的意见(厅字 201931 号) 的政策号召 , 决定对机关及 36 个省局进行 X86 到国产化的替换 , 包含服务器 、 虚拟化 、 备份软件 、 网盘、安全软件、网络设备、国产系统、终端 PC 机等。 由于原有的备份产品无法实现对国产化软硬件环境的灾备保护 ,该金融监管机构决定引进国产化云灾备产品 , 对新部署的 OA、 档案 、邮件等国产化业务系统进行灾备保护 , 解决海量文件数据备份效率云容灾 白皮书( 2022 年 ) 23 低下 、 备份数据恢复演练困难 、 数据恢复效率低等问题 , 并满足国产化监管要求 。 客户环境包含鲲鹏等国产芯片 , 麒麟 、 统信 UOS 等国产操作系统 , 以及云宏虚拟化等 。 2.实现方案 该项目的底层采用华为鲲鹏 920 芯片 , 机关采用统信 UOS V20操作系统 , 各省局采用麒麟 V10 操作系统 。 在该金融监管机构的机关及 36 个省局分别部署数腾国产化灾备产品 AceSure, 通过一键云化技术 , 将文件 、 各类数据 ( 结构化数据 、 非结构化数据 ) 等生成兼容不同平台的 QCOW2 云镜像灾备数据存储格式 , 实时自动的将灾备的重要数据恢复到灾备平台内 , 实现对 OA、 档案 、 二维条码文印等系统的备份恢复 。 数据细颗粒度恢复能力 , 能够完整 、 准确 、 快速的恢复数据 , 提升数据安全级别 。当出现系统磁盘硬件故障或系统逻辑故障时,可以进行系统整机恢复 和文件恢复 ,极大缩短了系统恢复的 RTO。 同时 , 在机关和 36 个省局分别部署数腾网盘系统用于文件中转 ,网盘为纯软件模式 , 安装在云宏虚拟机中 , 实现 X86 终端文件向 国产化 终端 的 迁移。 云容灾 白皮书( 2022 年 ) 24 图 10 国产化灾备方案架构图 3.效果描述 通过数腾国产化自主可控技术 , 完成了对国外备份产品的替换 ,全面兼容了不同架构的芯片 , 不同厂商的操作系统 、 数据库及应用软件 , 实现了对鲲鹏 、 麒麟 、 统信 UOS、 云宏虚拟化平台的统一灾备保护 。 同时 , 该方案具备文件备份 、 CDP 备份 、 并行重删 、 永久增量备份 、 LAN-Free 备份等技术特性 , 解决了海量数据高性能备份问题 , 将备份速度提高 10 倍 、 备份管理效率提升 80%, 不仅满足了高效 、 稳定的数据备份管理的需求 , 也符合该金融监管机构对国产化云灾备产品技术到位 、 自主可控的硬性要求 。 云容灾 白皮书( 2022 年 ) 25 典型案例二:某 大型股份制银行 异地灾备实践 1.用户需求与面临的挑战 首先,用户面临本地备份难的问题。根据银行业信息系统灾难恢复管理规范要求,重要系统的 RTO 需小于 4 小时;次要系统RTO 需小于 24 小时 ,而客户的整体的数据量庞大,数据保护的窗口超过 32 小时,需要需要更高效的数据灾备方案。 其次,用户的异地灾备建设困难。根据金融行业信息系统信息安全等级保护实施指引要求,用户应每年至少进行一次重要信息系统专项灾备切换演练,备份数据要实行异地容灾保存。传统的容灾方案导致数据异地同步窗口过长。 最后, 灾备的数据难以接管演练。根据 2019 年银行业和保险业监管统计信息工作要点要 求,所有重要信息系统基本具备真实接管生产的能力。 2.实现方案 该项目面临的核心诉求包括:高效率的数据保护;灾备数据异地容灾;数据的灾难恢复演练。 云容灾 白皮书( 2022 年 ) 26 针对高效率的数据保护要求,爱数 AnyBackup 提供了全闪存一体机,配合产品中永久增量备份、全局数据重删能力等核心技术,提升了数据灾备的整体效率。此外, AnyBackup 的 Scale-Out 能力,也可以有效应对后续数据量的增长。 针对灾备数据异地容灾的要求,爱数 AnyBackup 提供了远程复制能力。此能力剧本过程中重删、断点续传等特性,保证客户生产中心的数据可以持续不断的复制到异地灾备中心。此外,辅助 AnyBackup Master Server 产品,可以对本地及异地的灾备产品进行统一管理。 针对灾难恢复演练的要求,该项目前期在异地数据中心构建了专门的灾备演练区。配合 AnyBackup 的异构恢复能力和自动化的灾难恢复演练能力,可以有效验证灾备数据的有效性,并提供对应的接管能力。 云容灾 白皮书( 2022 年 ) 27 图 11 某股份制银行异地灾备方案架构图 3.效果描述 通过爱数 AnyBackup 的整体解决方案,给客户带来了如下效果。 ( 1) 一体化的平台满足用户多样化的需求。一套方案同时实现本地备份、异地灾备、以及演练接管,轻松帮助客户满足监管需求。 ( 2)异地灾备带宽要求降低 10 倍, RTO 降低 30 倍,存储节省 1.7 倍,灾备存储性能提升 3 倍 。 ( 3) 集中化运维管理。备份集群管理、多备份域集中管理,满足客户统一管理需求。 (二) 政务行业客户云容灾实践 典型案例一:某省政务云两地三中心灾备实践 1.用户需求与面临的挑战 政务云中心由于历史建设原因,导致不同时期的虚拟化云平台存在异构问 题,同时内外网环境不一样,安全性要求不同,等级保护和分级保护要求不同。用户希望通过建设两地三中心灾备的同时,云容灾 白皮书( 2022 年 ) 28 也要保留互联网出口,实现重要系统同城容灾,数据异地备份;数据库数据的实时同步和读写分离等。 2.实现方案 两地三中心的模式下,灾备建设遵守内外网相互隔离的原则,并根据用户需求决定是否在灾备端保留互联网出口;同时,在本地生产中心到同城灾备中心异构虚拟化平台的过程中,通过英方软件的 i2Active 同构数据库双活复制软件,实现数据库读写分离和容灾;同时通过高可用灾备管理软件 i2Availability 实现异构平台核心业务容灾接管;最后通过持续数据保护与恢复软件 i2CDP、全服务器备份管理软件 i2FFO 进行本地到同城,同城到异地的数据同步和备份,可以有效防范逻辑错误、勒索病毒的攻击,保障数据和业务的安全。此外,通过 数据实时复制软件 i2COOPY 实现本地到异地的数据复制备份。 云容灾 白皮书( 2022 年 ) 29 图 12 某省政务云两地三中心灾备架构图 3.效果描述 方案在本地到同城灾备 层面,实现异构平台核心业务高可用容灾,物理整机备份及数据持续保护,数据库实时同步保护等;在同城到异地灾备层面,实现重要系统的整机备份和持续数据保护;在本地到异地灾备复制层面,通过汇聚服务器实现内外网数据实时复制到异地。 典型案例二:山西省政务云同城异地灾备实践 1.用户需求与面临的挑战 自山西省政务云平台全面建成以来,山西省政府、山西省水利厅、山西省国土厅、山西省工信厅等 30 多家厅局,约 200+个不同业务系统已经迁入政务云平台,现在需要对所有重要数据、关键业云容灾 白皮书( 2022 年 ) 30 务系统、重要设备信息实现同城异地灾备。 目前 , 山西省政务 云环境存在物理服务器 、 虚拟化平台 , 以及不同的云服务平台 ( H3C、 华为 、 浪潮云等 ), 不同云厂商的环境 、 架构 、策略配置、数据接口等各不相同 , 统一 的 灾备建设和 灾备运维管理存在挑战 。 2.实现方案 基于山西省政务云的灾备建设需求 , 在本地数据中心 、 同城灾备中心 ( 太原 ) 分别部署数腾灾备产品 AceSure 实现云主机镜像级准实时同步 , 满足混合架构云平台的一体化灾备保护及云上集群等特殊环境的容灾 。 本地与同城之间通过裸光纤链路互联 , 实时将灾备数据同步至同城灾备中心 , 满足站点级故障发生时 , 应用及数据的快速恢复能力 。 同时 , 在 300 公里外的异地灾备中心 ( 运城 ) 再部署 AceSure,与生产中心通过专线链路连接 , 将本地及同城的备份数据实时同步至异地 , 并支持在任一灾备平台即时验证备份数据的可用性 。 不仅具备分钟级业务快速恢复能力,保证了业务连续性,满足了更高级别的业务可用性要求。还支持多种数据类型,消除了数据孤岛,规避了单数据中心运行的风险,提高了关键业务系统抵御灾难的能力。 云容灾 白皮书( 2022 年 ) 31 图 13 山西省政务云同城异地灾备架构图 3.效果描述 通过上述方案解决了山西省政务云统一灾备管理难、异地灾备中心投入大、灾备建设周期长、专业度要求高等难题,实现了多云异构环境下的统一管理。 ( 1)实现了混合多云环境的统一保护,可全面保护山西省政务云的物理服务器、虚拟化平台及多个云平台( H3C、华为云、浪潮云等)。 ( 2)具备了多副本备份能力。 能够 在任何数据发生损坏的情况下 ,快速恢复,确保 了 业务系统 及 数据的可用性、安全性、完整性。 云容灾 白皮书( 2022 年 ) 32 (三) 电信行业客户云容灾实践 典型案例一:某大型通信企业云容灾方案 1.用户需求与面临的挑战 某大型通信企业已经建设了一套国产化云数据中心,该企业的核心业务都迁移至了云数据中心。但随着企业规模的扩大,该企业对于数据的容灾备份有了需求,希望能够在本地建立数据备份,同时在同城的异地建立一个灾备数据中心。烽火通过分析调研,最终形成了一套同城灾备解决方案,并完成了方案的实施,满足了客户的灾备需求。 ( 1)需要支持对云数据中心的本地持续备份,备份不能影响业务; ( 2)需要在同城建立一个灾备数据中心; ( 3)同城的两个数据中心为双活数据中心,都要承担一部分业务,但又互为灾备,充分利用资源设备 。 2.实现方案 在当前 数据中心 A 部署一套灾备设备,包括备份管理节点和备份存储节点,支持对虚拟机、数据库、文件服务器的备份。同时,云容灾 白皮书( 2022 年 ) 33 为了满足客户全天备份且不影响业务的备份需求,新规划了一个备份网络平面,专门用于备份数据传输,而不占用业务网络带宽。 在同城相距 50 公里的异地,新建设了一个云数据中心 B。云数据中心 B 的配置跟主数据中心 A 的配置基本相同。两个数据中心之间使用专线打通网络,在 50 公里范围内,网络延迟能够达到 5ms 以内。在云数据中心 B 同样部署了灾备设备, AB 两个云数中心的备份存储通过专线进行数据的实时同步。 云数据中心 A 全天候的 对关键业务数据进行备份,产生备份数据,备份的数据在通过专线实
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642