资源描述
中国信息通信研究院云计算与大数据研究所 开放数据中心委员会 2023年3月 数据中 心智能 化运维 发展研 究报告(2023 年)版权声明 本报告版权属于 中国信息通信研 究院、开放数据 中心委员会,并受法律 保护。转载、摘 编或利用其它方 式使用本报告文字或者观点 的,应注明“来源:中国信息通信 研究院、开放数据中心委员 会”。违反上述声 明者,编者将追 究其相关法律责任。前 言 新型数据 中心是 支 撑 5G、云计 算、人 工智能等 新一代 信 息技术发展的算 力载体,是推动经 济社会 数 字转型、智能升 级、融合创 新的关键基础 设施。随 着以高技 术、高 算 力、高能 效、高 安全 为代表的“四高”成为 产业发 展新 目标,智 能化作 为 新型数据 中心高 技 术的重要 体现,已经 成为新 型 数据中心 的重要 发 展趋势。为切实引 导新型 数 据中心加 快向“高技术”发展,本报 告聚 焦新型数据中心 智能化 运 维的基础 性研究。分 阶段回顾 了我国 数 据中心运 维发展历程,对智 能 化运维的 基本概 念、发展历 程等 进行分析,深 化 产业认识,激发 发展共 识;首 次提出 智能化 运维发展 的三大 目 标和理念,体现产业 界发展 理 念与体系 的创新 升 级;总 结分析 智能化 运维的发 展核心 即设施、平台、体 系、服 务 的发展态 势,明 晰 智能化运 维对于产业界 的价值。报告意在 为行业 实 现高技术、高质 量 发展提供 有益参考,希 望能对 从 业者有所 启示。数据中心 智能化 运 维相关产 业、技 术 正处于高 速发展 阶 段,新技术生态瞬 息万变,我们的认 识有待 深 化迭代。报告存 在 不足之处,烦请业界不 吝指正,共 同进步。如有 意见或 建议请联系。目 录 一、数据中心智能化运维概念与内涵.1(一)基本概念.1(二)发展历程.2(三)目标与理念.4 二、数据中心智能化运维发展核心.6(一)设施自动化运行.6(二)平台智能化管理.10(三)体系精细化落地.14(四)服务价值化输出.17 三、数据中心智能化运维发展实践.20(一)以自动化设施提升运行效率.20(二)以 DCIM 平台促进智能管理.21(三)以技术手段赋能运维体系变革.23(四)以巡检机器人释放运维人力.25 四、数据中心智能化运维发展建议.26 图 目 录 图 1 数据中心智能化运维框架结构 1.0.2 图 2 数据中心运维管理发展历程.3 图 3 自动化运行设施.7 图 4 数据中心设施自动化运行能力分级之间的差异与关系.8 图 5 DCIM 的管理范畴与服务能力.11 图 6 数据中心精细化运维成熟度模型.17 表 目 录 表 1 数据中心智能化运营管理平台建设原则.14 数据中心智能化运维发展研究报告(2023 年)1 一、数据中心 智能化 运维概念 与内涵 经济社会 数字化 转 型进程加 速,新 一 代信息技 术不断 升级,推 动数据中心 运维管 理 方式变革。为 有效应 对数据中 心向绿 色 化、集 约化、高密化、智能化 建 设发展演 进过程 中 的新需求,数据 中 心运维需 要由“人力密 集型”向“技 术密集型”演进,实 现程度更 深、水 平 更高的信 息化变革,并在此 基 础上进一 步向更 高 级别的数 字化、网 络化、智 能化迈进。(一)基本概念 数据中心 智能化 运 维是集人 工智能、大 数据等新 一代信 息 技术应用管理平台与数据中心自动化运行设施等深度融合的新型运维模式与综合解 决方案(详见图 1)。通过 对 运维设施、平 台、体系与服 务的全面建设,一方面充分利用 DCIM(Data Center Infrastructure management,数据中心基础设施管理)、DOSM(Digital Operation Service Management,数 字化运维服 务管理 平台)等管 理平台 叠加 自动化运行 设施尽 可 能的实现 系统自 发 现、自控 制与自 应 急;另一 方面搭建覆盖 精细化 运 维工作全 价值链 的 人、事、物、流程四 维科学运 维管理架构,重塑 数 据中心运 维价值 体 系。数据中心 运行状 态 中,从数 据要素 的 流转过程 看,数 据 经过传感器的采集、DCIM 的监控管 理,到转 化为业务 可识别 的 数据,最后 以数据驱动 管理,产 生预测性 维护价 值。将数据 的标准 化 收集视为 运维管 理生 命周 期的起点,智 能化 运维由此 可以 看作 是一项系 统性 工程,有着丰富 的内涵 与 外延。需 要通过 数 据中心设 备、监 控、管理平 台与数据中心智能化运维发展研究报告(2023 年)2 运维工作 的有机 结 合,推动 产业精细化、绿 色化、智能化 发展。来源:中国 信息 通信 研究 院 图 1 数据中心智能化运维框架结构 1.0(二)发展历程 我国数据 中心运 维 的历史可 以追溯到 2000 年左右,大体 上可以划分为四 个发展 阶 段(详见图 2)。数据中心智能化运维发展研究报告(2023 年)3 来源:中国 信息 通信 研究 院 图 2 数据中心运维管理发展历程(1)手工运维 阶段 信息化发 展初期,由于缺少 运维工 具 和操作指 南,较 为 依赖个人的知识、技术及 经 验。运维 完全围 绕 人员展开,所有 运 维工作都 由人工完成,当运维 人 员出现问 题时,全 面影响数 据中心 企 业运行。(2)流程化、标准化 运 维阶段 当运 维业 务量 增长 超过 人力 增长,众 多企 业纷 纷建 立运 维流 程,通过初步 的制度 化、标准化 运作,规范 了因为不 同人员 操 作带来的 效果差异。在这一 阶 段,根据 标准化 流 程和分析 方法,不 同操作人 员完成的巡检 报告质 量 水平可实 现基本 一 致,降 低了人 员的变 化对数据 中心企业运 维的影 响。(3)平台化、自动化 运 维阶段 到了我国 数据中 心 产业的大 发展时 期,云边端一 体化算 力 布局体系初成,不同形 态 的数据中 心架构 各 异,运维 方式也 各 不相同,数据中心现场 生产和 远 程集中化 管理的 运 维需求溢 出。数据中 心可以利 用DCIM 等平台或 工 具,把可 复用以 及 标准化程 度较高 的 相关工作 进行梳理,使 用算法 整 合的方式 来达到 自 动化的运 维,并 对 执行的过 程进行监管,优化运 维 管理。当 前,我 国 数据中心 总体处 于 平台化、自动化运维阶 段,呈 现 平台化、自动化、可视化等 典型特 征。(4)智能运维 阶段 随着 5G、人 工智能、云计算、大数 据 等新一代 信息技 术 研发与数据中心智能化运维发展研究报告(2023 年)4 应用风起 云涌,赋 能数据中 心运维 管 理模式变 迁。为 有 效应对数 据中心产业不 断提升 人 员效率、能源利 用 效率的发 展需要,运维管理 正在逐步迈入 以设施、平 台、体系、服务 为核 心要素的 智能运 维 发展阶段。数据中心 在全自 动、互联、自运维 的 基础设施 环境下,通过全方 位的监控系统 感知并 准 确定位故 障,通 知 智能决策 系统下 发 变更、维 护等指令,实 现运维 从 数据输入 到预测 性 维护全过 程的数 字 化,基于 数据建模实现 运维过 程 可视化,在“无人 值守”的情 况下安全 高 效地进行 运维。随 着数 据中心业 务日 益繁 杂,凭借 海量 数据 的积累,人工 智能、大数据等 技术在 数 据中心运 维领域 还 可以实现 更多应 用,智能化运 维将从单点 突破到 全 架构、全场 景 的优化 落地,当前发 展 阶段距离 实现真 正的 智能 运维还有 很长 的路 要走,未 来将 呈现 出无人化、智 能化、数字孪生 等典型 特 征。(三)目标与理 念(1)生产连续 性 对于数据 中心业 务 管理人员 来说,用户 的业务连 续性取 决 于数据中心的生 产连续 性。特别是 在疫情 期 间,用户 企业尤 其 需要考虑 数据中心在其 业务连 续 性中发挥 的关键 作 用。如今,业 务连续 性管理已 经演变成了 一门管 理 学科,在 数据中 心 中得到了 越来越 多 的应用。所谓业务连续 性管理,即 Business Continuity Management,简 称 BCM。这个概念最 早脱胎 于 传统的 IT 备份与容 灾恢复计 划,可 以 看作是组 织进行一体 化管理 的 过程。通过业 务连续 性,可 以对潜 在风险 进行识别,提供一个 指导 性框架 来 建立组织 机构的恢复能力和有效应急响应能数据中心智能化运维发展研究报告(2023 年)5 力。生 产连 续性则指 数据 中心 基础设施 层面 进行 智能化运 行的 过程,设 施根 据既 定的设计 标准 和架 构冗余度,结 合业 务需求和 管理 要求,在不超过 设计运 行 目标的异 常情况 下,可以按照 预定义 模 式持续运 行。即当产生 外界故 障 变化时,设施 可以根 据实际需 要进行 一 定程度的 资源调度和 应急操作 来保障生 产连续 性。(2)运维即服 务 OaaS(Operation as a Service,运维即服务)是在借鉴了 SaaS(Software as a Service,软件即 服务)和研究了 业界数 据 中心服务 转型的基础 上提出 的 新理念。近年来,运 维在数据 中心全 生 命周期中 的关注度逐 渐提升,其作为数 据中心 企 业的软性 核心竞 争 力之一,管理模式逐步 从“以技 术 管理为中 心”向“以 服务为中 心”转 变。现 如今,运维管理已 经成为 企 业产品价 值链上 的 重要环节,业 界普遍 认为实现 服务的过程 就是创 造 价值的过 程,如 果 达成了“运维即服 务”的发展 目标,数据中心 运维部 门 也会从传 统的成 本 中心逐渐 向价值 中 心转化。(3)数据驱动 管理 数据驱动 管理指 通 过底层监 控系统 采 集海量的 数据,将数 据进行组织形成 信息,并 对关键信 息进行 整 合和提炼,实时、准确地为 数据中心运营 者提供 管 理决策依 据,提 高 数据中心 经营产 出 和效率。数据驱动管理模式是在数据的基础上经过训练和拟合形成自动化的决策模型,从而达 成以数 据和算法 为驱动 的 预测性维 护、智能化 告警目标,全过程强 调以数 据“洞察力”驱动数据 中 心管理价 值。数据中心智能化运维发展研究报告(2023 年)6 二、数据中心 智能化 运维发展 核心 2021 年 7 月,工业 和信息化 部新 型 数据中心 发展三 年 行动计划(2021-2023 年)明确提出“聚焦新 型数据中 心供配 电、制冷、IT和网络设 备、智能化 系统等关 键环节,锻 强补弱”。政 策引导 数据中心运维管理 向智能 化 发展,产业界 关于智 能运维等 长期主 义 的呼声也 越来越高。数据中 心 智能化运 维是新 一 代信息技 术与数 据 中心设施、平台、服务 三层架 构 和体系深 度融合 的 解决方案。深入 分 析与理解 各部分的发展 背景、推 进逻辑,才能够 更 好地推动 数据中 心 智能化运 维发展。(一)设施自动 化运行 产业高速 发展下,“解放人力”需求推 动 设施自动 化运行。当下数据中心行 业面临 着 大规模、高增长、急交付的 发展挑 战,运维侧 面临成熟人才 短缺、人 员流动性 较大、知 识技能储 备不足 等 诸多困难。为应对产业智能化运维下一发展阶段对于“无人值守”及无人化下极致安 全的 发展 需要,电气、暖 通、安防 等自 动化 运行 设施(详 见图 3)将结合软 件能力,从快速地 发现问 题、及时地 通报问 题、准确地 判断问题、高效 地处置 问 题等方面,助力数 据 中心破除“人为主 责”的局面,满足客户 越来越 高 的 SLA(service Level agreement,服务 等级协议)要求。数据中心智能化运维发展研究报告(2023 年)7 来源:中国 信息 通信 研究 院 图 3 自动化运行设施 数据中心设施自动化运行的发展与演进,与 SAE(Society of Automotive Engineers,美 国汽车 工程师 学会)对 自动驾 驶 的成熟度 定级相似。早有 研究表 明自动驾 驶汽车 为 社会安全 和效率 带 来一定积 极影响。对于 数据中 心“智能 驾驶”来 说,基础设施 如能在 故障时发 挥其发 现、控制、应急的 能力,取 代人作为 主责 方完 成相同的 运行 操作,这其中终 态目标 也 在于安全 和效率。数据中心 安全、高 效运行,是每一个运营 者的核 心 目标,传 统数据 中 心想实现 这些,需 要大量优 质人才。随着新 基建、“双碳”等 国家战略 发 展,一方面,有限 的人才资 源制约着数 据中心 的 快速健康 发展,另 一方面,过度依 赖 人也会增 加数据中心运 行的风 险。从安全 角度来 看,据调查 了解,数 据中心故 障宕机场景中,人为 操 作的事故 占比超过 60%。因数 据中心 面 临的外部 风险不确定 性高,如 突发的疫 情、区 域 的限电、极端的 天 气、机电 系统过 于老 化、能效控制 等方 面。想守住安 全红 线,靠人是远 远不 够的,需要建设 自动化 运 行设施来 助力数 据 中心实现 更深层 次 的安全性。从数据中心智能化运维发展研究报告(2023 年)8 效率角度 来看,和 汽车的自 动驾驶 一 样,数据 中心设 施 的自动化 运行可以降低 对人员 的 依赖,提 升效率。数 据中心智 能驾驶 是 一项系统 性工程,需 要通盘 考 虑,打通 从建设 到 运营、硬 件到软 件 各个环节,不仅要培养 观念与 习 惯,还需 要投入 大 量人力与 时间成 本。类似于 SAE 将汽车 自动驾驶 级别的 L0L5 级划分,清晰 定义了人工驾驶(No automation)、系 统 辅 助 驾 驶(Foot off)、部分自动 驾驶(Hands off)、有 条件自动 驾驶(Eyes off)、高 度 自 动 驾 驶(Mind off)、完 全 自 动 驾 驶(Chauffeured)五 个等级。团 体标 准 数据中心基础设施 智能化 运 行管理评 估方法 将数据中 心的电 气、暖通、安防等设施在 多种故 障 场景下,取代 人作为 主责方达 成相同 的 操作目 标的程度进行 了定义。数 据中心自 动化运 行 发展从全 部人工 运 行的初级 阶段到全自 动运行 的 高级阶段 分为五 个 等级(详见图 4)。未来数据 中心或将达 成第四 级 别,这一 级别将 实 现自动预 测性排 障 和分析、全自动应急处 置及 AI 能 效管理,在运行 态 几乎可以 达到“无人化”。没有 运行 模式限 制,完全 执行运 行操作 任务和 应急处 置有 运行 模式限 制时完 全执行 运行操 作任务 和应急 处置有 运行 模式限 制时完 全执行 运行操 作任务,但不 应急 处置持续 执行监 测,完全 执行 控制持续 执行 部分 监测,部分 执行 控制NONONONOL5 完全 运行自 动化L4 高度 运行自 动化L3 有条 件运行 自动化L2 部分 运行自 动化L1 运行 辅助YesYesYesYesYes 来源:中国 信息 通信 研究 院 图 4 数据中心设施自动化运行能力分级之间的差异与关系 数据中心智能化运维发展研究报告(2023 年)9 其中 L1 级,人工为 主,设施 辅助。实 现数据的 监控采集,具 备设施及系 统的故 障 报警、电 气自动 切 换能力,目前行 业 内很多存 量数据中心处 于该级 别。L2 级,设施为 人 工辅助。由 人主责,设施辅助 共同完成任 务,无论设 施的完成 程度,始终 以人作为 完成任 务 的主责方。L3 级,更进一步的 设施主控、人工辅助。实现半自动运行和远程控制,故障 后的应 急 操作,可 在设施 半 自动模式 下完成,初步实现 数据中心解放 运维人 员 的脚、眼和 手。L4 级,设施全 自动化 运行。可 预测系统和设 施劣化 趋 势和故障,能基 于 自动化的 能效调 控 措施,实 现极致能效,初步实 现 数据中心 解放运 维 人员大脑,在较 长 时间内允 许无人在场。L5 级,无 人运行。设施全 自 动运行、调度、预 测,不期 望人进行干预,特殊 情况 下,可由 运维人 员远 程接管,做到现 场无 人值守。未来,处 于理想 态 的智能化 数据中 心,软件业 务部署 会 垂直贯通数据中心 部件到 上 层的运维,从原 来 的分层解 耦变成 垂 直整合。理想状态下,智能运 行 的数据中 心在运 维 效率、部 署方式 和 最终实施 环节上和传统 的数据 中 心完全不 同。与机器人 技术结 合 的数据中 心智能 化 巡检、运维操 作应用 场景逐渐明朗,驱动智 能 机器人规 模化商 用。运维活 动的稳 定 性与效率 依赖于人员的 排班、技 能、现场 表现等诸 多方面。数据中心 智能化巡 检/运维机器人 可以代 替 人工进行 现场巡 检、硬件插 拔或维 修 操作,可 以将人 员带 来的 临场差异 消弭,进 一步提升 效率。当 前,如机 器人 技术、人工智能、IoT(Internet of Things,物 联网)等 多方面 先 进技术已 取得了长足 发展。在 工业领域,机械 自 动控制系 统已日 趋 成熟,诸 多如数据中心智能化运维发展研究报告(2023 年)10 机器人、机械 手臂、AGV(Automated Guided V ehicle,自 动导引运 输车)、自 动导航 控 制系统等 新应用 层 出不穷,这也使 得 各行各业 对机器人的接 受程度 大 幅提高,其中不 乏 许多数据 中心的 用 户。未来 数据中心内重 复的标 准 操作可以 逐步交 由 运维机器 人进行,助 力数据中 心达成“用机 器 管 理机器”的愿 景。(二)平台智能 化管理 数字技术 推动 DCIM 智能化发 展,监 控管理等 通用能 力 建设与应用将更 加全面 与 深入。数 据中心 逐 渐走向大 型化和 集 约化,管 理模块划分 越来越 精 细化,这 也意味 着 成本的飙 升,以 及 对基础设 施关键技术 依赖的 加 剧。与此 同时,IoT、AI、数字化 3D、数字孪生等新技术 已广泛 应 用,DCIM(详 见图 5)中 监控管 理、运维管理、运营管理、安全 管 理等通用 能力的 高 效建设、精准应 用 是未来发 展的重点。建 设 方面,DCIM 将向基 础 设施和多 个子系 统 集中化管 理发展;应 用方面,包括部件 级、设 备 级、链路 级、数 据 中心级的 运行状态、关键参 数、故障告 警等信 息 将向全局 可视化 发 展,以帮 助管理者更 直观地 掌 控数据中 心运行 状 态。数据中心智能化运维发展研究报告(2023 年)11 来源:中 国信 息通 信研 究院 图 5 DCIM 的管理范畴与服务能力 以运营管 理能力 中 的容量管 理为例,一直以来,数据 中 心企业追求相同成 本下最 大 程度缩短 项目上 线 交付时间,企 业用户 持续投入 建设 IT 系统与数据 中 心,也是 为了能 够抢 占市场先 机、支 撑经 营决策。根据中国 信通院 数 据显示,当前 我国数 据中心规 模超过 600 万架标 准机架,但 数据 中心资 源 利用 率有 待提升,个别 地区 资源闲 置 率达 到50%,造 成一定 资 源浪费。与 此同时,数据中心 管理团 队还面临 另一个挑战,即当前 数 据中心能 不能敏 捷 调配算力 资源,以 支持新业 务的快速上线。本质 上,容量管 理主要 解 决的是资 源调度 问 题,其目 标是为了应对 非线性 业 务需求的 增长,可 以弹性使 用算力 资 源,同时 使得其成本可 控,满 足 用户业务 性能要 求。容量管理是当前数据中心产业规模大型化发展趋势下的迫切需要和必然 要求。根据 中国信通 院发布 的 数据中心 白皮书(2022 年)数据中心智能化运维发展研究报告(2023 年)12 显示,我 国数据 中 心机架规 模持续 稳 步增长,大型及 以 上数据中 心机架规模占 比达 到 80%,成增长主 力。一方面,受国家 相 关政策影 响、企业业务 需求增 长 等因素驱 动,云计算 数据中心 的单体 规 模越来越 大,成 千甚 至上 万机架的 数据 中心 屡见不鲜,超 大型 数据中心 不断 涌现。另一方面,大 型云服 务商、大型互 联网企 业动辄需 要管理 数 百个机房、数万台机 架,这 些 机房和机 架位作 为 主要的不 动资产,需要高效 地利用供电、制冷、网 络、空间 和承重 容 量,避免 每个资 源 维度的闲 置或者超容,实现整 体 效率最大 化。IT 层面,数据 中心 未来的发 展趋势 中,多元化 IT 资源 将 在截然不同的业 务和需 求 间动态分 配。若 要 实现智能 敏捷地 调 配,我们 所关注的容量 指标不 仅 仅指机位 空间、电 量等动力 指标,算 力也成为 容量管 理的 重要 部分,需 要有 效利 用平台或 工具 来实 时监测计算、网 络、存储等资 源的使 用 情况,并 根据运 行 状态实时 调整配 置,实现资 源的有效利用。长 远来看,DCIM 可以 将 基础设施 管理水 平 提升至更 高层次 的业务 智能调 配,在下一 阶段的 新技 术/新产 品或将 更好 得实现 机架功耗、服务器 功 耗、网络 端口利 用 率的微观 优化。如 在机房功 耗密度一定的 情况下,通过调配 部分机 架 的功耗峰 值,达 成 机架内的 最优解,为进 一步实 现 集群化数 据中心 在 基础设施、网络 资 源、计算 资源方面的宏 观优化 提 供基础。基础设施 层面,创 新的 DCIM 容量 管 理,可以提 供数据 中心当前物理状态,并模 拟 未来添加、迁移 和 变更物理 设备的 效 果,能够 预测变更对空 间、供电、制冷、网络、承 重等容量 管理方 面 的影响。一般数据中心智能化运维发展研究报告(2023 年)13 而言,容 量和变 更 管理有模 拟结果、规划容量、管理 工 作流程,以及避免局部 热点等 方 面的作用,可 让运营 者对数据 中心整 体 运营有更 长远、更全 面的认 知 与规划。数据中 心 在全生命 周期运 营 中,每天 都上演着诸多 资源调配 NP-hard(非 确定性)难题,管理者 需 要快速判 断出 服务 器的 安装位置,并 综合 考虑安装 位置 对现 有分支电 路的 影响、新增服务 器对冗 余 和安全性 的影响 等 因素。在 传统数 据 中心,运 营人员通常根 据有限 的、零散的 数据,依 靠个人经 验进行 判 断决策。如果判断错误,那么 当 机柜超过 电源容 量 时,会导 致服务 器 掉电等较 为严重的问题 发生。而 DCIM 能够在 测量机 柜中每个 设备的 用 电量后,根据科学数 据做出 负 载均衡决 策。除 此 之外,还 可以协 助 避免线路 过载及断路器 跳闸,使 得运营者 有机会 在 宕机前做 出合理 调 整。如果 某台机柜接近 容量阈 值,DCIM 还能够生 成 预测性模 拟选项,并 进行评估,以确定最 佳的方 法 来降低该 状况的 发 生。基于基础 设施与 IT 设施融合 管理的 目 标,智能 化管理 对 象应覆盖基础设 施(电 力、制冷、机 柜、安防)、IT 设备(服 务器、交换机、存储)及 相关联 的 环境,管 理活动 应 贯穿数据 中心基 础 设施全生 命周期的运维 运营行 为,提供集 中监控、资源规划、日常 运 维、成本 优化等管理模 块。有效的 运营管理 系统可 切 实帮助数 据中心 保 障基础设 施的高可用 并提高 基 础设施资 源利用 率,降低能源 消耗和 人 员综合成 本,并通过流 程化管 理 日常作业 提升服 务 水平,提高数 据中心 经营产出 和效率,实 时、准 确提 供管理决 策信息,最 终实现以 数据驱 动 管理价值。在此背景下,数据 中心智能化 管理平 台的建设宜 遵循“以 用户需数据中心智能化运维发展研究报告(2023 年)14 求为导向,以价值 为目标”的总体原 则(详见表 1),其核 心价值应 包括:安全、效率、合规。表 1 数据中心智能化运营管理平台建设原则 安全 设施安全 以数据中心设施设备安全为目标,依托多种物联技术进行在线数据采集,通过机理、数理分析手段,实现故障事前预防预测、事中敏捷感知、事后精确处置 人员安全 以数据中心作业人身安全为目标,通过标准化作业指引、知识赋能,实现高危操作可控、风险规避 环境安全 以数据中心场地环境安全为目标,对人员出入、场地活动、环境趋势进行规范审计和全面监控,防患于未然 信息安全 以软硬件系统信息安全为目标,系统健壮、无 漏洞,数据资产可控可信,产品技术不受外部制约 效率 设施效率 以节能低碳、降本为目标,通过监测供电系统、制冷系统质量、效率,应用数 据分析手段发掘低效源头,主动调优运行参数,改善电能利用效率、制冷供冷效率 人员效率 以提升人员运维工作效率为目标,提供电子化、标准化、流程化操作工具,打通线上线下作业壁垒,提升日常作业效率、服务响应能力,提高人均运维产出 运营效率 以提升数据中心经营质量为目标,平台智能支撑运营管理者精细化资源投放,合理、充分发挥基础设施存量价值,提高运营收益 合规 管理合规 以可审计、可追溯为目标,确保过程有迹可循 来源:中国 信息 通信 研究 院(三)体系精细 化落地 面 向业 务应 用,日趋 严格 的用 户服 务要 求推 动企业 搭建 低成 本、高效率的 精细化 运 维体系。随 着新型 数据中心、“东数西 算”等政 策的落地与实 施,一大批 数据中心 项目纷 纷 上马,新建数 据中心 以大规模、超大规模 为主,海 量的设备 和复杂 的 系统为高 效管理 带 来了挑战。如数据中心智能化运维发展研究报告(2023 年)15 果缺乏与 之相匹 配 的现代数 据中心 精 细化运维 手段,粗放 的基础设 施、IT、网络管理 和维 护方式势 必会造 成 电力和网 络成本 的 浪费,在对 于网络体验、算力 服 务要求日 益严苛 的 今日,难以 保证 用 户方对于 业务的高需求 和高要 求。高效运维 流程体 系 应随着业 务发展 战 略迭代更 新,助力数 据中心规范 管理 流 程,提升 运维 价值。并 不是 建设 应用 好智能化 管理 平台、自动化运行设施或其他更先进的“器”后就可以完全保障数据中心的有序运营,一 套行之 有效的运 维管理 方 法论可以 帮助企 业 确立数据 中心全生命 周期运 行 维护管理 的关键 环 节,帮 助运维 团队提 升运维管 理效率,高 效挖掘 运 维价值。管理方 法 论应随着 企业发 展 变化而不 断更新,避免因“重器轻 道”而产 生运维团 队 自身熵增。加之运 维是数据 中心全生命 周期中 历 时最长的 一个阶 段,运维体系 建设及 流 程实施的 重要性不言 而喻。数 据中心的 精细化 运 维是相对传 统 运维 管理而言,一种实现运 维分工 更 精细,运 维质量 更 精益的管 理体系,只有在运 维体系建设、运维流 程 规范中不 断突破 与 创新,才 能实现 数 据中心“运维创效”的 高阶目标。通过积极 运用技 术 手段并建 立一套 运 维体系,可以 全面覆 盖数据中心运营 的设备 管 理、流程 管理、质 量管理、资源管 理、人员与 组织管理各个 关键环 节 所需要的 框架及 流 程,形 成数据 中心运 维全生命 周期的服务 能力。设 备管理环 节,包括 设备监 控、告 警管理、设 备 状态管理、设 备健康 度 管理等关 键活动。以设备健 康度管 理 为例,要 依靠大数据、人工智 能 等技术,基于大 量 历史数据,对设 备 健康情况 和所数据中心智能化运维发展研究报告(2023 年)16 处的状态 进行评 价,并制定 相应运 维 的活动计 划。比 如 当设备出 现内部端口 DOWN(关闭)告警,通过 健康 度分析,预 判将会 影响到网 络转发流量,就 需要运 维人员提 前隔离 设 备,让 网络流 量不流 经该设备。流程管理 环节,主 要包括维 修、维保、巡检、演练 等关 键活动。以巡检为例,当前日 常 巡检的很 多工作 可 以被监控 系统替 代,因此应 强化定期专项巡检来弥补监控系统的不足。比如对 UPS(Uninterrupted Power Supply,不间 断电源)的专 项巡检,可以全面检 查 UPS 的外部、内部,专 家团队 可 以采用红 外热成像仪 检测内 部器件 的 温度,测 量或查看 UPS 内 部母线 电容的电 压、逆 变 器输出的 波形和 谐 波、输 入端的波形等,依此 预 判 UPS 是否有故 障 或隐患。质量管 理 环节,包括 风险管理、事件管 理、问题管 理、资 料 文档管理 等关键 活 动。以问 题管理 为例,与 事件管理 强调 速度 不同,问 题管 理注 重诊断事 件的 根源,确定问题 的根本 原 因,从而 制定恰 当 的解决方 案,防 止 类似事件 的再次发生,因此问 题 管理比事 件管理 会 花费更长 的时间。当前应用 无监督学习算法对大型服务器集群内部的故障进行根因故障分析在业界已 有诸 多实 践。基于 人工 智能 的问题管 理多 以告 警事件、业务 日志、网络及业 务拓扑 等 为管理对 象,依托无 监督方式 的机器 学 习算法技 术进行算法 智能降 噪、算法智 能聚类,实现智能 事件关 系 整合,在 海量的故障事 件中高 速、精准定 位问题,解析原因,并提 高 解决问题 的速度。资源 管理环 节,包括能 效管理、容量管理、资产 与 配置管理 等关键活动。以资产 与 配置管理 为例,资 产管理的 控制目 标 偏重于公 司财务视角,配置管 理 则聚焦 IT 管理视角,识别和 确认系 统 的配置项 记数据中心智能化运维发展研究报告(2023 年)17 录,报 告配 置项状态 和变 更请 求,检验 配置 项的 正确性和 完整 性等。目前已有 大量数 据 中心企业 利用 RFID(Radio Frequency Identification,射频识别)技术,对单位的 固定资 产 进行标签 式管理,可实现资 产全面可视和 信息实 时 更新,能 够实时 监 控资产的 使用和 流 动情况。人员与组织管 理环节,包括供应 商管理、交接班管 理、培 训 与考核等 关键活动。人员与 组织管 理更加强 调管理 者 对自身所 拥有的 各 种与人员 相关的要素 计划、组 织、协调 和控制 的 过程,在 战术与 操 作层面都 强调正确、合 规。目 前相 关标准已 提出数 据 中心精细 化运维 成 熟度模型(详见图 6),详细 定义 了上述环 节各个 过 程的目标 与能力 要 求。来源:中国 信息 通信 研究 院 图 6 数据中心精细化运维成熟度模型(四)服务价值 化输出 广义的运 维工作 应 包含管理 与服务 两 个部分。向内归 因,管理者应向自己 提问“我 需 要管理什 么?”,这 里主要是 对数据 中 心各项管 理对 象进 行系 统的计划、组 织、协调与控 制,是设 备管理、流程 管理、质量管理、资源 管理、人员与 组织管 理的 总称,对 内应着 眼效 率提升。经济学中提到的著名理论“生产力决定生产关系”指出了运维工作的数据中心智能化运维发展研究报告(2023 年)18 外延部分,服务 包 含的内容 本质上 是 管理者反 思“我能 提 供什么?”的过程。相 较于管 理,服务是向 外探索,指 的是运维 团队具 备 哪些能力,可以用何 种方式 对 外输出,因此对 外 应强调敏 捷升级。据 ODCC(开放数 据中心委 员会)测算,2022 年 我国数 据中心基础设施运 维市场 营 收超过 100 亿 元,且近 5 年的 市场增 长 率都在 20%以上。数 据中心 运 维服务将 日趋细 致 与专业,专业人 才 短缺问题 或将长期存在、分化 也 将日趋严 重。面 向 成本类、效率类 等 场景,各 数据中心运营 商是否 运 用赋能提 效工具,工具是否 起到实 际 作用,影 响运维增值服 务能力 输 出。部分 数据中 心 在价值化 运营下,会取得良 好效果,这也 将推动 产 生规模越 来越大 的 专业第三 方运维 服 务市场。(1)成本类场 景 数据中心 借助 AI 软 件等工具 进行绿 色 运维,不 仅仅是 为 了符合绿色经济 与“双碳”战略的要 求,对 于 数据中心 自身的 可 持续发展 来说,通过引入 AI 调优的 方式降低 用电量 能 耗,即便 是节省 几 个百分点 的耗电量,都意味 着 巨大的成 本节约。切实提升 能源利 用 效率,降 低数据中心能 耗,打 造 数据中心 绿色运 维 服务模式,已成 为 新型数据 中心发展的重 要任务。一 方面,在近 几年数 据 中心“新基 建”的建设 热 潮 下,很多基础 建设实 际 都已完成,运 维人员 接下来面 临的问 题 是如何在 运维和能效 管理上 进 一步满足 用户对 于“最高能效、最低 成 本”的极 致要求。另一 方 面,在互 联网、金融行业 等用 户方的高 标准 SLA 要求下,为与用户 方的设 备 产品相匹 配,提 供 更好的绿 色运维 服 务,更加 要求数据中心 运维方 在 确保安全 性、可 靠 性、灵活 性等基 础 上,进行 能效数据中心智能化运维发展研究报告(2023 年)19 管理。当前,数据 中心节 能 潜力已经 充分挖 掘,PLF(Power Load Factor,供电负载 系数)下 降值已接 近天花 板,冷却系 统成 PUE 节能的主 战场。数据 中心大 多 需要复杂 的制冷 系 统设备,在目标 温 度及机房 内外环境温湿 度等多 种 参数的制 约下,数据 中心的能 耗优化 问 题成为一 个非 线性 多输 入的控制 优化 问题。目前业 界趋 于采 用机器学 习的 方法,基于历史 数据,用 模型来逼 近从输 入 到输出的 各种复 杂 变化。通 过在系统中整 合预训 练 好的深度 学习预 测 模型,技术专 家的能 效调优经 验可以协助 运维工 程 师调整设 备参数 组 合。设备 经调参 操 作之后,输出的结果将 继续被 采 集和学习,模 型不断 迭代后可 以确保 精 确性与安全性。专 家系统 中的实 际调控经 验会作 为 人工智能 算法模 型 控制推荐 的方案,最 终实现 降 低整体智 能化运 维 的风险,达成系 统 级的能效 智能优化,助 力数据 中 心产业进 一步优 化 制冷系统 成本。(2)效率类场 景 电力系统的稳定运行和维持理想的物理环境温度是保证数据中心运营稳 定的关 键。许多数 据中心 通 过监控系 统和运 维 人员巡检,来检测机房 内的电 热 异常行为,减少 电 热问题带 来的故 障。但如今 的数据中心电 力、制 冷 及 IT 设备的拓扑类 型、工作 状态、业 务负载千 差万别,难 以快速 发 现及定位 问题。基 于复杂的 应用场 景,目前较 为常见的提效 工具是 CFD(Computational Fluid Dynamics,计算 流体动力学)。利用 CFD 技术 仿真可以 找出气 流 短路和气 流中热 点 所在位置,数据中心智能化运维发展研究报告(2023 年)20 快速找出 产生局 部 热点的原 因,有 针 对性地进 行优化 改 进,同时 还可以利用仿 真结果 对 冷热气流 隔离等 改 进方案进 行评估 和 验证。三、数据中心 智能化 运维发展 实践 编写组通 过全面 总 结案例实 践成效 与 具体做法,希 望能为 推动数据中心运 维向精 细 化、绿色 化、智 能 化发展提 供有益 借 鉴与参考。(一)以自动化 设施提升运行效 率 我国 互联 网企 业、第三 方服 务商 积极 开展 自动 化运 行相 关实 践,但当前大 部分数 据 中心还处于 Level 2 的水平。通过中 国 信通院调 研发现,在电 气、暖 通系统自 动化运 行 实践水平 方面,90%以上的数据中心在市 电故障
展开阅读全文