资源描述
中国云原生数据湖应用洞察 白皮书 2022.4 iResearch Inc.2 2022.4 iResearch I摘要 来源:艾瑞咨询研究院自主研究及绘制。概念界定:数据湖是面向大数据场景的创新解决方案,采用了与传统数仓不同的设计架构,具有 数 据多源异构、统一存储管理、多范式计算、schema 后置和应用广泛 的特性。云原生是数据湖未来部署的必然形态,具有 建立统一数据资产、低成本使用基础资源、高性能计算体验升级和敏捷创新 赋能 的核心价值。市场现状:数据变革、企业数字化转型、投融资、政策支持将持续加速释放云原生数据湖的应用需求。2020 年云原生数据湖市场规模(含生态)达 124 亿,预计未来三年将以 39.7%的复合增长率快速扩张。竞争格局:中国云原生数据湖还处于发展的早期,能够提供整体解决方案的独立厂商还较少,市场较 为集中,竞争主要围绕头部云厂商展开。以营收口径核算,2020 年云厂商在中国云原生数据湖市场(不包含生态支持部分)的份额达到了 82.4%。趋势展望:在云原生与大数据背景下,云原生数据湖成为企业智胜未来的新一代生产力工具,市场即 将迎来爆发期。尽管数据湖与云和大数据天然契合(海量、弹性、简单、敏捷),但在具体业务场景 落地中,仍有许多实际问题需要解决。未来,云原生数据湖厂商需与开发者、ISV 和 SI 共同努力,在 企业级生产环境中不断探索,生态共赢驱动云原生数据湖解决方案日臻完善。应用现状:现阶段,云原生数据湖主要应用于泛互联网行业(40.7%)及传统行业的互联网场景(泛 政务、金融、工业、医疗、汽车等),未来将向更多具有大数据和高价值属性的行业拓展。选型建议:企业在布局数字化转型时,面对多元且快速迭代的业务需求,一方面需建设统一的数据底 座,另一方面需关注 DT 能力的开放性、敏捷性和创新性。在选型云原生数据湖时,除内部能力评估外,还需要考虑服务商的服务半径和发展路径。3云原生数据湖概念界定 1云原生数据湖市场现状 2云原生数据湖竞争分析 3云原生数据湖行业应用与最佳实践 4云原生数据湖选型建议与典型企业 5云原生数据湖发展趋势 64 2022.4 iResearch I数据湖的定义 数据湖是面向大数据场景的创新解决方案 早期,业界和用户多把数据湖定义为一个储存原始格式数据的系统,可容纳结构化、半结构化、非结构化及二进制的数据。随着大数据技术的融合发展,数据湖的边界不断扩展,内涵也发生了变化。数据湖开始汇集各方面技术,逐步演进成为集多源异构数据统一储存、多范式计算分析及统一管理调用的大数据综合解决方案。它可以更加高效率低成本地管理海量多源异构数据,打通数据孤岛,释放数据价值,助力新时代下各行业企业的数字化转型。来源:艾瑞咨询研究院自主研究及绘制。数据湖典型构架及特性 数据湖接入层 离线 数据湖管理层 任务管理 流程编排 质量管理 数据治理 数据接入 数据搬迁 访问控制 资产目录 元数据管理 数据湖计算层 离线计算 实时计算 应用 BI 报表 数据大屏 数据挖掘 机器学习 IoT 分析 数据科学 数据库 数仓 APP日志 MapReduceSparkStorm FlinkSpark Streaming数据湖存储层 OSS数据湖应用层 实时 调用 数据湖调度层 统 一 的 API接 口 应用广泛:支持使用者通过自助访问业务数据,支持数据挖掘、机 器学习等未知探索诉求。Schema 后 置:数据湖存储数据不需要满足特定的范式,支持在读取数据的时候schema。数据多源异构:可容纳海量数据,且无存储格式要求,接收结构化、半结构化、非结构化及二进制数据入湖。数据统一存储管理:对内以 OSS 为中心,进行统一存储,对接多范式计算引擎,对外提供统一的 API 接口 多范式计算:支持多种计算引擎,满足不同数据计算分析需求,支持批处理、流处理、机器学习等。5 2022.4 iResearch I数据源 数据处理 适用场景 性价比 支持处理过后的结构化/半结构 化数据;来自业务系统 写时建模(Schema-on-write)传统行业,以及企业的稳态业务;数据量少,数据结构化,稳定可预测,对 执行实时性要求不高 建设成本低 扩容成本高 高度监管与严格事前控制,满足 企业级 诉求;数据与模式稳定,引擎优化 表现较好。支持未经处理的结构化/半结构 化/非结构化数据;来自 IoT 设备、Web、APP和业务系统等 读时建模(Schema-on-read)泛互联网行业以及传统行业的互联网场景;海量数据,迭代速度快,需要实时分析 扩容成本低 建设成本高 可针对特定业务需求进行重新配置,灵活性和可扩展性较强。数据湖 vs 数据仓库 诞生背景、设计思路及使用场景各不相同 数据仓库是诞生于数据库时代,应企业分析诉求而生的数据产品,它的核心思路是把数据库中的数据进行一定格式转换后,定时地复制至另一个库里做列式存储,从而满足企业查询和数据分析的诉求。随着互联网的发展,数据量暴增,非结构化数据越来越多,企业业务变化越来越快,传统数据仓库无法适应大数据和现代化企业对于实时、交互式分析等方面的诉求。随之,数据湖诞生。它选择了“前松后紧”的设计思路,初始化阶段放弃严格的模式,后置 schema,从而获取更强的灵活性;同时通过统一存储管理和计算优化来保证数据的一致性和性能。来源:艾瑞咨询研究院自主研究及绘制。数据湖 数据仓库 数据湖与数据仓库对比 数据仓库 BI报表 ETL数据湖 数 据 处 理 数据源 数据源 BI报表 6 2022.4 iResearch I 2022.4 iResearch I 云原生数据湖 云原生部署是数据湖未来的必然形态 近年来,在数字经济的背景下,互联网行业及传统企业加速云化转型,中国整体云服务市场的规模逐年扩增,云成为新一代 IT 基础设施已经成为不争的事实。其中,企业云化转型的深入以及用云思维的转变,驱动了 PaaS 市场份额的增长,基于云的能力创新已成为基础云发展新的增长引擎。云特有的“池化、弹性、成本、敏捷”等优势让数据层与应用层的很多设想得以实现,拥抱云原生成为数据湖乃至大数据的必然选择。来源:艾瑞 2021年中国基础云服务行业发展洞察,艾瑞咨询研究院自主研究及绘制。来源:艾瑞 2021年中国基础云服务行业发展洞察,艾瑞咨询研究院自主研究及绘制。2015-2024年中国整体 IaaS 和 PaaS市场规模及增速 2015-2024年中国整体云服务 市场规模及增速 394521693102616122256324546906598928632.1%33.2%48.1%57.1%39.9%43.8%44.5%40.7%40.7%2015 2016 2017 2018 2019 2020 2021e 2022e 2023e 2024e整体云服务市场规模(亿元)整体云服务市场增速(%)24132242463810881639228533144203552754 71105145184272405613918137433.3%31.7%50.6%70.4%50.7%39.4%45.0%26.8%31.5%32.6%47.2%38.1%27.0%47.8%49.0%51.5%49.8%49.6%2015 2016 2017 2018 2019 2020 2021e 2022e 2023e 2024eIaaS 市场规模(亿元)PaaS 市场规模(亿元)IaaS 市场增速(%)PaaS 市场增速(%)7 2022.4 iResearch I云原生数据湖核心价值一:数据资产 集中存储、统一管理,建立高质量的数据资产 随着数字转型化进入深水区,“数据”已经成为企业的核心生产要素,打通各部门、各应用系统,建立企业级的统一数据资产已经成为业内的共识。基于云上的集中存储和数据湖,企业可以更丝滑地实现数据多源聚合,对 内外部数据进行全生命周期的管理,从而沉淀为数据资产,赋能业务应用,释放数据价值。同时,基于云原生数据湖部署的云原生应用天然可以实现数据的无界流动,数用一体为企业打造了高效的价值闭环。来源:艾瑞咨询研究院自主研究及绘制。基于云原生数据湖的统一资产建设 集中存储、统一管理 n 数据质量 n 数据交换 n 数据安全 n 数据计算 n 数据打通 n 数据存储 数据库传输、日志、IoT 源接入等 数据转换、逆向解析、目录管理等 异构数据转换、OCR、NLP 等 安全密钥、权限管理、监控预警等 统一调度、数据共享、API 接口等 海量数据、冷热分层、多种访问方式等 价值闭环 数据资产 云原生应用 数据沉淀 业务赋能 结 构 化 数 据 半 结 构 化 数 据 非 结 构 化 数 据 ERPCRMWeb EmailMedia IoT8 2022.4 iResearch I云原生数据湖核心价值二:低成本 通过云的方式,更低成本地使用存储和计算资源 云原生数据湖是基于云环境构建的低成本大数据解决方案。于存储上,云原生数据湖使用对象存储,实现了无限扩容(理 论上)和更低的价格,同时云上统一存储也简化了之后数据调用的复杂度;于计算上,云原生数据湖采用计算存储分离的架构,让计算节点和存储节点可以分别弹性伸缩,避免了存算需求不同造成的浪费;于用云策略上,云原生数据湖通过Serverless 的模式,根据请求量自动进行毫秒级的弹性扩容,解决波峰资源短缺、波谷资源浪费的问题,实现最小单元的成本最优。来源:艾瑞咨询研究院自主研究及绘制。云原生数据湖成本优化剖析 存储成本 OSS计算成本 计算存储分离 用云成本 Serverless资源浪费 资源短缺 预留 实际 现阶段定时等云资源调用机制具有一定的滞后性,为了保 证高可用,企业往往选择采取冗余的伸缩策略,这造成用 云成本的上升。Serverless 模式下,资源消耗随着应用程序的需求(请求数量)变化自动扩展或缩减,计费精确到 毫秒级,大大降低了企业数据湖用云成本高企的问题。块存储 文件存储 对象存储 随着移动互联网、产业互联网、5G的发展,个人端和企业端产生的数据量爆发增长。在早期大数据分析的架构下,计算资源和存储资源是紧耦合的,只能同步扩容,这造成 了计算资源的过剩。存算分离后,计算节点和存储节点都 可以按需弹性扩容,大大降低了计算的成本。不同于直接操作物理磁盘的块存储,或基于文件路径访问 的文件存储,对象存储通过唯一标识符(Key)映射寻址,存取都非常灵活和简单。这种方法对在云计算环境中自动 化和简化数据存储都大有裨益,体现在用户侧即表现为理 论上无限的扩容可能性和更低廉的存储成本。计算存储分离 计算 存储 计算存储耦合9 2022.4 iResearch I云原生数据湖核心价值三:高性能 云湖共生,带来大数据应用的高性能体验 数据湖“统一 简单、松耦合 弹性、敏捷 探索”的设计思路与云计算天然契合,当数据湖以云原生的方式部署时,其 强大的性能优势可以被最大化释放。一方面,数据湖上云后可以享受云本身带来的性能提升,如高可用、弹性、敏捷等;另一方面,数据湖在云原生的环境中可以做更多性能优化的工作,如丰富的上下文带来的分析加速,流批融合带来的实时数据价值释放,一站式数据管理方案带来的安全和质量改善等。来源:艾瑞咨询研究院自主研究及绘制。云原生数据湖性能优化剖析 云计算具备动态扩充性与可负担性,可以解决海量业务带来的吞吐和IO性能瓶颈,满足大数据分析所需资源的庞大规模与突发性质的需求。弹性 高可用 敏捷 多范式 加速 安全 相较自建 IDC,云环境拥 有更多的资源冗余,一 节点发生故障能无缝切换到其他节点,从而对企业侧体现为高可用,确保了业务的连续性。云让企业得以从重复、复杂的底层 IT 工作中释放出来,同时其模块化、松耦合的敏捷架构有利于数据产品的快速迭代、部署、运维和创新。01OnCloud 本身带来的性能提升 02In Cloud 更进一步地性能优化 云原生数据湖基于云环境统一了企业数据资产和多范式计算引擎,从而可以支持企业对任何数据类型执行任何分析。同时其可扩展的架构也 为企业使用AI 进行探索做好了准备。一方面,云原生数据湖提供了比以往更丰富的上下文,有助于加速分析实验;另一方面,它 统一了流式处理和批式处理,可以为企业提供更实时的数据价值体验。云原生数据湖提供了简单、强大的数据管理解决方案,以全保真的方式存储任何类型或数量的数据,有助于企业加强安全和治理。10 2022.4 iResearch I云原生数据湖核心价值四:敏捷创新 重塑 IT 部门定位与价值,赋能业务应用敏捷创新 云服务重塑了 IT 产业的分工和企业 IT 部门工作的内容和方式,企业 IT 部门越来越少地关注复杂的底层技术,转而向应用创新聚焦,充分释放其业务赋能价值。通过统一对象存储、多引擎兼容、数据智能管理,云原生数据湖基于云的环境进一步释放了企业 IT 的生产力。IT 部门无需再关注基础资源和数据层的大多问题,如存储扩容、计算优化等,可以将更多的精力放在业务支持、应用创新上,实现真正的数据驱动企业发展。来源:艾瑞咨询研究院自主研究及绘制。企业 IT 部门定位变化 成本 价值 IT 时代 职能中心 DT 时代 创新中心 成 本 导 向 价 值 导 向 存储层 基于云原生对象存储的方式,企业无需担心数据增长带来的扩容问题,无需关注数据存放的物理位置,只需要将云当作是一个无限扩展、简单存取、弹性伸缩的“网盘”即可。计算层 在云原生的环境下,企业可以在统一的控制台上简单地(写 SQL 一种语言即可)进行多范式计算,根据业务需求和数据属性自动/半 自动地选择适合的计算引擎,无需 IT 部门再花费额外的学习成本去进行计算优化。应用层 将云原生数据湖作为企业大数据的解决方案,可以更进一步地屏蔽底层的复杂性,聚焦于业务服务。基于弹性的 IT 基础资源和柔性的数据资产,IT 可以更敏捷地进行应用创新。云计算的发展加速了 IT 部门定位的变化,企业对其的诉求更多地由成本转向价值支持,IT 部门正在由职能中心向创新中心过渡。云原生数据湖的应用创新价值11云原生数据湖概念界定 1云原生数据湖市场现状 2云原生数据湖竞争分析 3云原生数据湖行业应用与最佳实践 4云原生数据湖选型建议与典型企业 5云原生数据湖发展趋势 612 2022.4 iResearch I大 数 据 技 术 数 据 湖 发展历程 产品随市场需求不断演进,国内数据湖尚处于发展初期 中国数据湖技术正在逐年发展及突破,公有云厂商及其他行业厂商纷纷在做尝试。但目前在数据感知收集及归类清洗方面存在壁垒和难度,数据湖建模经验不足,因此我国数据湖市场整体发展处于初期阶段,未来发展空间广阔。来源:公开资料,专家访谈,艾瑞咨询研究院自主研究及绘制。数据库时代 1960 s 2000 s 20 世纪 60 年代,计算机开始广泛地应用于数据管理,能够统一管理和共享数据的数据库管理系统(DBMS)诞生。20 世纪 90 年代,为满足企业数据分析的诉求,数据仓库诞生。2000s2010s:互联网蓬勃发展,数据量 爆发式增长,数据库/数仓 难以承载海量数据,大数 据时代开启;以 Hadoop(开源)、Google、MicrosoftCosmos 为代表的分布式 技术体系诞生,奠基了大 数据时代的基本技术框架。2010s2020s:数据仓库不断演进,在性能、成本、数据管理能力等方面不断优化,Google BigQuery、Snowflake 等 优秀产品面市;以开源 Hadoop 体系为代表的开放 式 HDFS 存储、开放的文件格式、开放的元数据服务以及多种引擎(Presto、Spark、Flink 等)协同 工作的模式,形成了 数据湖 的雏形。大数据技术的 探索期 2020s:大数据技术逐步渗透到下游各行业,人们 对大数据产品 提出了成本、安全、稳定性 等更加全面的企业级生产的要求;云上纯托管的存储系统逐步取代 HDFS,引擎丰富度也不断扩展,数据湖 开始走向“云湖共生”阶段;数据仓库和数据湖在云的体系下得以打通,湖仓一体的解决方案在业界开始应用。阿里云 推出业内首个云原生企业级数据湖解决方案 IBM推出面向数据湖的新一代存储解决方案 百度云 推出百度 数据湖管理与分析平台 EasyDAP 华为云 推出数据湖治理中心 DGC,将 原 FusionInsight HD与 MRS 结合,全面升级到 FusionInsight MRS 云 原生架构 2020 年 阿里云 定义了数据湖 3.0,为 用户提供以 OSS 为中心,多种元数据统一管理,并结合云原生进一步实现实时化、AI 化、生态化的综合性解决方案。腾讯云 首次对外展示完整的云端数据湖产品图谱,并推出数据湖计算 DLC 和数据湖构建DLF 产品 2021 年 中国云原生数据湖行业发展历程 亚马逊云科技 推出 Lake Formation2018 年 基于数据湖战略,EMC推出三款新的 Isilon 软件产品 Isilon SD Edge、第 8代 Isilon 操作系统和 Isilon CloudPools2016 年 亚马逊云科技 宣布 LakeFormation 全面上市 青云 QingCloud 联合HashData 发布基于云模式构建的数据湖解决方案 2019 年 大数据技术的 发展期 大数据技术的 普及期13 2022.4 iResearch I政策 法律法规不断落地,推动大数据产业走向成熟 2015 年 出台的 促进大数据 发展行动纲要 呈现“一体两翼一尾”的格局,首次将大数据发展提升至 国家 战略层面,奠 定了大数据未来发展的总体基调。2021 年 5 月印发 的 全国一体化大数据中心协同创新体系算力枢纽实施方案 提出加快建设全国一体化大数据中心算力枢纽体系,同时加强对基础网络、数据中心、云平台、数据和应用的一体化安全保障,提 高大数据安全可靠水平。近五年间,国家出台多条产业政策及法规,不仅从方针上引领大数据产业高效、合规发展,同时也将该产业布局至 政务、金融、工业、医疗、旅游服务、气象管理 等多个 细分 领域。来源:中国政务网国务院政策文件库,艾瑞咨询研究院自主研究及绘制。2015年-2021年中国大数据重点法律法规和产业政策脉络 总 基 调 大数据产业发展规划(2016 2020 年):制定 5-10 年内大数据发展 目标,将大数据发展上升 至国家战略层面 生态环境大数据 建设总体方案;首次提出发展生 态大数据,建立一 个机制、两套体系、三个平台 关于印发推进普惠金融 发展规划(2016-2020)的通知:鼓励金融机构 运用大数据、云计算等 新兴信息技术,打造互 联网金融服务平台。医疗大数据-提出 建设人体健康信息 平台,促进医疗大 数据开放共享 大数据产业发展规划(2016 2020 年);推进大数据技术产品创 新发展,加强大数据在 重点行业领域的深入应 用,构建强有力的大数 据安全保障体系 气象数据管理 办法;关于深化“互联网+旅 游”推动 旅游业 高质量发 展的意见 深入建设 工业大数 据平台 关于加快推进国有 企业数字化转型工作 的通知:强化数据 驱动、集成创新;建 设大数据平台 全国一体化大数据中心 协同创新体系算力枢纽实 施方案;推进大规模数 据的“云端”分析处理,重点支持对海量规模数据 的集中处理。国家信息化发展 战略纲要:优化 数据中心布局,加 强大数据、云计算、宽带网络协同发展 科学数据管理办法 关于加强互联网信 息服务算法综合治理 的指导意见;鼓励 广大网民积极参与算 法安全治理工作 关于加快推进 交 通旅游服务 大数据 应用试点工作的通 知 子 赛 道 2015.8 2016.1 2016.3 2016.6 2016.7 2017.1 2017.11 2018.3 2020.9 2020.10 2021.5 202 1.914 2022.4 iResearch I5.0 4.2 6.4 18.4 57.1 66.6 106.4 123.2 348.2 135.1 294.1 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021投资金额(亿元)19 1638801712122252091481301602011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021投资事件数(件)投融资 资本市场活跃,数据湖商业价值逐步凸显 据统计,近年来数据服务行业投融资事件数和金额整体呈上升趋势,并在 2019 年达到了巅峰,投资金额超过了 300 亿元人民币。2020 年,受到疫情等外部因素的影响,投融资事件数和金额数均有所下降。但随着国内疫情的稳定和经济的回暖,2021 年,数据服务行业的投融资再次展现出上升的态势。放眼全球云原生数据湖市场,初创数据湖厂商 Databricks、Upsolver 等都获得了上亿美元的融资。该领域的资本市场活跃,数据湖的商业价值逐渐凸显。来源:IT 桔子,Crunchbase,艾瑞咨询研究院自主研究及绘制。2011-2021年中国数据服务行业投资情况及 美国云原生数据湖融资事件 DatabricksC 轮 D 轮 E 轮 F 轮 G 轮 H 轮 Upsolver种子轮A轮 B轮 截至 2021.9,完成 七轮融资共计 34.97亿美元 截至 2021.4,完 成四轮(两轮次 种子轮)融资共 计 4.2 千万美元 Databricks UpsolverB轮 A轮15 2022.4 iResearch I中国云原生数据湖市场规模 2020 年规模达 124 亿,预计未来三年维持 39.7%的快速增长 据艾瑞统计,中国云原生数据湖 2020 年整体规模达 124.8亿元。目前行业正处于初期发展阶段,由于国家政策利好、互联网技术高速发展的驱动、企业数字化转型加速等因素,预计中国云原生数据湖市场未来三年会以 39.7%的复合增长率快速发展。2018-2023年中国云原生数据湖市场规模及增速 注释:云原生数据湖市场规模 不含生态统计口径为 2020自然年全年各厂商在中国内地(不含港澳台)销售云原生数据湖解决方案的营业收入,合同签署地点和交付地点都位于中 国内地区域。不包含云原生数据湖组件(包括存储、计算、管理及调度层)发生于其他解决方案(例:数据仓库)的营收,不包含云原生数据湖生态支持厂商部分。注释:云原生数据湖市场规模 含生态统计口径为注释 1中包含云原生数据湖组件(包括存储、计算、管理及调度层)发生于其他解决方案(例:数据仓库)的营收,且包含云原生数据湖生态支持厂商部分。来源:艾瑞长期基础云服务数据监测,结合公开资料、专家访谈,根据数据测算模型,自主研究及绘制。15 26 44 76 124 196 76.8%69.4%74.8%61.9%58.2%2018 2019 20202021e 2022e 2023e云原生数据湖市场规模 不含生态(亿元)增长率(%)63 89 125 179 252 350 40.8%40.0%43.7%40.7%38.7%2018 2019 20202021e 2022e 2023e云原生数据湖市场规模 含生态(亿元)增长率(%)CAGR=73.1%CAGR=40.4%CAGR=39.7%CAGR=60%16 2022.4 iResearch I增长机遇 数据变革与企业数字化转型加速云原生数据湖的应用 IoT、移动互联网和 5G的发展,带动数据量爆发,如何从数据海啸中挖掘数据价值成了企业亟待解决的难题。在此背景下,企业亟需新的大数据架构来处理数据,这为数据湖市场发展带来契机。互联网的发展加速了时代数字化发展,同时也深刻地改变了企业的业务模式。以“敏捷、创新、数据驱动”为导向的数字化转型需要新的生产力工具来打破数据孤岛、沉淀数据资产、完成数据价值反哺企业。云原生数据湖的各部分组件为数字化转型的每一阶段提供技术支持,完成“数”与“智”的融合。来源:艾瑞咨询研究院自主研究及绘制。数字化转型 云原生数据湖 数字化 数据采集 数据传输 数据存储 数据计算 数据应用 信息链接 资产形成 信息反馈 决策赋能 接入层 迁移上云灵活 平滑,使企业 轻松实现数据 多源聚合。计算层 多范式计算,支持实时分析 及交互式分析,更有效形成及 管理数据资产。应用层 统一调用元数据,通过 BI、数据大 屏、AI、机器学 习等多种落地场 景为决策赋能。打通软硬件 之间、企业 各部门间的 数据壁垒。将各种来源、不 同格式的数据进 行统一存储,初 步形成数据资产。将原始数据资产根 据使用者需求进行 整合、调度、模拟,输出可读的形式。将可读数据进一步 计算分析,提取数 据价值,展示规律,应用于商业决策。存储层 支持多源异构数 据的存储,并提 供数据“冷热分 离”存储,沉淀 数据以形成资产。云原生数据湖为企业数字化转型各环节提供技术支持 数智结合,实现闭环 半结构化数据暴增,为 企业更好地利用数据价值、赋能业务提出了更高要求。传统大数据架构已无法满足海量多源异构数据处理需求,取 而代之的将是更能顺应互联网时代的云原生数据湖解决方案。数据 业务 生态 闭环17 2022.4 iResearch I痛点改进 在数据治理、全链路、安全等方面仍待持续改进 从应用现状来看,数据湖在国内的落地还存在许多痛点。产品层面,数据湖的数据治理能力和全链路能力仍需进一步的加强,客户方更亟需智能化、一站式的解决方案;应用层面,云原生数据湖的行业认知和人才培养较为单薄,仍待市场的进一步培育。另外,近期安全隐私法律法规不断落地,企业主对云原生数据湖的安全监管也提出了更高的要求。来源:公开资料,专家访谈,艾瑞咨询研究院自主研究及绘制。安全监管 随着企业数字化进入深水区,“数据”已经成为市场和企业的核心生产要素。数据湖的最大风险之一就是安全性和访问控制。大量数据可以在没有任何监督的情况下流入湖泊,一旦某些数据包含其他数据所没有的隐私和法规要求,将会有一定几率发生数据泄露或者遗失,后果不可估量。行业认知 尽管数据的价值属性已经获得业界的广泛共识,但 是选择观望的企业依旧占据大多数,数据湖在认知和推广上仍然面临着多方面的挑战。数据治理 数据治理要求在目录中包含数据的分类、规则,若 企业对于数据湖的掌控能力不足,会导致数据湖目录及整体构架设计不良、湖内数据未得到充分归档或维护,容易形成数据沼泽。因缺少上下文元数据关联,数据沼泽就无法进行数据检索,致使用户无法有效分析和利用数据。全链路能力 现阶段国内可以提供全链路云原生数据湖服务的供应商较少,大多厂商仅提供数据湖组件的支持,因 此下游需求企业只能采购多家供应商来满足自身从数据采集治理到分析可视化的需求。尤其是技术水平较弱的企业更为希望厂商可以提供全面的服务。人才缺失 目前大数据、AI 技术栈创 新日新月异,企业缺乏专 业人才。从企业内部来看,管理者对数据治理一知半 解,若在没有深入梳理企 业业务现状及需求的情况 下盲目搭建数据湖、追求“大而全”的概念,可能 导致数据湖落地效果不佳。云原生数据湖 应用的集中痛点18云原生数据湖概念界定 1云原生数据湖市场现状 2云原生数据湖竞争分析 3云原生数据湖行业应用与最佳实践 4云原生数据湖选型建议与典型企业 5云原生数据湖发展趋势 619 2022.4 iResearch I产业图谱 公有云厂商+生态厂商的市场格局初现 注释:此页主要表现云原生数据湖及其生态的布局情况,仅展示部分典型企业,图谱中所展示的公司 logo 顺序及大小并无实际意义。来源:艾瑞咨询研究院自主研究及绘制。中国云原生数据湖产业图谱 数据湖综合解决方案厂商 云厂商 大数据厂商 其他厂商 数据湖生态厂商及开源项目(部分)应用 管理 计算 存储(包括部分开源项目)20 2022.4 iResearch I竞争格局 整体来看,中国云原生数据湖还处于发展的早期,能够提供整体解决方案的独立厂商还较少,市场较为集中,竞争主要围绕头部云厂商展开。以营收为核算口径,2020 年云厂商在中国云原生数据湖市场(不包含生态支持部分)的份额达到了82.4%。一方面,于先发优势上,云计算具有弹性算力支持、数据聚合的特性,与数据湖思路天然契合;另一方面,于布局实践上,“春江水暖鸭先知”,出于服务自身或互联网客户的动因,云厂商率先基于云原生进行了能力的整合,在对象存储、多范式计算、大数据管理等云原生数据湖核心技术上都更为成熟。注释:独立厂商包括大数据厂商、软件厂商、以及其他提供云数据湖服务的 IT 厂商。注释:此市占率统计口径为 2020自然年全年各厂商在中国内地(不含港澳台)销售云原生数据湖解决方案的营业收入,合同签署地点和交付地点都位于中国内地区域。注释:此市占率统计口径不包含云原生数据湖组件发生于其他解决方案(例:数据仓库)的营收,不包含云原生数据湖生态支持厂商部分。来源:艾瑞长期基础云服务数据监测,结合公开资料、专家访谈,根据数据测算模型,自主研究及绘制。2020年中国云原生数据湖市场(不含生态部分)竞争格局 先发优势,云厂商市占率达 82.4%2.轻量与专注 与云厂商从云出发到数据服务的视角不同,独立厂商大多从数据服务出发,业务更加轻量与专注。由于数据湖较其他大数据产品更强调“海量异构数据统一存储、多源数据统一管理、多计算引擎统一调用”的能力,故而对于第三方独立厂商而言,解决“海量存储、计算优化、生态建设”的成本都会更高,市场进入的难度也更大。1.多云、混合云管理能力 独立厂商具有第三方中立性,可以支持多云部署管理,解决企业供应商绑定的后顾之忧。云厂商 独立厂商 1.基础资源支持 云基础资源池化、存算分离的特性,可以最大程度上弹性、低成本地支持数据湖的各种工作。国内市场环境复杂多变,在行业应用、客户服务等领域,云厂商还需要更多的生态厂商的补足。3.能力统一调度 在云原生的环境下,企业可以以统一视角,更优雅地调用多种计算引擎。2.数据聚合优势 基于云的形式,企业可以更丝滑地实现各系统相通,解决数据孤岛问题。82.4%17.6%21 2022.4 iResearch I竞争要素剖析 技术+解决方案+应用构成云原生数据湖的核心竞争力 云原生数据湖是一套完整的云上大数据解决方案,可以服务企业的多种数据诉求,其竞争要素可以归类为技术、解决方案、应用三层。在技术层,云原生数据湖需要具备稳定、高性价比的存储服务、多引擎兼容的计算优化服务以及全生命周期的智能化数据管理服务;在解决方案层,厂商需要贴近业务,面向特定场景和特定行业提供丰富、可落地的架构方案;在应用层,厂商需要通过生态或自建等方式提供更多的应用服务,不断扩大自己的服务半径,向终端客户展示更全面的能力。来源:艾瑞咨询研究院自主研究及绘制。云原生数据湖竞争分析框架 解决方案 应用 技术 自身应用支持 生态体系建设 从终端客户视角来看,数据湖是服务业务的综合大数据解决方案。故 而落到实际实践中,还需要丰富多样的应用支持到业务侧。供应商应用层的竞争力主要体现在 自身应用的丰富度 以及 生态体系建设的完整度,自己+合作伙伴共同构成了客户服务的能力半径。行业解决方案 场景解决方案 除了存储、计算、管理等核心技术外,作为面向市场的解决方案,数 据湖还具有产品属性,需要通过一定的架构将各种组件组织起来,从 而为用户提供可用、易用的平台。具体维度包括面向 特定场景(推荐、查询、实时分析等)和 特定行业(游戏、金融等)的解决方案。存储 管理 计算 透析数据湖产品,其核心技术主要包括存储、计算和管理三个维度:管理 指对湖内数据的全生命周期管理,具体包括一键入湖、元数据管理、数据血缘、权限分级、质量控制等;计算 指对多范式计算引擎的统一管理、智能调用、性能优化、智能化、开源兼容、成本优化等;存储 指以 OSS 为中心的,稳定、安全、弹性、高性价比的存储服务。22 2022.4 iResearch I竞争要素一:技术 统一可靠存储+多元弹性计算+一站式智能管理 剖析云原生数据湖的核心技术,主要从存储、计算和管理三个维度去评估市面上的厂商。除了大数据产品通用的性能、可 用性、安全及成本外,云原生数据湖还需要关注一些特定的竞争要素,如:存储层需要做前置的扩展性、性能和成本优化,以屏蔽硬件复杂性,支持多范式计算和大数据环境;计算层需要做多计算引擎优化和智能驾驶舱来简化企业使用流程;管理层需要支持多源湖外数据兼容和湖内数据全生命周期的一站式管理。来源:艾瑞咨询研究院自主研究及绘制。云原生数据湖核心技术 计算 多元融合简单智能成本优化 管理 兼容一站式安全 存储 稳定 扩展 简单 高效 性价比 稳定:具备成熟的物理冗余、传输校验、角色权限、安全加密方案,确保存储的最终稳定性。扩展:数据湖承载的数据量每天都在持续增长,需要可以按容量灵活扩展的存储系统进行支持。简单:面对应用对持久性、可用性和延迟的多样化要求,以及物理硬件复杂性,需要从存储层就着手进行优化,减少处理硬件资源复杂性的相关难题,使各应用程序都可以轻松获取和使用所需存储。高效:面对海量数据,需要智能的冷热分层策略实现资源的均衡配置,提高服务效率、降低延迟。性价比:海量数据带来对存储资源的大量需求,需要配置以相应的成本优化方案。多元融合:可以兼容多种开源/商业计算引擎,满足企业数据处理的多种诉求,且进行了优化工作,使得多范式计算对客户侧表现为统一和简单。简单 智能:通过 AI 和 Serverless,实现自动预配和管理计算资源,智能弹性伸缩工作负载以最大化资源利用率,简化运营运维工作,让团队可以专注于编程,不必管理服务器集群。成本优化:资源自动伸缩叠加费用优化的批流引擎调用处理方案,让数据湖可以更为灵活地处理请求,在保证结果满意的前提下实现成本最优。兼容:提供足够强大、丰富、高效(no-code)的连接器和转换工具,支持更多数据源的接入,支 持更多种类的数据转换,满足各种场景诉求。一站式:具备入湖、元数据、权限、血缘、质量、探索等数据湖所需的完备功能,提供一站式服务。安全:支持数据任务看板、作业进度统计、日志审计、资源消耗统计、数据全链路展示、数字字典回溯追踪等功能,确保数据全生命周期的安全。23 2022.4 iResearch I竞争要素二:解决方案 多场景挖掘+行业贴身服务 从市场现状来看,云原生数据湖并不是一个标准化的产品,而是一套松耦合、多模块、服务化的解决方案,在具体应用中还需要根据企业具体需求,进行组件调整和架构设计。因而,客户在选型采购时,除了关注厂商的技术实力,还会关注其解决方案的成熟度。具体评估维度包括 2个方面:厂商对数据湖典型适用场景的提取能力和方法论总结,这可以帮助项 目更快速地实施;厂商对具体行业业务的理解以及相应的实施思路,这可以帮助企业切实解决其痛点。来源:艾瑞咨询研究院自主研究及绘制。云原生数据湖典型解决方案 社交 游戏 汽车 海量数据交互式查询 企业级大数据治理 机器学习与 AI 探索 场景维度 行业维度 在一些业务环节,如广告投放、用户运营、周报/月报等,需要对来自各个渠道的实时数据和历史数据进行交互式查询分析。云原生数据湖架构下,企业能够调用分布式的查询引擎,更加灵活、快速、准确的进行查询分析,支持业务决策。随着互联网的发展,企业内部积累了大量的数据,数据存储的成本愈发高昂,但数据价值却难以被全部释放。数据湖冷热分层的存储方案可以帮助企业将数据低成本的“存下来”,统一管理的架构让数据可以随时“用的到”,多种计算引擎兼容让数据可以“用的好”。在风控、推荐、预测等场景,往往会需要机器学习加以支持。然而机器学习与 AI 探索会消耗 GPU等大量的算力资源。云原生数据湖 Serverless 按需付费、自动扩容的方案降低了企业进行机器学习的 TCO;同时 schema 后 置的架构也让未知探索变得更加灵活。基于移动互联网的社交平台近年来快速发展,短视频、直播、图片、资讯等构成了其服务的内容,大 量非结构化数据的审核处理、实时分析、精准推荐为其带来挑战与机遇。云原生数据湖冷热分层存储、上下文关联分析、实时推荐的功能大幅提升了其内容创新和用户运营的效果,并降低了成本。5G、云、社会娱乐方式、出海等因素共同驱动了游戏产业
展开阅读全文