资源描述
2021-2022金融级分布式数据库研究报告前言随着数字时代的来临,数据总量呈现爆发式增长,海量数据存储与访问的安全性也面临较大挑战,传统数据库架构难以满足极速增长的业务需求。目前,金融业务架构普遍采用“大 / 小型机 + 集中式数据库”的方案,但随着数字化转型进程的进一步加快,金融机构对数据资源存储、计算和应用需求大幅提升,亟需高质量、高性能、安全稳定及低成本的数据库存储方案以满足对业务稳定性与连续性的要求。分布式数据库凭借其高可靠、高性能、低成本、平滑扩展等优势,逐步成为金融、政务等行业打造核心竞争力的重要手段之一。当前,以数据要素驱动、数据价值实现为核心的数字化转型趋势愈发显著。金融业作为数据密集型行业 , 在生产经营过程中积累了海量的数据资源,为更好地运用金融级分布式数据库技术助力金融行业数字化转型发展,腾讯云计算(北京)有限责任公司联合中国信息通信研究院云计算与大数据研究所共同编制本报告。报告分为五个章节,第一章介绍分布式数据库的概念特点、发展历程及市场格局,第二章阐述金融级分布式数据库的概念、技术特性、需求特点及发展现状,第三章详细梳理金融级分布式数据库在银行、证券、保险、政务等领域的应用现状,紧接着引出金融级分布式数据库落地应用的难点与挑战,最后对金融级分布式数据库的发展前景给出建议和展望。对本报告中的意见和不足之处,欢迎各位读者批评指正。分布式架构转型是未来大势所趋 / 07分布式数据库的发展历程 / 08分布式数据库的技术及特点 / 09分布式数据库的市场格局 / 11金融级分布式数据库概念 / 14金融级分布式数据库技术特性 / 15金融级分布式数据库需求分析 / 17金融级分布式数据库发展技术趋势 / 19金融级分布式数据库在银行领域的应用 / 21金融级分布式数据库在证券领域的应用 / 23金融级分布式数据库在保险领域的应用 / 25金融级分布式数据库在政务领域的应用 / 27分布式数据库现状概述01.02.03.金融级分布式数据库现状概述金融级分布式数据库在各行业的应用分析目 录技术标准体系建设亟待完善 / 30产品性能质量水平有待提升 / 30行业用户面临采购选型困难 / 30前期人力与时间投入成本高 / 30系统迁移改造存在诸多难点 / 31风险管理及运维能力待提升 / 31数据安全保障问题亟待解决 / 31针对研发难点,借鉴吸收业界优秀经验 / 33推动业界合作,完善技术标准规范体系 / 33通过第三方技术测试,树立品牌影响力 / 33联合金融机构,扩展金融级分布式案例 / 33关注用户体验,持续完善客户服务能力 / 34多方联动,打造金融级数据库人才队伍 / 34金融级分布式数据库落地应用的难点与挑战04.05.建议与展望分布式数据库现状概述数据库作为 IT 系统不可或缺的组件,在发展过程中逐步形成了以集中式架构事务数据库为主的格局。随着用户量和业务量的急剧增长,金融业对于数据库的数据存储和管理要求更高,需要时刻保障数据的可用性及业务的连续性等。集中式数据库在应对海量数据及复杂分析处理时,存在数据库扩展能力受限、数据存储和计算能力有限、业务瞬时高峰的处理性能不足、开发及运维过程高度依赖服务厂商、使用方缺乏自主掌控力等问题。因此,利用分布式计算和内存计算等新技术设计的分布式数据库迅速崛起,并逐步在各行各业广泛应用落地。金融监管机构出台的系列政策文件及标准,为金融信息系统分布式架构转型指明方向。 2019 年 9 月,央行发布的金融科技(FinTech)发展规划(2019-2021)中明确指出需加强分布式数据库的研发应用。做好分布式数据库金融应用的长期规划,加大研发与应用投入力度。有计划、分步骤稳妥推动分布式数据产品先行先试,形成可借鉴、能推广的典型案例和解决方案,为分布式数据库在金融领域的全面应用探明路径。2020年11月,为规范分布式数据库技术在金融领域应用,央行发布并实施分布式数据库技术金融应用规范系列标准,涵盖技术架构安全技术要求灾难恢复要求。规范的实施加速了分布式数据库在金融领域全面普及,加强了分布式数据库市场规范化、有序化管理。数据时代的到来对金融业务系统能力带来新的挑战,金融业逐步开始尝试从集中式架构向分布式系统架构转型。 不同于集中式核心系统大量采用商用软件和高端硬件,在建设分布式核心系统时,通常会采用开源软件,运行在 x86 服务器、虚拟机或容器云环境中,这在一定程度上提高了金融业对核心系统的自主掌控度,同时大大降低了其运行成本。以银行业为例,目前部分银行如中国工商银行、光大银行、中信银行等正逐步尝试从集中式架构向分布式架构转型。未来,分布式数据库将作为金融业数字化转型的重要组成部分,助力金融业实现业务创新发展。01分布式架构转型是未来大势所趋02作为数据库技术与网络技术相结合的产物,分布式数据库是指利用高速计算机网络将物理上分散的多个数据存储单元连接起来组成逻辑上统一的数据库。它最早于 20 世纪 80 年代提出,随着信息技术的发展不断演进。分布式数据库主要经历了三个发展阶段。分布式数据库的发展历程分布式数据库的发展历程20 世纪 80 年代,伴随关系数据库理论的诞生,IBM 和 Oracle 开始为各类大型企业提供商业化的数据库产品。初期的数据库基本都是单机软件,运行在专有硬件之上,如 IBM 的大型机、小型机。若业务量或者数据量增加,只能进行垂直扩展,即采用更换设备、硬件配件等方式。这套方案的优点在于机器性能强大、稳定性强,但是造价昂贵,开放性不够,与通用于 x86 服务器体系上的开发环境兼容性差,扩展能力有限。PC时代,数据库多为单机软件,利用专有硬件垂直扩展互联网时代,数据库应用系统通过分库分表等方式进行水平能力扩展2000-2020 年,随着互联网业务的发展,在线场景访问并发度呈指数级上升,海量数据读写和分析需求越来越强烈,传统单机系统在业务支撑、成本、稳定性等方面面临巨大挑战,即使采用垂直扩展模式也无法维系。互联网企业开始探索新的水平扩展方案,最常见的是通过分库分表的手段进行解决,如通过分库操作解决数据库的处理性能瓶颈,通过分表操作解决单表的查询性能问题。但是,此方案的应用系统需要进行大量改造,需要感知数据存储的位置,业务开发运维的复杂度较高。2020 年以后,随着数据类型、数据规模的高速增长,传统的终端计算场景逐渐难以应对数据存储处理的工作量与复杂度要求。云计算基于自身存算分离、资源弹性动态分配等特点,有效缓解了传统计算场景的难点,满足当前数据处理的需求,推动了分布式数据库的应用发展。如分布式数据库通过资源池化管理逐步实现了逻辑层的相互隔离与资源的自由伸缩,具备弹性扩张、HTAP(Hybrid Transaction and Analytical Process,混合事务和分析处理)事务、多租户管理、高可用性等能力,与云计算场景需求匹配。移动互联网时代,云计算等技术推动分布式数据库的发展PC 时代(1980-2000年)第一代单机数据库可垂直扩展第二代数据库通过分库分表进行水平能力扩展第三代云计算等场景推动分布式数据库的发展互联网时代(2000-2020年)移动互联网时代(2020 年至今 )分布式数据库的技术及特点分布式数据库的核心技术主要包括数据复制,数据分片,分布式事务,自动化运维、故障自愈与智能化分析与集群水平扩展能力。分布式数据库的数据分散在网络多个互联的节点,以获取更大的存储容量和更高的并发访问量。数据写入读取的负载均衡分散于多个单机中,当某个数据节点出现故障时,可以从其副本节点获取数据,避免数据的丢失,进而提升整个分布式集群的可靠性 资料来源:中国信通院:数据库发展研究报告(2021 年)。分布式数据库的核心技术03数据复制是一种实现数据库多副本之间数据同步的技术,可确保多副本架构下数据的强一致性,避免故障后导致集群数据错乱和丢失,以提高系统的可靠性。针对分布式数据库的数据复制技术,需在一致性和可用性之间做出权衡,包括强(一致)同步复制、异步复制与半同步复制。单台机器很难应对海量的数据存储或者较高的并发查询,需要把数据拆分到多个节点上,以进行存储和处理,这种技术叫做数据分片(sharding)。数据分片包含“数据打散分割”、“按片分割”两种模型。与数据分片相近的还有数据分区(Partition),即将表的内容按照某种规则分散于多个逻辑文件,每个文件包含表的部分数据。在分布式数据库中,数据分片与数据分区可以混合使用。分布式事务 ACID(Atomicity、Consistency、Isolation、Durability)分别代表原子性、一致性、隔离性与持久性。分布式事务是对跨两个或多个数据存储库执行的操作,通常在由网络连接的独立节点间进行协调,也可跨越单个服务器上的多个数据库。从单体系统到分布式系统的变化增加了数据库实现 ACID 特性的难度,降低了分布式事务的性能。通过采用诸如两阶段提交(2PC)/ 三阶段提交(3PC)、TCC 方案、可靠消息最终一致性,与最大努力通知方案等机制设计,可基本保证分布式环境下的事务 ACID 特性和性能的平衡。数据复制数据分片分布式事务分布式数据库的架构和集群规模发生了改变,需要具备运维管理的能力以保障日常运维管理工作,如自动化安装部署、自动化巡检、故障诊断与分析、故障自愈、在线 DDL、SQL 防火墙、SQL 审核、资源隔离和全链路的智能化分析等。分布式数据库水平扩展主要体现在计算节点、数据节点的水平弹性扩展,因数据节点存储的是业务系统的业务数据,在数据节点水平扩展中能做到业务数据自动重分布,从而在不影响业务情况下解决资源使用瓶颈,达到资源的合理规划利用。分布式数据库的特点包含如下四方面:自动化运维、故障自愈与智能化分析集群水平扩展能力分布式数据库的特点业务透明性分布式数据库相当于一个单机数据库,可实现分片透明、复制透明、位置透明、逻辑透明等。数据可靠性分布式数据库通过多副本实现系统可靠性与整体可用性,当某一节点中的数据不可用时,其他数据副本可继续保证业务的连续性,并可对数据就近计算。易扩展性分布式数据库通过水平扩展的方式提升整体存储容量和事务处理能力。高级SQL特性支持分布式数据库从早期的电商、游戏等逐渐应用于金融、政务等领域,从单纯数据存取转变为需要支持处理一部分复杂业务的逻辑。分布式数据库的特点分布式数据库的市场格局04据 Garter 显示,2018 年全球数据库管理系统市场规模达 461 亿美元,预计于 2024 年整体市场规模达千亿美元,伴随着分布式计算架构的兴起,分布式数据库或成为数据库市场新的增量。本节将从产品和厂商两个维度着手,对分布式数据库的市场格局进行分析。根据应用场景,数据库大致可分为分析型数据库、事务型数据库、时序数据库、图数据库四大类。当前四类数据库均处于快速向分布式架构转型的进程中。分布式数据库产品发展情况分析型数据库主要用于通过某种算法,从海量数据中提取并转化为统计性的关键信息和指标。目前已经广泛应用于金融资产盘点、电信流量分析、互联网用户画像等业务系统中。事务型数据库能够保证事务操作的正确性,主要用于金融行业的账户和计费等核心系统。随着中间件架构和新型一致性协议的逐渐成熟,各互联网公司已成功使用分布式事务型数据库支撑自身大规模的事务操作,金融等行业正逐步尝试相关技术。分布式分析型数据库逐步成为成熟商用产品分布式事务型数据库正在逐渐被市场认可时序数据库能够支持处理大并发、高持续性、携带时间戳的数据,广泛应用于电力和工业设备监测领域。随着 5G 时代来临,带动了物联网领域的快速发展,要求现有时序数据库必须完成分布式化,以满足未来物联网领域数据规模的爆炸式增长。分布式时序数据库为未来物联网发展打下基础关联分析、知识推理、搜索推荐等应用创新正不断提升社交、电商、金融等行业的信息化能力。而图数据库技术能够有效提升关联型数据的价值挖掘能力,逐渐成为各大企业关注的热点,从而积极推动自身分布式图数据库的产品研发。分布式图数据库正成为国内企业研发热点通过对已有分布式数据库厂商进行梳理,可将其分为四大阵营,分别是互联网厂商、传统数据库公司、综合型 IT 企业和初创型公司。分布式数据库厂商分布情况以腾讯、阿里云、蚂蚁金服等为代表的互联网厂商,经历了用户和业务量的高速扩张阶段(例如双十一、618 购物季等阶段,微信红包、微信支付等场景),较早面临了高性能、高扩展、高可靠和海量数据存储带来的技术问题。当传统的单机方案已无法支撑业务日益增长的需求,各厂商陆续探索分布式数据库技术方向,来满足其大规模用户和高性能场景的需求。随着各厂商加大分布式数据库的自研投入,提升技术成熟度,不断拓展应用领域,推出了如 TDSQL、PolarDB、OceanBase 等产品。以达梦、南大通用、人大金仓等为代表的传统数据库公司,凭借多年数据库技术资源积淀,一方面持续推进自身原有集中式数据库技术及产品升级改造,另一方面尝试推出相对应的分布式数据库版本,如武汉达梦DMTDD等,该类产品既具备高扩展性和区域跨度下的容灾能力,也能提供数据库的数据一致性、分布式事务、复杂 SQL 等核心能力。互联网厂商经历了分布式数据库“自用”到“输出”的发展阶段传统数据库公司从“集中式”向“分布式”产品拓展以华为、中兴等为代表的综合型 IT 服务企业,基于实际业务场景需求,在原有硬件设备、信息管理系统等产品体系基础上,迅速推出了分布式数据库产品,例如华为GaussDB和中兴GoldenDB,能在协同原有主营软硬件产品的基础上,更好地为客户提供一揽子解决方案。综合型IT企业开始涉足分布式数据库产品以PingCAP、热璞等为代表的专注于数据库领域的初创型公司,其成立时间或推出数据库产品时间普遍在2011 年之后,以聚焦某一细分领域作为发展策略。例如 PingCAP TiDB 作为高效稳定的开源分布式数据库,应用于国内外的银行、证券、保险等行业,并在约 20 多种不同的金融业务场景中支撑用户的关键计算;热璞HotDB 定位于OLTP 业务场景,在事务一致性和透明性、全局唯一约束、分布式锁、数据分片设计智能等方面夯实技术基础与实力。初创型公司以聚焦某一数据库细分领域作为发展策略金融级分布式数据库现状概述大数据、移动互联网时代的海量数据呈爆发式增长,业务处理逻辑日趋复杂,虚拟货币、增值服务、在线支付等金融业态兴起,带来数据量、交易量的大幅度提高,并伴随着数十倍于正常负载的交易高峰压力与交易复杂度增加等挑战。而传统数据库在可扩展性方面的弊端日益凸显,因此金融级分布式数据库凭借数据强一致、高可靠和稳定性、快速扩展能力、高性价比逐步加速应用落地,引领数据库行业向着更高要求的金融级分布式数据库演进。金融行业普遍对数据库的安全性、可靠性、稳定性有着全行业最为严苛的要求,因此,满足金融行业需求的金融级数据库产品几乎成为所有行业中的标杆。报告认为金融级分布式数据库是能够满足金融级要求的高可用、高性能、低成本、线性水平扩展、企业级安全、便捷性运维的分布式数据库。需要注意的是金融级分布式数据库不仅仅只限定应用于金融行业,而是可应用于具备金融级要求的行业的某些场景中,例如政务、交通、教育等领域。01金融级分布式数据库概念02参照中国人民银行下发的分布式数据库技术金融应用规范 技术架构(JR/T 0203-2020)、分布式数据库技术金融应用规范 安全技术要求(JR/T 0204-2020)和分布式数据库技术金融应用规范 灾难恢复(JR/T 0205-2020),金融级分布式数据库的主要特征如下:金融级分布式数据库技术特性可支持本地部署和云部署方式,满足金融行业的监管要求。金融级意味着数据库需要优先考虑数据 CAP CAP:一致性(Consistency)、可用性(Availability)、分区容错性(Partition tolerance) 的 C(一致性),以及事务 ACID 的 C(一致性)。即存储于不同节点的数据副本之间,数据需要完全一致;交叉于多个节点的事务,事务需要实现一致性。针对传统数据库的硬件性能瓶颈,分布式数据库通过集群和软件方式,形成强大的性能、容量的可扩展性。应支持按照各自的负载压力进行计算节点、数据存储节点和管理节点的在线扩容能力,或通过扩展单台服务器的硬件资源,以满足金融业务的爆发性负载要求。部署模式具备灵活性分布式集群下的数据强一致性分布式集群下容量可扩展性在数据强一致的前提下,金融级分布式数据库需要超高的可用性及可控的恢复时间,例如实现“RTO(Recovery Time Objective,恢复时间目标)在 30 秒内、RPO(Recovery Point Objective,数据恢复点目标)为 0”,即故障秒级自动故障切换、数据零丢失的金融级高可用方案。应用于金融领域的分布式事务数据库应在基础支撑保障、用户管理、访问控制、数据安全性等方面,符合国家密码管理部门以及行业主管部门对数据安全性的要求。分布式集群的高可用性保障数据安全性运维管理的统一性多平台的适配性运维管理应具备自动化安装部署、监控告警、性能容量、系统配置、升级维护、数据备份恢复等统一管理能力,提供接口 API,供其他平台集成和调用。金融业务生命周期较长,因此相关产品需要针对不同时期、不同平台的硬件、操作系统实现兼容。03虽然分布式数据库起源于互联网行业,但是金融级业务数据的价值较高,对数据库的高可用、强一致、低时延、可扩展性、高容灾性、供应链安全性等要求更为严苛。这也是金融级分布式数据库与普通分布式数据库的主要不同点。金融级分布式数据库需求分析金融级分布式数据库优先考虑数据一致性服务不可用可能带来较大社会影响安全性要求更高,安全监管要求更高业务层承载绝大部分业务逻辑受供应链影响风险高优先考虑性能、容量扩展可以通过虚拟补偿弥补用户情绪安全性要求适中,监管要求适中业务层和数据库共同承载业务逻辑受供应链影响风险适中普通分布式数据库金融级分布式数据库通常用于存储各行业的核心数据,其任意一笔数据错乱、丢失将带来严重影响。因此即使在某些软件故障、硬件异常的情况下,数据库都应保证数据的强一致性。金融级分布式数据库服务于涉及国计民生的重要业务系统,其对运行连续性要求异常严格。此要求来自于金融业,也来自于政务、大型企业本身需求、监管机构要求和用户舆论压力等。数据库作为业务系统的基础,其通用的可用性要求在 99.999% 以上。为确保在异常情况下数据不丢失、不错乱,即使极端异常情况仍需确保数据的留存,金融级分布式数据库的可靠性通常要求在 99.999999% 以上。数据强一致性的需求业务连续性和数据可靠性的需求在金融级场景中,存在短时间用户规模增大或业务迭代需求强劲的情况,金融级数据库要求适配上述场景,即数据库具有快速扩展的能力,同时业务系统要具备快速匹配的敏捷迭代能力。而在传统建设模型中,快速扩展、敏捷迭代几乎是不可行的。因此分布式、微服务、标准开发框架等开始在金融级数据库中得到普及与推广。快速扩展、敏捷迭代的需求金融级分布式数据库与普通分布式数据库对比金融级业务种类繁多,随着时间增长数据也会快速增加,带来支撑性数据库变得越来越庞大。这意味着如果每个系统都按照传统商用数据库建设标准来建设,会带来极高的成本。因此云计算环境的金融级数据库的集约模式建设方案正逐步成为主流趋势。受国际政治格局影响,采购国外高端服务器(芯片)等存在诸多不确定性。一旦出现国外服务器(芯片)断供,可能导致严重的后果。而短期内,国内对于芯片的供应可能仅在 28nm 或者更低的水平,单一服务器的算力不足会对金融业务建设系统带来诸多问题。低成本与云计算的需求高端服务器等供应链风险04当前金融级分布式数据库主要呈现以下发展方向:金融级分布式数据库发展技术趋势分布式数据库的计算层和基于云底座,充分利用云平台的弹性伸缩、高效安全的运维管理能力,即开即用。同时支持多租户,每个实例的计算资源、存储资源严格隔离。以帮助金融业务实现有效的资源整合与调度,从而提高整体的资源利用率,起到降本增效的作用。分布式数据库拥有大量节点,如果充分利用这些节点的性能,会大大提升整体分布式数据库的性能,特别是面向复杂业务处理的场景。可以同时在一份数据上进行 TP 与 AP 的业务,大大减少数据集成与整合的时间。基于云计算现有的基础设施,分布式存储、SDN 网络、弹性计算等能力,实现数据库的计算存储分离,仅日志落盘。实现数据并行复制、存储多副本协同、无单点瓶颈;采用智能存储协议,将细粒度 / 高并行高性能日志回放、算子下推等 IO 密集型计算卸载到存储侧执行。随着金融业务发展,客户往往会设置多个不同地域的不同可用区,将数据库分布在跨可用区的不同位置。当某个可用区发生断电、断网甚至极端灾害情况下等大范围故障时,其他可用区、其他地域仍然可以继续提供服务。无论是用户,还是第三方供应商,亦或是运维管理员,都应做好数据安全防护。金融业务可能会根据业务属性全球部署,还需满足相关地国家和地域的安全合规的要求。即通过便捷和自动化的 AI 技术,降低运维成本和技术门槛。通过智能化的性能分析,实现实例最佳性能参数推荐、索引优化建议、热点表分析数据趋势、历史轨迹与预测、死锁分析等。数据库云化服务化HTAP成为企业业务场景的关键选择计算存储分离成为主流多地多中心多活部署数据安全处理要求高数据自治管理与智能化性能分析金融级分布式数据库在各行业的应用分析金融级分布式数据库白皮书(2021版)金融、政务等行业在数据库产品及服务的采购份额上领先其他行业,采购量占据了大部分市场份额。此外,因 Oracle 等集中式数据库架构无法满足机构开展业务的需求,金融和政务等客户正在尝试数据库架构的转型替换,在保证功能性能的同时,逐步向分布式数据库迁移。针对目前金融、政务行业对金融级分布式数据库的需求和应用情况,报告选取了银行、证券、保险和政务四大行业进行应用分析。银行业务处理系统包括中央银行与商业银行的业务处理系统。中央银行业务处理系统主要为商业银行和其他非银行金融机构提供可靠、高效的支付服务,通过建立自动化的支付服务体系,实现准确、及时、安全的资金转移。商业银行业务处理系统主要实现商业银行存款、贷款、结算、外汇等业务。目前,我国商业银行均建立了以大集中为基础、以客户为中心的面向交易的综合业务处理系统,即将银行的全部账务数据(包括对公、对私的资产和负债数据及银行卡数据等)集中在总行数据中心中统一管理、协调。因此规模较大的银行,其业务系统通常具有以下特点:一是业务数据规模大,业务系统多、模块多,核心交易数据变更频繁,交易热点集中;二是多渠道接入,并发量大,除总行统一系统外,还包括网上银行、分行、渠道、第三方监管、第三方支付等若干系统接入;三是数据重要性极高,安全等级要求高;四是业务可用性、可靠性要求高、建设成本高。银行领域对分布式数据库的应用需求体现在以下四方面:银行领域业务系统特点银行领域分布式数据库的应用需求在跨业务的融合中,往往涉及多种类型数据,因此亟需实现对多模数据的统一管理,进而实现不同类型的数据统一融合管理,提升系统效率。针对客户的实时需求,银行数据系统需要满足高并发业务操作需求,实现海量数据超高性能读写及实时访问查询能力。 目前商业银行系统内数据量急剧增大,系统需要弹性扩容以应对 PB 级别以上的数据,从而使所有数据保持在线。要求数据库可容纳多类型的海量数据数据库可处理高并发事务数据系统的扩容及弹性要求高01金融级分布式数据库在银行领域的应用分布式架构具有系统部署性价比高的特点,随着应用增多,更需要分布式架构实现数据分区管理,实现业务有效隔离。同时,保持系统的弹性、兼容性,大大简化运维,节省开发成本。 数据库开发运维成本在可控范围内平安银行作为全国性股份制商业银行之一,持续坚持“科技引领、零售突破、对公做精”策略方针,着力打造“数字银行、生态银行、平台银行”三张名片,近年来持续加大金融科技领域的投入。银行领域分布式数据库的应用案例分析平安银行投入生产的各相关系统以传统集中式数据库为主,分布式数据库为辅,随着业务快速发展、数据量和系统负载爆发式增长,IT 核心系统单纯靠垂直扩展已无法满足时效和性能要求。而分布式数据库凭借其弹性扩容、高可用、高性能等优势已广泛应用于各种联机事务处理(OLTP)及混合(OLTP/OLAP)的业务场景中,采用分布式架构、横向扩展、数据库上云成为平安银行数据库的转型发展方向。平安银行对金融级分布式数据库当前的应用主要聚焦在信用卡新核心项目上,包括需要将其从 IBM Z 系列大型机架构迁移至分布式系统。在平安银行采用的分布式架构下,将传统银行的批量任务按业务类型拆分为多个小任务并行进行跑批计算,批量任务总耗大大缩短。具有如下特点:实现对于一主多从的分布式一致性强同步、故障切换选主、重建复制关系等技术,高可用、一致性技术成熟;通过自动化运营和智能运维平台集中管理,实现数据库的资源管理、安装部署、参数设置、缩容扩容、版本升级、监控告警、安全审计、运维调优、性能监控、备份还原等复杂功能。平安银行信用卡 A+ 新核心系统基于 TDSQL 的投产应用,实现了金融机构核心业务系统由大型机集中式架构迁移至 PC 服务器分布式架构系统的成功落地。A+ 新核心系统技术体系支持敏捷开发、灵活创新和稳定运行,预计未来 5 年可节约 14.5 亿元的成本,为金融科技与数字化转型赋能零售业务发展提供典型示范。项目需求解决方案项目意义证券业务系统主要是以证券公司为主体的信息化系统,包括日常业务处理、帐务核算、整个公司的经营管理、业务创新和决策支持等。证券业务系统通常包含如下特点:一是行情类系统读写量极大,但整体数据量稳定在若干 GB 规模,通常采用分布式内存数据库。交易系统对稳定性和可用性要求高,若在交易时间段停机或崩溃,极易出现大量激烈投诉和负面舆论。二是交易系统、结算系统等容易受到外部影响而出现业务量暴涨情况,需要快速扩容。三是业务系统复杂度较高,往往存在不同时期、不同环境的不同类系统,系统改造难度较大。四是对运维自动化、智能化要求高。证券行业由于交易时段集中、资金规模巨大等特点,对 IT 系统的可用性和响应率的要求更高、容忍度更低。同时,交易时段集中所带来的海量交易数据的集中处理压力,要求券商的 IT 系统运维的自动化与智能化水平较高。证券领域业务系统特点02金融级分布式数据库在证券领域的应用证券领域对于分布式数据库的需求体现在以下四方面:证券领域分布式数据库的应用需求证券公司内部的经纪业务、资管业务、投行业务和自营业务承载于不同系统,在各个业务中存在多种角色,且各个角色在各系统中每时每刻产生多种结构的数据,这些数据数量庞大、类型繁多、产生速度快,可能会导致各个系统不一致。因此亟需构建标准统一、数据共享、信息汇总、协调统一的大数据分析平台,用以支撑上层应用。当前,证券业务各流程均在时刻产生海量的数据,如用户的购物行为,媒体资讯浏览历史,上市公司的投融资、并购活动等信息。各业务形态也在整体市场环境下受到影响,如政策法规、国内外金融形势、重大事件等。因此证券公司的数据库规划需要支撑百 TB 级海量数据的存储、查询与分析。 传统数据库系统缺乏灵活有效的数据挖掘与分析工具,不能有效应用于证券行业客户分析、经营状况分析、咨询服务、风险防范等方面。数据挖掘技术需要集成数据库技术、统计学、机器学习、模型识别、审计网络等技术和工具。通过分布式存储、分布式并行处理技术、流处理技术、大规模的数据分析和可视化平台等技术的应用,数据挖掘有待进一步创新。 可支撑对接大数据分析平台可支持海量数据存储与多线程业务控制可提供挖掘类应用目前头部证券公司的大数据平台建设如火如荼,为适应未来证券公司的大数据平台规划,证券公司应用的数据库必须具备不断扩容的能力。数据库需具备强可扩展性富途证券是一家为全球投资者提供港股和美股交易服务的互联网券商,专注于为用户提供覆盖多个市场的全数字化在线券商服务,通过自主研发的数字化金融服务平台富途牛牛,为投资者提供港股、美股、A股通的股票交易和清算、融资融券、市场数据、财富管理,以及资讯、社交等服务。证券领域分布式数据库的应用案例分析证券类业务最重要的是用户数据,需要具有超高性能、高扩展性、高可用性和高一致性的数据库支持百万级写、千万级读的在线业务场景。保存 7 年以上的账单流水,需要数据库支持存储海量数据,并支持高效灵活的查询。富途注重业务连续性,需要数据库系统实现金融级的可用率。富途搭建了分布式的 IT 架构,并基于 x86 服务器部署腾讯云 TDSQL,以此作为核心系统的数据库方案。2017 年迁移到分布式架构后,富途数据库服务系统解决了数据一致性问题,在运维层面实现了自动化管理,如扩容、故障排查、优化诊断等,极大提高了运维效率。后台支撑系统完成优化改造后,大大提升业务开发效率、产品稳定性,助力富途不断丰富产品应用场景、开拓业务市场。项目需求解决方案富途选用的分布式架构支撑其核心系统单日查询峰值超过 50 亿次,单日每分钟读请求峰值超千万次,为业务体验提供坚实支撑。分布式架构提供自动故障切换方案,以及异构迁移和多源同步方案,保障企业数据库服务在灾难情况下自动化多云迁移和同步切换,实现跨地区自动容灾。在交易量暴涨等流量突增情况下,节点故障对业务的影响越来越敏感,该分布式架构的一致性切换可保障在数次集群节点故障中均能平滑完成切换,对业务的影响降到最低,保障业务连续性。项目意义保险业务系统主要是指以保险公司为主体的业务系统,保险公司的业务分为寿险、财险、健康险、再保险等。业务系统大致可以分为投保系统、核保系统、出单系统、理赔系统、核赔系统、客户服务系统与代理人管理系统,利差管理等其他支撑系统。业务系统具有如下特点:一是业务系统相对集中,但是业务逻辑中心分散,按省或按区域具有差异性;除基础支撑系统外,其他系统适合 SET(单元化)的分布式数据库模型。二是互联网渠道保险占比逐年上升,小额且频次极大,与传统保险渠道业务逻辑有极大不同,互联网保险渠道的系统和数据库负载呈现爆发式增长。三是活跃数据存储周期长,如寿险、健康险通常是按若干年为周期计算,对于数据一致性、数据可靠性、历史数据校验的需求极高。四是渠道系统、周边支持系统与核心系统数据交互较多,保险公司往往存在复杂的数据同步逻辑。保险领域业务系统特点03金融级分布式数据库在保险领域的应用保险领域现有数据应用系统因缺乏统一规划、技术落后,造成数据信息冗余、数据标准不一致、数据信息流通不顺畅、数据提供不及时、数据服务不全面、核心系统负载过重的现状,业务核心系统以及报表统计系统面临严峻的性能和功能挑战。从数据建设能力看,在数据架构组织管理、数据获取和数据应用方面与业界相比还处于起步阶段。保险领域对于分布式数据库的需求体现在以下三方面:保险领域分布式数据库的应用需求保险公司如寿险、车险、财产险,业务量较大,随着业务规模的扩大,需要分布式数据库为其快速发展提供支撑。保险对于室外场景数据的要求高,需要分布式数据库具备高可用性、快速处理的响应。保险公司按业务划分,业务分为不同省份,每个业务均有不同的集群,带来较大的成本支出,故需要业务既能共享,又能实现隔离。同时,保险行业重视安全性,需要分布式数据库具备简便的运维能力。扩展性要求高数据实时性需求强需要满足多业务隔离某保险公司是国内头部保险集团,该集团业务增长迅速,之前传统数据库无法快速扩容以适应其高速的业务发展。面临互联网、数字化的技术转型,同时面临集中式数据库的应用迁移,OLTP 和 OLAP 混合负载场景处理等多场景业务需求。保险领域分布式数据库的应用案例分析该保险公司对数据可靠性及安全要求高,交易数据、客户资料等不容有失。该保险业务系统按照险种分省部署,每个险种在每个省份会有两个单独的数据库实例。每个实例要求有全量的业务数据,并能实现快速灾难切换和 RTO 为 0。业务系统之间的数据交互较多,因此数据流转和数据汇聚尤为重要。该保险公司存在部分业务是典型的读多写少场景,多于业务高峰大量的读取需求需要数据库能实现只读业务的横向扩展能力。该保险公司选用的分布式数据库跨域双向实时复制关键技术,助力其构建多中心多活架构体系,实现数据库层面的异地灾备高可用架构,每个中心均部署主节点,每个主节点支持读写,主节点之间支持双向数据同步,支持中心扩展双向复制,实现数据实时同步,在不同中心之间达到业务分钟级无缝接管,确保任意节点故障时不会影响其服务的连续性。分布式数据库灵活全面的异构数据迁移能力支持集中式数据库的平滑迁移,满足不同业务系统间数据流转以及数据汇聚的需求;具备HTAP 混合负载处理能力,在支持高并发 OLTP 业务处理的同时支持海量数据的 OLAP 多维统计分析;提供读写分离功能,支持多副本,能灵活扩展只读平面能力,只读平面能很好地支撑只读业务的吞吐量,对于客户读多写少的场景灵活地扩容;提供冷热分离多级存储能力,支持将冷热数据使用不同的存储介质存储,可节省冷数据的存储成本,同时后台定时任务能根据用户配置的冷热数据规则,自动进行数据的迁移,保持对业务透明,节省成本且提供历史数据的便捷访问。项目需求解决方案该保险公司顺利将某分布式数据库应用到核心业务系统中,系统灾难切换多次演练表现优秀。业务系统处理效率有了明显提升,核保案件的平均处理时效提升 23 倍,核保响应时间小于 100ms,核保案件的单位处理成本大幅降低,节省 50% 以上的核保人力投入。其使用的企业私有云部署模式,降低了技术难度和运维复杂性,同时分布式数据库弹性高效高可靠的架构也保障了该保险集团各项业务高速发展的数据库使用需求。项目意义第 15 届国际数字政府评估排名报告 来源:早稻田大学数字政府研究中心 显示,中国处于全球第 37 位。数字政府能力的提升,需依赖强大的现代化治理基础设施,而数据库作为支撑数据存储和计算的核心组件,是现代化治理基础设施的重要组成部分。当前我国在提升社会治理的数字化治理水平过程中,主要呈现两大特点:一是个体、企业和社会等被治理对象数量庞大、日趋复杂,而当前我国现代化治理基础设施仍以传统关系型数据库为主,效率较低,亟需变革更新;二是现代化治理要求各层、各机构政府人员深度应用信息科技工具,而当前信息科技工具应用普遍需要较高门槛,政务行业科技能力储备情况比普遍较低,导致数据基础设施建设完成后,应用效果不佳,难以达到预期效果。政务领域业务系统特点04金融级分布式数据库在政务领域的应用随着数字政府民生工程与新一代信息技术的深度融合,政府领域的应用系统直接关乎民意,当前政务领域对于分布式数据库的需求体现在以下三方面: 政务领域分布式数据库的应用需求在信息技术应用创新时代背景下,需要考虑在信创平台的整体适配,包括信创服务器、操作系统、中间件等多个环节,其中数据库软件实现自主至关重要的。随着政务数字化的深入,“互联网 + 服务”存在大量海量数据场景,例如疫情健康码、政务办事小程序等,后端数据需要支持横向伸缩,以满足海量数据场景需求。不同业务场景下对于数据库能力的需求也不同,能够同时支持 OLAP 和 OLTP 是政务领域进行数字化转型的基础。信创替代需求满足海量数据场景需求覆盖OLAP和OLTP需求数字广东网络建设有限公司是为了响应广东省数字政府改革建设工作,由腾讯、联通、电信、移动投资设立数字广东公司提出基础平台、应用平台和用户“3+3+3”的模式,在基础平台方面依靠政务云、政务大数据和公共支撑平台的支撑,自主开发了粤省事、粤政易、粤商通三个产品。政务领域分布式数据库的应用案例分析为落实“以人民为中心”的发展理念,实现让群众、企业动动手指就能把各项事情办好,2017年广东省政府在全国率先启动了“数字政府”改革。数字广东公司对云计算、数字化敏捷能力已有明确的要求,需要一个能够支持海量数据场景下的高性能、高扩展、高可用等关键特征的数据库,从而引伸出采用适应云计算时代的分布式数据库的需求;重点关注分布式数据库在数据一致性、可靠性、性能和稳定性、生态兼容性、运营成本、运维管理等方面的表现,以及是否安全可控、是否具备企业级的数据安全保障性、是否具备海量存储与实时分析能力。数字广东的政务云平台,其上运行五十多个省直单位的数据库,规模已超过两万多核,内存超过 13 万
展开阅读全文