微众银行数据新基建白皮书.pdf

返回 相关 举报
微众银行数据新基建白皮书.pdf_第1页
第1页 / 共41页
微众银行数据新基建白皮书.pdf_第2页
第2页 / 共41页
微众银行数据新基建白皮书.pdf_第3页
第3页 / 共41页
微众银行数据新基建白皮书.pdf_第4页
第4页 / 共41页
微众银行数据新基建白皮书.pdf_第5页
第5页 / 共41页
亲,该文档总共41页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
当下,移动互联网、云计算、物联网、大规模存储、高性能计算和芯片等信息技术蓬勃发展,世界进 入数据爆炸的“大数据时代”。与传统的资本、土地、劳动、技术等一样,数据已是重要生产要素之一, 与算力、算法组合,作为一种新型社会生产力,在人们的生产生活中发挥显著作用。 但是,与历经千百年的传统生产要素不同,数据深入塑造人们生产生活的历史仅有二十余年。正如一 个青春期的少年,它让我们“又爱又恨”,爱它方便和提升了我们的生活,恨它有时候因泄露、滥用、 盗用等问题造成困扰。这些“成长的烦恼”阻碍数据发挥最大的价值,羁绊其成为可信赖、可持续的 生产力。 生产力的发挥有赖于基础设施的进步,数据要素同样如此,需要合适的基础设施以克服这些问题,解 放生产力。以人工智能、区块链、云计算、大数据等为代表的数字时代的最前沿科技,代表着先进生 产力的方向,有望为数据要素构筑起新型的数字化基础设施。 作为国内首家互联网银行,我们在多年生产经营和服务客户的实践中深刻认识到,可靠的数据应用、 规范的数据治理具有十分重要的意义。我们融合在金融科技领域积淀下来的能力和经验,为自己、为 客户、也为社会提出一套完整有效的数据应用和治理解决方案,希望有助于全产业和社会深入认识和 充分释放数据生产力。 本白皮书着眼于此,将展现我们的“数据新基建”构想、方案和实践。白皮书首先从生产要素释放生 产力的基本条件出发,深入探讨束缚数据生产力的问题现象和成因。为了解决这些问题,白皮书将数 据新基建的关键特性归纳为 3 个核心要求:安全存储、可信传输、协同生产。以此要求为指引,以数 字科技为依托,白皮书随后介绍我们的“数据新基建”具体方案及应用案例。这些方案和应用来源于 我们的多年实践,希望能为业界带来启发意义和引导价值。 我们期冀,透过这份“数据新基建”方案,激发高效稳定的数据生产力,成为引领经济发展的核心动能; 搭建可靠安全的数据连接网,成为奠定生活美好的宝贵基石;体现与时俱进的数据治理观,成为推动 社会前进的重要指南。我们谨以此白皮书为数据新基建的发展提供一定的思路和方法,望能携手各界 伙伴,共同为我国数字经济的腾飞贡献力量。 序言 目录 一 . 生产要素释放生产力的基本条件 二 . 数据要素的特性与生产力释放难点 三 . 释放数据要素的生产力呼唤 “数据新基建” 四 .“数据新基建”解决方案 结语和展望 4.1 新基础设施的关键底层技术 4.2 面向三大核心要求的解决方案 4.2.1 安全存储 4.2.2 可信传输 4.2.3 协同生产 4.3 现有方案和实践案例 4.3.1 安全存储:开源的一站式金融级数据管理平台 4.3.2 可信传输:跨政务机构个人数据可信流通 4.3.3 可信传输:粤澳两地健康码跨境互认 4.3.4 可信传输:医疗处方线上流转 4.3.5 协同生产:绿色出行普惠平台激励碳减排 4.3.6 协同生产:联合营销中的隐私保护 01 05 08 11 32 11 14 24 14 16 19 24 25 27 29 30 31 1 生产要素释放生产力的基本条件 历经农业经济、工业经济时代,人类社会而今迈 入了数字经济时代。每一个大时代的跨越都以生 产力的变革为标志,早期以农民自身体力、牲畜 和简单工具为主,工业时代依靠石油电力和大机 器来生产,数字经济时代则在计算机和互联网的 推动下迅猛发展。生产力蕴含于生产要素(factors of production)之中。生产要素是指能够产出 (output)产品和服务的经济资源投入(input) 1 , 在人类历史的长河里,主要的生产要素同样经历 了变革。 农业经济时代,主要的生产要素是土地和劳动。 农民耕作在土地之上,土地的数量和质量很大程 度上决定了农业产出的规模。除了农业,人们还 1定义来自于大英百科全书 利用各种各样金属工具来完成酿酒、制陶、水利、 盖房等工作,酒品、器皿、工程、房屋等产出就 凝结了人们的劳动。 工业革命之后,除了土地和劳动,资本和技术成 为主要生产要素,在经济发展过程中起到非常重 要的作用。蒸汽机、石油、电力、铁路、通讯、 化工等新兴技术的出现,让人类社会生产力达到 一个空前的高度。技术驱动下,生产从家庭小作 坊走向工厂,需要规模化的投资,现代意义的工 商企业开始发展,全国化、全球化的市场产生, 不仅促成了大量设备和固定投资的形成,也带动 了社会对金融资本的旺盛需求。以金融、设备、 厂房等形式积淀的资本,成为推动经济发展的重 2 要动力。资本和技术对经济的拉动作用不断超过劳动。以 1760-1900 年工业时代的英国为例(图 1 所 示),将单位劳动贡献的经济产出(Y/L,其中 L 代表劳动投入,Y 代表经济产出)拆解,代表技术贡 献的全要素生产率(total factor productivity, TFP)对 Y/L 拉动巨大。此外,资本密度(单位劳动拥 有资本,K/L)不断增加,对 Y/L 的拉动也大幅提高 1 。 进入信息经济时代,数据成为新的重要生产要素。互联网集中起分散在线下的各类数据信息,处理优 化之后将信息呈现和传递给需求者,产生形形色色的应用。数据越丰富,从中挖掘和创造的价值就越大。 例如,金融机构可以通过丰富的个人信息、购物信息、银行账户信息、社交信息等等更好地刻画一个 人的信用肖像,增加风控和营销能力。据估计,目前每年产生的数据总量达 40ZB,若将这些数据储 存在 DVD 里,将所有 DVD 叠加起来可绕地球 50 圈 2 ,其中蕴含的宝藏价值不可想象。 1Allen, Robert C. 2009. “Engels pause: Technical Change, Capital Accumulation, and Inequality in the British Industrial Revolution.” Explorations in Economic History 46(4): 41835. 2IDC. Data Age 2025. 图 1:资本和技术对工业革命时代英国的经济增长拉动巨大 数据来源:Allen (2009) 3 要素的产权可清晰界定 。新制度经济学揭示了,当产权清晰时,经济活动才是有效率的,对市 场主体才能产生合适的激励 1 。这里的产权是“权利束”(a bundle of rights) 的广义概念,即产 权实际上包含资产的所有权、使用权、收益权、抵押权、处置权等不同性质的一组权利,权利 束的不同成分可能归属于不同的主体。例如,同一土地的使用权和所有权可以分离,是独立的 权利。产权清晰是指要素的单个权利或整个权利束的拥有者清楚明晰,不存在归属模糊、多方 同时拥有一个权利的情况。以技术要素为例,技术有可能通过申请专利予以保护,确定发明者 对技术的产权,保护发明者的切身利益。 要素的价值可评估 。生产要素在多方之间交换流通,才能在更大范围内发挥自身价值。一个基 本条件是要素价值应可靠、可信,参与各方有能力评估要素的价值,否则欺诈、逆向选择等现 象会导致很高的交易成本。要素使用方也没办法评估投入产出比。传统生产要素通常有成熟的 价值评估方法,例如股票的价值可以由财务报表反映,劳动力的价值可以由过往简历反映或可 信第三方推荐,技术专利的价值可结合技术创新程度、专利保护期限、市场需求等因素来评估。 要素的价值可流通,具有一定通用性 。如果要素不可流通,只能局限在单一组织、单一场景和 单一用途,在一方手中的要素很难被另一方所应用,就出现了一个个割裂的 “孤岛”,失去了 要素的交换价值。当要素在一定范围内具有通用性,并且以合适的方式能够流通时,生产要素 就可以在不同组织、场景、产业复用,使其生命周期内总价值(life time value)最大化。以技 术要素为例,专利能够在不同企业间以转让或许可的形式流通,满足不同企业的需求。 要素的价值可存储,在一定时期内具有稳定性 。除了一类特殊的生产与消费同时发生的要素 电力,其他生产要素的生产和消费之间往往有一定时间间隔,如企业需要一段时间才能消耗所 融到的资金,工业资本品的使用寿命很长。如果要素不能可靠地存储价值,不具有稳定性,那 么它就很难流通交换以产生更多价值。 1Coase, Ronald H. 1988. The Firm, the Market, and the Law. ed. 陈郁 . Chicago, IL: University of Chicago Press. 不论是土地、劳动、资本、技术还是最新的数据,生产要素要成为真正的生产力,在社会大生产范围 内发挥价值,应当满足一定条件,否则只是局限在单一组织、单一个体内,不能在市场经济环境下产 生应有的市场价值。这些条件可概括如下: 4 产权可界定 价值可评估 价值可流通 价值可存储 土地 地契清晰载明土地产 权 根据面积、区位、土 地性质、土壤成分来 确定价值 土地有招拍挂市场 土地的价值稳定性高 劳动 劳动力的产权属于劳 动者本人 根据过往职业和教育 履历可评估劳动力价 值 人才可以在市场上自 由流动 人才的技能在若干年 内保持稳定 资本 证券的产权归属明晰 证券价值可通过公司 业绩来评估 证券可流通 证券价值可存续,尽 管有波动 技术 可申请注册专利清晰 界定和保护产权 专利价值可根据创新 程度、权利期限、市 场需求等评估 专利能许可转让,满 足不同企业的需求 专利作为无形资产, 一定时期内其价值稳 定 表 1:传统生产要素释放生产力的 4 个基本条件 产权可界定、价值可评估、价值可流通、价值可存储,是生产要素能在市场经济中流通、交换、应用, 以释放生产力、最大化自身价值的 4 个基本条件。土地、劳动、资本、技术要素都在不同程度上满足 这四个条件(表 1),因此成为了可靠的生产力。 5 与传统生产要素相比,数据要素却在释放生产力的每个条件上都有一定困难,原因来自于它有着与传 统生产要素差异很大的若干个特性。 数据具有易复制性(replicable) ,复制的边际成本极低。数据信息的生产和整理成本较高, 通常需要做大量的搜集、清洗、分类、标注等工作,但一旦整理完毕,入库形成可用的数据集、 标准的数据文件后,生产复制额外副本的成本可忽略不计。所以,数据具有高固定成本、低边 际成本的特性。 数据具有非排他性(non-exclusive)和非竞争性(non-competitive) ,即一份数据可以同 时供无数人使用,也不会因为用的人多而产生损耗。相反,有可能因为用户增多而让数据样本 更加丰富、维度更多,从而提升数据的价值。这个特性让数据只要一公开,就成为“公共品”, 人人可共享。 数据具有分散性(scattered) ,数据持续不断地从各个途径产生,来源非常分散。这个世界 上每个人的衣食住行和工作都在产生数据,据 Intel CEO 估计,到 2020 年互联网用户个体每 数据要素的特性与生产力释放难点 6 天产生 1.5GB 的数据 1 。除了个人数据,每个企业和政府组织也在不断生产数据,如工厂生产 状况、物流运输数据、经济统计数据等。即使是同一个属主的数据,一般也分布在不同渠道上。 例如一个普通人的饮食外卖数据会在美团、饿了么上,打车出行数据会在滴滴上,工资数据会 在银行上。 数据具有多样性(heterogeneous) 。数据种类杂、结构乱,既有个人数据,也有各种机器设 备数据,既有结构化的表格数据,也有非结构化的图片、视频等。 数据具有价值聚合性(aggregated) 。单一少量数据只能反映一小部分样本的情况,统计意 义不强,少数维度的数据往往反映了事物的一个侧面,这两种情况下,数据的应用价值受限。 但当数据量和种类增加时,多维数据、海量数据的联合应用分析有助于揭示事物的完整特性, 产生“1+12”的鲜明效果,显著提升应用价值。例如,银行可以聚合多方数据建立对小微企 业的风险评估模型,从而授信小微企业。 数据具有价值认知多样性 (individually-respectable) 。同一类数据对于不同属主的价值可能 存在巨大的差异,例如,敏感实体的财务信息其价值往往显著高于一般实体的同类数据,对于 不同敏感等级的数据如果不进行分级处理,将难以尊重每一个属主的数据隐私诉求,势必会影 响高价值属主参与数据协作的意愿。 数据的这些特性使得它产生如下问题,很难满足要素释放生产力的几个条件。 数据权属确认有难度,导致产权不够清晰 。相比于传统资产,数据要素的产权归属比较模糊, 法律上饱受争议,缺乏明确结论 2 。其原因除了权利主体多元化、产权分割困难等法律性质外 3 , 还有一个很重要的技术原因是非排他、非竞争性、易于复制。经典产权的基础来自资源稀缺性 和排他性使用处置,但数据尤其是互联网世界的数据往往具有源源不断产生、共享开 放访问等原生属性,且复制和存储成本几乎为零,很容易被复制和盗用,这就与产权的基础相 矛盾。 1 2阿里研究院 . 2020. 数据生产力 . 3闫立东 . 以“权利束”视角探究数据权利 . 东方法学 . 2019 年第 2 期 . 7 数据易泄露、易盗用、易滥用、难追踪,也导致产权保护差,数据属主和控制方的利益得不到保护 。 数据从原始产生、记录、整理加工到使用,可能会有多个主体参与、经过多个环节和使用场景, 又因为复制成本极低、非排他、非竞争性等原因,就很可能遭遇泄露、盗用等问题,流向难以追 查。而且,目前数据被滥用、个人隐私被侵犯的事情时有发生。对于互联网机构和金融机构来说, 客户丰富的数据信息通常具有机密性,一旦被泄露或被滥用,很可能给客户带来巨大损失和麻烦。 目前,隐私信息泄露和非法利用的案件常常发生,基于隐私数据的商业探索仍常常触犯红线。 分散的数据之间尚不能做到互联互通,可信程度不够,导致流通性不足,价值评估较难 。数据要 素的价值聚合性决定了集成多方数据资源会产生大的价值。然而,现实世界中数据高度分散,缺 乏统一的授权、获取、存储、传输、验证及共享等交互标准,更重要的是各方不愿意、不能够共 享数据,导致一个个“数据孤岛”(data silos)出现。即使数据能联通,可信程度也存有疑问。 数据难流通、弱可信,还导致了各方之间不容易评估他方数据价值。 海量、异构、多维数据的存储和处理难度大 。在这个大数据时代,业务会面临着海量用户和交易 的不定时冲击,带来海量数据的吞吐处理需求。系统通常在短时间内计算数据,以实现动态响应 和策略应用;事务完成之后,必须按照合规要求安全可靠地长期存储数据。同时,多种多样的数 据要求用不同类型的数据技术来存储和处理,比如传统的用户信息数据可以用经典的数据库,但 社交网络关系数据用图数据库会更合适,增加了数据存储和处理的复杂性。 8 释放数据要素的生产力呼唤 “数据新基建” 当生产要素不满足生产力释放条件时,合适的基础设施就有可能发挥重要作用,改变现实状况以满足 其中一个或者几个条件。事实上,传统要素在历史变革中,也依赖于升级完善的基础设施以最大程度 地满足条件、释放生产力。 在农业经济时代,土地和劳动要素相结合,产出粮食作物等农产品,不仅在本地消化,还需要运送到 外地,让土地和劳动的价值最大化。但如果没有较好的道路基础设施,价值可流通的条件就会弱化。 到了工业时代,随着铁路、港口等基础设施的扩展,凝结着劳动要素价值的产品更具有全球流通性; 电报电话等基础设施同样为资本的全球流通创造了条件。在信息经济时代,通信和计算机基础设施为 全球证券市场搭建了良好的资讯、估值、流通体系,极大发挥了资本的能量。 同样,数据要素需要合适的基础设施。而且与传统生产要素不同,由于数据的抽象、虚拟和数字特性, 它的基础设施应该是一种基于数字技术的新型信息基础设施本白皮书称为“数据新基建”。数据 新基建依托人工智能(AI)、区块链(blockchain)、云计算(cloud computing)、数据科学(data science)等数字技术(可统称为“ABCD”),有助于克服数据要素的主要问题,满足如下几个特性: 9 有助于确认数据权属,追踪数据流动,从而清晰地界定和保护产权 。例如利用区块链技术防篡 改、可追溯的特性,在重存证和溯源的业务场景中,新基建能够通过数据存证确立产权,并在 后续数据流传过程中追踪数据的分享传播,更好地保护产权。 确保数据全生命周期过程中的合规,充分保护数据属主隐私 。结合人工智能、大数据等技术加 强数据应用业务的监管能力,尤其在高度依赖用户数据的金融、互联网等行业,保障合规应用, 不侵犯数据产权持有人应有的权益。隐私保护始终是数据应用的红线,而且许多业务场景中, 敏感数据不可以流通交换,只能留在本地。为了解决隐私保护问题,以安全多方计算、联邦学 习等为代表的一系列技术就有了用武之地,显著提升多方机构对敏感数据的合规应用和隐私保 护能力。区块链和密码技术相结合,也能有效增进数据在传输过程中的安全隐私性。 有效实现碎片数据、孤岛数据之间的互联互通,并确保不同来源数据的可信可验 。区块链为连 通碎片化、孤岛化的多方数据带来了可能性。各方节点将数据或其摘要上链存储,进一步结合 密码算法在链上协同计算和完成交易。跨链技术还能将不同业务链上的数据相互连通,以便在 更大范围内发挥数据的协同价值。联通之后,许多场合下数据属主或控制方不愿意披露具体内 容,但又必须提供合适的手段证明自己数据的价值和可信度,满足对数据价值的高效安全评估。 以零知识证明、同态加密、差分隐私等为代表的密码算法能让各方在数据机密不泄露的情况下 计算和验证交易的正确性,实现了数据的可信检验。 保证数据的安全可靠存储和计算 。云计算和分布式架构等技术能重塑数据计算和存储的基础设 施,以其广泛接入、资源共享、弹性伸缩、按需使用的特点为大数据提供了强大的计算和存储 能力,实现了高弹性、高可用、低成本和低风险的服务。 以上 4 点理想特性实际上可归纳为三大核心要求: 安全存储(secure storage) 、 可信传输(trusted transfer) 、 协同生产(collaborative production) 。它们的内涵如下表所示。 10 内涵 安全存储 可信传输 协同生产 特性 可靠存储,安全计算 数据可信可验,可确权,可 追踪 互联互通,隐私保护,合规 应用 典型方法 外部托管、本地存储、可信 执行环境(TEE) 授权使用、加密传输、数据 鉴证 联合建模、隐私计算、融合 分析 技术要求 1. 用户可自主选择存储策 略; 2. 数据加密、隔离; 3. 数据可恢复、可删除 1. 准确、高效、安全; 2. 用户授权、选择性披露; 3. 防篡改、可分布式验证、 可追溯、可审计 1. 合法合规、隐私保护; 2. 根据场景选择方案; 3. 用户价值最大化、合理化 表 2:数据新基建的三大核心要求内涵 安全存储是指满足数据安全计算和可靠存储 要求,这是数据要素释放生产力的基础。数 据存储的通常方式包括本地存储、外部托管 或第三方的可信执行环境(trusted execution environment, TEE),用户应能根据需要自主 选择合适的存储策略。在存储时,数据应有相应 的加密和隔离措施,可根据需要删除数据,或在 误删之后有恢复补救机制。 可信传输是指数据在不同所有者和控制方传递过 程中,能追踪数据全流程,保护好产权,并保证 数据的可信任、可检验。这是数据要素释放生产 力的必要步骤。在数据传输时,数据应只能流向 获得合法授权的接收方,传输过程应有合适的加 密方案和鉴证验真方案,确保所传递的数据不被 篡改。因此,可信传输的基本技术要求既有准确、 安全、高效,也包括用户授权、选择性披露,不 能突破授权范围进行披露。传输过程应具有防篡 改和多点验证的能力,全流程也应可审计和可追 溯。 协同生产是指打通多方之间的可信数据,互联互 通,让更广范围内的更多数据联合发挥更大价值, 在此过程中同时注意隐私和合规。这是数据生产 力释放的形态。常用的方法有数据融合分析、联 合建模、隐私计算等。合法合规、隐私保护始终 是数据要素投入生产时所遵守的基本前提,生产 方应根据不同的使用场景选择合适的方案。协同 生产还有一个重要问题,就是设计合理的流通激 励机制,给予贡献者合理的回报,让用户的价值 在协同过程中最大化、合理化,这样各方才有动 力源源不断地分享贡献数据,促进生产。 基于ABCD等数字技术搭建的“数据新基建” 将通过满足以上三大核心要求,使数据要素能克 服固有缺陷,释放生产力。下文将详细阐释我们 提出的解决方案。 11 “数据新基建”解决方案 传统基础设施以钢铁、水泥、木材为材料,根据不同用途和场地情况,用浇筑、铸造、铆接等技术组 合起各部件,满足人们生产、生活需要。类似地,“数据新基建”同样依托于 ABCD 等各项技术的融 合,以这些技术为基础,根据现实场景的不同需求进行立体灵活的组合,解决数据要素生命周期中不 同环节痛点。在此过程中,设计开发人员可采用开源开放的方式,持续提升这些基础技术,创新性地 组建应用解决方案,以提升基础设施的性能、增加和优化功能,保证基础设施安全稳定,丰富技术和 应用生态。 4.1 新基础设施的关键底层技术 (一)区块链 从数据视角,区块链可定义为一种服务于多方的软件架构,作用在于促进跨组织边界的可信数据流通 和传输 1 。区块链具有一系列鲜明的技术特点,使其能成为非常关键的数据基础设施底层技术。基于 分布式系统技术,它可以用共同组网、共同维护数据的基本形式,构建多中心的协作模式;在协作过 1Forrester. 2018. Emerging Technology Projection: The Total Economic Impact of IBM Blockchain. 12 程中,基于密码学技术,它能有效保护数据安全和隐私,保证数据不可篡改;基于智能合约技术,它 能激励各方数据的交换流通,形成良好的系统治理,促进数据价值最大化。由此,区块链技术解决了 分布式数据资产的存储和调用问题。 从现实商业应用看,在构建数据基础设施时,联盟链是主要技术路线。与比特币、以太坊等强调去中 心化、去监管的公有链不同,联盟链更注重权限控制、监管治理、性能提升和安全保障,能满足现 实商业场景的信任需求。目前国外有 Hyperledger Fabric 等联盟链底层框架,国内有 FISCO BCOS、 AntChain 等框架。 (二)隐私计算和人工智能 隐私计算是指面向隐私信息的采集、存储、处理、发布(含交换)、销毁等全生命周期过程的计算理 论和技术,在保证数据提供方不泄露敏感数据的前提下,分析计算数据并能验证计算结果,安全地实 现数据价值 1 。隐私计算并不指单一技术,而是包含了人工智能、密码学、数据科学等多学科的综合 性技术体系。在目前实践中,隐私计算通常与人工智能的其他方法结合,应用于多方联合机器学习建模。 根据需求不同,隐私计算可用于保证数据输入或输出的信息保护。输入隐私保护(input privacy)是 指计算方无法接触或分析出实际输入的真实数据,甚至中间计算结果,目标是防止数据泄露;输出隐 私保护(output privacy)的目标是减少能从公开计算结果中还原出的真实输入,目标不在于防止数 据泄露,而在于避免从公开结果中反推出原始数据 2 。前者又称为“数据计算过程保护”,后者又称为“数 据计算结果保护” 3 。在隐私计算技术体系中,安全多方计算(secure multiparty computation)、 联邦学习(federated learning)、同态加密(homomorphic encryption)、机密计算(confidential computation)等技术属于输入保护,差分隐私(differential privacy)属于输出保护。 国内已经有微众银行 FATE 和 WeDPR、腾讯 Angel PowerFL、蚂蚁集团 Morse、富数科技 Avatar、 平安科技蜂巢等隐私计算框架,国外还有谷歌 Asylo、脸书 CrypTen 等。 1李凤华 , 李晖 , 牛犇 , 陈金俊 . 2019. 隐私计算概念、计算框架及其未来发展趋势 . 工程(英文版). 第 5 卷,第 6 期 . 1179-1192. 2UN handbook for privacy-reserving techniques. 3中国信通院,阿里巴巴集团,数牍科技 . 2020. 隐私保护计算技术研究报告 . 13 (三)大数据 在数据基础设施的关键技术中,适用于海量、多样化数据计算、存储、交换、分发的大数据底层技术 框架和平台是重中之重。优质的大数据应用平台要具备可靠基础计算存储数据交换能力,具备支持机 器学习的能力,具备高并发、高可用、多租户隔离和资源管控等执行与调度能力,具备让业务与数据 快速实现互动、高效生产报告的能力,还要具备提供数据地图、数据脱敏工具、数据质量工具的能力。 为此,业内已经在开发各种各样优秀的大数据相关底层技术框架和软件应用。从开源的Hadoop、 Spark、Hbase、KubeFlow 等组件,到 TDSQL、Snowflake、TiDB、AWS Redshift 等知名数据库, 以及 WeDataSphere 等数据管理平台套件。 (四)云计算 在这个大数据和互联网时代,企业业务常常面临海量用户和海量交易的不定时冲击,带来海量数据的 吞吐处理需求。系统通常在短时间内计算数据,以实现动态响应和策略应用;事务完成之后,必须按 照合规要求安全可靠地长期存储数据。但是,传统的企业 IT 系统依赖本地化、集中式架构,扩展能 力有限,建设和运维成本居高不下,难以满足高性能、高弹性、高可靠的计算和存储需求。 伴随着虚拟化、云平台、分布式资源管理、海量分布式存储、云安全等核心技术的发展,人们能快速、 可靠、低成本、高效率地计算和存储数据,有助于构建数据要素市场的稳健基础设施。云计算以其广 泛接入、资源共享、弹性伸缩、按需使用、容错恢复的特点为大数据提供了强大的计算和存储能力, 实现了高弹性、高可用、低成本和低风险的服务,确保了业务交易和业务数据的稳定性与安全性。 14 4.2 面向三大核心要求的解决方案 4.2.1 安全存储 为了保障数据安全,首先需要为数据的所有者提供可靠的存储方案,保护数据在载体上的完整性、正 确性,且可备份可恢复。其次,确保只有数据属主才能控制数据访问,数据不会泄露,不会被越权访问, 不会被篡改,即做到“不丢、不错、不泄露、不篡改”。 根据位置和方式不同,数据存储所面临的挑战和需要使用的技术也有所不同。我们面向几个关键场景 阐述安全存储的方案。 图 2 数据托管存储方案示意 (一)终端设备存储 个人数据往往存储在本地的设备上,如手机、个人电脑、物联网设备等,具体数据包括个人信息、与 身份验证相关的证书和密钥、APP产生的本地数据、照片视频等文档、由智能设备采集的信息如步数、 环境信息等。 15 本地数据存储的安全挑战在于是否会被恶意程序访问、是否会出错和误删除。对于关键数据,可采用 以下方案增强保护: 1) 加密存储:采用高强度的多重加密技术,将数据加密后存储,且在存储时加入数据水印、数据指纹 等验证信息,避免数据出错和被篡改。相关密钥由用户掌握,存储于独立的空间。在用户使用密钥时, 提供防窃取的输入方式,以及引入生物特征、手机短信等多因子验证的加强方案。另外,为用户提供 密钥恢复或重置方式,避免密钥丢失或泄露。 2) 访问控制:将关键数据隔离存储于诸如 TEE 等安全区域,精细化的控制应用层对数据的访问权限, 拒绝非授权的读写和未经允许的网络传输,并对数据的访问和传输留痕审计,对可疑操作提出警示。 3) 存证追溯:基于区块链等技术对数据进行存证,在可信网络上留存数据指纹和归属信息,进一步还 可对数据的访问和操作记录存证,在本地数据出错时可以用数据指纹校验;对数据的所有权、使用情 况有争议时,可以得到区块链网络的可信背书。 (二)托管存储 托管存储意味着用户的数据离开了本地设备,通过特定的程序存到了其他存储空间。这个空间可以是 其他设备,也可以是云端服务或者分布式文件系统。托管方案须满足以下特性: 1) 便利性:数据可以跨设备、跨网络使用,可生成多个备份,且能拓展用户的存储容量。为此,应关 注数据导出、传输、恢复操作的体验和效率,降低相关成本开销,为用户提供友好便捷的体验。 2) 安全性:数据导出必须经过用户明确授权,传输过程应采用 SSL 等机制加密,在其他设备或云端 服务存储时也进行高强度加密,托管方并不掌握数据的密钥,仅负责数据的存储而无法查看数据明文。 有严密机制防止越权访问,仅有用户或已授权的第三方可访问数据。保留数据操作和数据访问的日志, 结合区块链存证等机制支持追溯。 16 3) 可靠性:生成多个数据副本分片冗余存储,借助纠删码等技术,在优化存储效率的前提下保证数据 可检测、可恢复,确保存储的可靠性。在支持多方共同托管的网络里,结合区块链和分布式存储方案, 由多方共同管理数据,避免单点失效。 4)可控性:即使数据被托管,数据的控制权依旧是在用户手里,属主通过密钥、私钥、身份验证等机制, 确保自己可以访问数据。用户可以灵活选择不同的托管方案、不同的托管服务者,自由地将数据从一 个托管服务迁移到另一个托管服务,可以彻底删除在某一个托管服务上的数据,托管方无法禁止用户 访问、迁移、删除数据。 (三)机构端存储 机构数据远比个人数据更加海量、复杂度更高,可能包含诸多用户数据。机构的数据存储必须符合行 业规范满足安全性、可靠性、合规性等要求,建立完善的管理机制,把控相关角色、流程、系统,避 免操作风险和道德风险,抵抗内外部攻击,此外应能支持第三方审计。 对大型和专业的机构来说,基础的数据存储已经相对成熟。在数字化时代,机构更需要关注的是对个 人数据的采集和存储过程能否确保用户隐私保护。例如,在群体数据采集时,经过用户授权后,机构 可采用差分隐私算法采集和处理用户数据,得到去除了个体特征的数据。另外,机构对个人数据的存 储需要保证“可遗忘权”,在用户明确指示或数据生命期结束后,需要清理相关数据。 4.2.2 可信传输 在金融、政务、工业、个人应用等场景,业务通常由多个参与者共同完成,在业务流程中会互相交换 数据,如发送信用证、合同、票据、扫描件等,其类型包括凭据或明文形式等。数据在个人和个人之间、 个人和机构之间、机构和机构之间传输,面临参与者身份、数据合规性和完整性、网络通信等方面的 风险和挑战。在传输过程中的主要风险及解决思路如下: 17 图 3 数据可信传输方案示意 (一)参与者的身份是否可信? 首先,参与者包括数据拥有方、接收方以及参与到传输和验证的各环节参与者。可信传输方案要求参 与者身份可知可验。微众银行推出了分布式数字身份解决方案 WeIdentity,结合区块链、公钥基础设 施(PKI)和去中心化公钥基础设施(DPKI)体系,首先对参与者进行KYC(Know Your Client)验证, 然后在网络上为各方分配唯一的身份标识,该标识可以在链上进行分布式验证,在保护隐私的前提下, 身份可控匿名,可信可审计。 (二)发送者和接受者是否有权操作和访问数据? 对于个人数据,用户使用自己的证书或私钥进行数字签名,即宣称了自身对数据的所有权。对诸如身 份证明、作品版权、医疗检查结果等需要权威机构背书的数据,则由权威机构和用户一起共同确权, 用户对数据拥有合法的所有权和操作权,并将其生成凭据在区块链上进行存证。在传输时,发送方向 接收方给出明确授权,通过数字签名向接收方表明身份,接收方才可访问数据,且通过数字签名验证 数据的权属,相关授权记录可在区块链上存证和审计。微众银行的 WeIdentity 方案亦为凭据的存证 和访问提供了可行可靠的解决方法。 18 (三)是否可验证数据的正确性、完整性? 在传输的过程中如果出现干扰、通信错误或人为干预,会导致数据出错、丢失甚至被篡改。可信数据 传输方案采用区块链构建可信网络,使得数据的发送方、接收方、各方确权授权信息以及数据本身的 指纹,都在区块链上进行存证。基于 Hash 等数字指纹算法的单向性、可校验性和数字签名的不可篡 改性,接收方在链上验证传输过程的各维度信息,确保其正确性、完整性,确信在传输过程未被篡改。 (四)传输模式是否会导致数据泄露? 不恰当的传输操作会导致数据泄露。常见的通信模式包括点对点传播、接力式传播、广播式传播等, 直接的点对点的传播是比较可控的;接力式传播代表在发送方和接收方之间增加了第三方环节 ; 广播 式传播代表更多第三方不必要地收到了数据。后两种方式中,即使是加密过的数据,依旧面临被暴力 破解的风险。所以,将数据直接发往区块链上,用智能合约承载、借助交易广播、区块同步机制传递 数据,并不是最推荐的方式。在可信传输方案中,数据的明文并不会在区块链网络上广播,仅将数据 的数字指纹锚定在区块链上,如涉及明文,则采用链下方式点对点传输。即使是需要代理传播以应对 复杂的网络环境,也需要审慎的选择路由、构建安全的通道,且和通道上的参与者签订相应的协议, 对数据的转发和留存动作可记录可审计,如有问题可追责。 (五)传输的实现方式是否安全? 数据可以由发送方通过灵活的方式传输到接收方,包括点对点网络、邮件、社交工具等,也可以托管 到文件服务器、云盘等位置,授权接收方去获取。无论什么方式,均须采用高效的网络传输协议保证 时效性,并做到全链路的物理隔离和加密保护,防止数据被窃取。发送方可采用“一次一密”的方式 加密数据本身,并通过密码信封将授权信息和解密密钥交给接收方,接收方在限定时间内用指定的方 式和发送方建立点对点的传输通道接受数据,或到托管服务器上拉取数据,托管服务器和读写方之间 均支持加密通信,可防窃听、防攻击。 (六)数据信任是否可以跨边界? 随着应用场景的丰富、参与者的增加,协作关系会变得更加庞杂,出现多层级、多应用、跨地域的生 态圈,如国家级网络和省级网络分层分组,或者多个联盟链应用进行互联,信任的传递均突破了原有 19 边界,技术和治理模式迥异。针对这种情况,无论原来是否已经使用区块链技术的系统,都可以基于 区块链的可信机制,在链上锚定数据和资产内容、追溯数据的授权和使用记录。然后引入跨链互联方 案,将多个区块链网络连接在一起,运用简易支付验证(SPV)、零知识证明、哈希时间锁定、分布 式事务控制等技术,实现数据可信证明、以及安全稳妥地完成事务。对于未接入区块链的独立领域, 如提供汇率、天气等信息的数据源,可以借助“预言机机制”,打通链上链下通道,使链下经过确权、 筛选的信息可以锚定到区块链上,作为可信数据使用。结合跨链、预言机等机制,可以使数据可信性 得以跨边界传递。 4.2.3 协同生产 现实生产生活场景中,不同的参与主体可能存在复杂的竞争与合作关系。协同生产的目标在于使不同 参与主体通过自组织的运行方式,在满足安全存储和可信传输的必要前提下,协调一致地发掘和转化 数据要素价值,以实现数据价值回路闭环和正反馈效应。 根据参与主体类型不同,协同生产可能会涉及两大类数据价值回路:一是以个人数据为主的个人数据 应用回路,二是以机构数据为主的机构间数据协同回路。 图 4 数据协同生产的两类价值回路 20 (一)个人数据应用回路 个人数据应用回路的主要参与主体为个人和机构。其中个人一般作为数据生产主体,将产生的个人数 据以可信的方式传递给机构;而机构作为数据服务主体,根据接收到的数据,为个人提供对应的服务。 这个过程中,激励个人参与协同生产的重要条件是:能否有效保障个人对数据用途的掌控,控制数据 使用所伴生的隐私风险?为此,派生出两类主要的协同模式: A)托管模式:对于高度可信且不存在竞争关系的数据服务机构,个人将数据明文全权委托给数据服 务机构,数据服务机构通过合同或信誉等担保,不将数据用于约定之外的用途; B)自管模式:由于存在竞争关系或数据服务机构信誉不高,个人只对必要的数据进行选择性披露, 并且通过数据密文化等手段,限定数据的用途,个人自主保存数据相关密钥,数据服务机构
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642