2020年大数据白皮书.pdf

返回 相关 举报
2020年大数据白皮书.pdf_第1页
第1页 / 共72页
2020年大数据白皮书.pdf_第2页
第2页 / 共72页
2020年大数据白皮书.pdf_第3页
第3页 / 共72页
2020年大数据白皮书.pdf_第4页
第4页 / 共72页
2020年大数据白皮书.pdf_第5页
第5页 / 共72页
亲,该文档总共72页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
大数据白皮书 ( 2020 年) 中国信息通信研究院 2020 年 12 月 版权声明 本白皮书版权属于中国信息通信研究院,并受法律保护 。 转载、摘编或利用其它方式使用本白皮书文字或者观点的, 应 注明“ 来源:中国信息通信研究院”。违反上述声明者, 本 院 将追究其相关法律责任。 前 言 即将过去的 2020年是历史发展进程中极不平凡的一年。世界正 经历百年未有之大变局,特别是突如其来的新冠肺炎疫情为各行各业 带来了前所未有的挑战。然而, 危机之中,数字化技术驱动的技术和 产业变革仍加速发展,大数据 技术、产业和应用 逆势而上, 数据的作 用 在助力疫情防控和复工复产中大放异彩,“数据驱动”的价值更加 深入人心。 今年 4月,中共中央、国务院发布关于构建更加完善的要素市 场化配置体制机制的意见,将“数据”与土地、劳动力、资本、技 术并列,作为新的生产要素,并提出“加快培育数据要素市场”。 5 月 18日,中央在关于新时代加快完善社会主义市场经济体制的意 见中进一步提出加快培育发展数据要素市场。数据要素市场化配置 上升为国家战略,将对未来经济社会发展产生深远影响。 本白皮书是继大数据白皮书( 2014年) 大数据白皮书( 2016 年)大数据白皮书(2018 年)大数据白皮书(2019 年)之 后中国信通院第五次就 大数据发布白皮书。 本白皮书在此前四版的基 础上, 回顾了去年以来大数据各领域的最新进展,梳理了 中 美英等 国 数据战略的最新动向,阐述 了大数据技术的最新趋势,分析了我国大 数据产业、重点领域应用以及数据治理的 热点与现状,并对 “十四五” 期间大数据的发展趋势进行了展望。 目 录 一、各国的数据战略. 1 (一)数据要素市场化配置上升为国家战略 . 2 (二)各国加快布局探索数据未来发展之路 . 4 二、大数据技术发展. 7 (一)大数据技术全景解析 . 7 (二)大数据技术发展趋势 . 10 (三)大数据科研创新进展 . 16 三、大数据产业发展. 19 (一)大数据产业生态界定探讨 . 19 (二)大数据产业商业模式解读 . 22 (三)大数据产业主体发展洞察 . 23 (四)大数据企业融资趋势分析 . 26 四、大数据行业应用. 28 (一)大数据全面助力打赢疫情防控阻击战 . 28 (二)需求推动通信大数据价值进一步发挥 . 31 (三)政策铺垫为工业大数据提供发展机遇 . 34 (四)互联网大数据助推商业模式创新拓展 . 35 (五)金融大数据应用成为行业核心竞争力 . 37 五、数据治理. 39 (一) 组织内部的数据管理能力逐步提升 . 39 (二) 组织间的数据共享与流通加速推进 . 44 (三) 数据安全治理成为不可忽视的焦点 . 51 六、大数据法制. 55 (一)强化个人权益,个人信息保护立法加快 . 55 (二)坚持多边合作,数据跨境流动立法加强 . 57 (三)明确权利属性,数据权属立法探索初现 . 60 七、展望与建议. 62 参考文献. 64 图 目 录 图 1 全球每年产生数据量估算图. 1 图 2 我国数据战略的布局历程. 2 图 3 大数据技术体系及主要开源软件. 8 图 4 数据库领域关注度变化态势. 14 图 5 大数据领域论文发表数量及各国占比. 17 图 6 大数据领域专利申请数量及各国占比. 18 图 7 大数据企业数量增长统计. 24 图 8 大数据企业规模分布. 24 图 9 大数据企业地域分布. 25 图 10 大数据行业应用企业类型分布. 26 图 11 大数据企业赛道分布 . 27 图 12 大数据获投轮次分布. 28 图 13 通信大数据行程卡查询量变化情况. 31 图 14 国内大数据交易市场建设历程. 48 表 目 录 表 1 不同大数据产业分类方式间的对应关系. 21 表 2 数据资产管理能力划分. 40 表 3 各省(区、市)政务数据开放相关政策文件. 45 表 4 新设大数据交易所(中心)的基本情况. 50 表 5 个人信息保护相关的主要规范. 55 表 6 我国数据跨境流动的相关政策法规及标准情况. 58 大数据白皮书(2020 年) 1 一、各国的数据战略 当前,全球数据量仍在飞速增长的阶段。根据国际权威机构 Statista 的统计和预测,2020 年全球数据产生量预计达到 47ZB 1 ,而 到 2035年,这一数字将达到 2142ZB,全球数据量即将迎来更大规 模 的爆发。 数据来源: Statista , 2020年 11 月 图 1 全球每年产生数据量估算图 随着数字经济在全球加速推进以及 5G、人工智能、物联网等相 关技术的快速发展,数据已成为影响全球竞争的关键战略性资源。 只 有获取和掌握更多的数据资源, 才能在新一轮的全球话语权竞争中占 据主导地位。 2020年以来,各国数据战略布局步伐加快,本章将梳理 我国数据战略的布局历程,并对美欧等各国的数据战略发展重点进行 简要叙述。 1 ZB 为字节计量单位,1ZB=10 12 GB。 大数据白皮书(2020 年) 2 (一)数据要素市场化配置上升为国家战略 自 2014年以来,我国大数据战略的谋篇布局大致经历了四个不 同阶段,正逐步从数据大国向数据强国迈进。 来源: 中国信息通信研究院 图 2 我国数据战略的布局历程 2014至 2017年间,国家大数据战略经历了最初的预热、 起步后 开始落地实施。2014 年 3月,“ 大数据” 一词首次写入政府工作报告, 大数据开始成为国内社会各界的热点。 2015年 8月印发的促进大 数据发展行动纲要(国发 2015 50号)对大数据整体发展进行了 顶层设计和统筹布局,产业发展开始起步。 2016年 3月,十三五规 划纲要正式提出 “实施国家大数据战略” ,国 内 大 数 据 产 业 开 始 全 面 、 快速发展。 随着国内大数据相关产业体系日渐完善,各类行业融合应用逐步 深入,国家大数据战略走向深化阶段。 2017年 10月, 党的十九大报 告中提出推动大数据与实体经济深度融合,为大数据产业的未来发展 指明方向。12 月,中央政治局就实施国家大数据战略进行了集体学 习。 2019 年 3月, 政府工作报告第六次提到 “大数据” ,并 且 有 多项任大数据白皮书(2020 年) 3 务与大数据密切相关。 进入 2020年,数据正式成为生产要素,战略性地位进一步提升。 4月 9 日,中共中央、国务院发布关于构建更加完善的要素市场化 配置体制机制的意见,将“ 数据” 与土地、劳动力、资本、技术并称 为五种要素,提出“ 加快培育数据要素市场” 。 5月 18日,中央在关 于新时代加快完善社会主义市场经济体制的意见中进一步提出加快 培育发展数据要素市场。这标志着 数据要素市场化配置上升为国家战 略,将进一步完善我国现代化治理体系 ,有望对未来经济社会发展产 生深远影响。 我国在国家级政策中将数据定义为“ 生产要素” ,建 立 在对历史和 现实的深入思考之上。人类社会发展的不同时期, 都会有相对应的关 键性生产要素。这些关键的生产要素都释放了强劲动能, 催生了生产 技术组织变革, 从而拉动了时代快速发展变迁。进入数字社会,数据 就成为了这一关键性生产要素。 以史观今, 随着人类社会步入数据驱动的数字经济时代,数据要 素进一步提升了全要素生产率。在数字社会,数据具有基础性战略资 源和关键性生产要素的双重角色。一方面,有价值的数据资源是生产 力的重要组成部分,是催生和推 动众多数字经济新产业、新业态、新 模式发展的基础。 另一方面,数据区别于以往生产要素的突出特点是 对其他要素资源的乘数作用, 可以放大劳动力、资本等要素在社会各 行业价值链流转中产生的价值。善用数据生产要素, 解放和发展数字 化生产力,有助于推动数字经济与实体经济深度融合, 实现高质量发 展。 从目前来看,作为关键生产要素,大量数据资源还没有得到充分大数据白皮书(2020 年) 4 有效的利用。根据 IDC和希捷科技的调研预测 2 ,随着各行各业企业 的数字化转型提速,未来两年, 企业数据将以 42.2%的速度保持高速 增长, 但与此同时, 调研结果显示, 企业运营中的数据只有 56%能够 被及时捕获,而这其中, 仅有 57%的数据得到了利用, 43%的采集数 据并没有被激活。也就是说,仅有 32%的企业数据价值能够被激活。 随着数据要素市场培育和建设的步伐加快,数据的有效利用、数据价 值的充分释放将成为多方力量共同努力的方向。 (二)各国加快布局探索数据未来发展之路 为了应对信息技术时代在数据方面的发展和挑战, 2019 年底以 来,美国、 欧盟和英国相继出台数据战略, 探索未来的数据发展之路。 美国联邦数据战略焦点从“ 技术” 转移到“ 资源” 。 自 2012年以来, 美国极力推动大数据领域前沿核心技术的发展和科学工程领域的发 明创造, 致力打造有活力的数据创新生态。在当前数据成为国家治理 重要工具的背景之下,美国政府对于数据的重视程度进一步提升。 2019 年 12月 23日,美国白宫行政管理和预算办公室 (OMB)发布联 邦数据战略与 2020年行动计划(以下简称“ 联邦数据战略 ” ), 以政府数据治理为主要视角, 描述了联邦政府未来十年的数据愿景和 2020年所要推行的关键行动。 联邦数据战略的核心目标是“ 将数据作为战略资源开发” 。 联 邦数据战略 确立了 40项数据管理的具体实践目标,分为三个层面。 第一,重视数据并促进共享, 如通过数据指导决策、 促进各机构间数 据流通等; 第二, 保护数据资源,如保护数据的真实性、完整性和安2 数据来源:希捷数据新视界调研, IDC, 2020年。 大数据白皮书(2020 年) 5 全性; 第三,有效使用数据资源,如增强数据分析能力、 促进数据访 问形式多样化等。 欧盟数据战略致力于发展数据敏捷型经济体。 数据已成为经济社 会发展的重要命脉,是新产品和服务衍生的基础。为应对未来发展, 欧盟致力于平衡数据流动和广泛使用, 希望通过建立单一的数据市场, 确保欧洲在未来的数据经济中占据领先地位。 2020年 2月 19日, 欧 盟委员会公布了欧盟数据战略,以数字经济发展为主要视角, 概 述了欧委会在数据方面的核心政策措施及未 来五年的投资计划,以助 力数字经济发展。 欧盟数据战略对欧盟数据发展提出了明确的愿景目标 2030年欧洲将成为世界上最具吸引力、最安全、最具活力的数据敏捷 型经济体。即,在保持高度的隐私、 安全和道德标准的前提下, 充分 发掘数据利用的价值造福经济社会,并确保每个人能从数字红利中受 益。为推进欧盟数据一体化和提升欧盟国家的市场主体竞争力,欧 盟数据战略提出了四大支柱性战略措施: 一是构建跨部门治理框架; 二是加强数据投入;三是提升数据素养;四是构建数据空间。 英国期待数据战略助力经济复苏。 2020年 9 月 9 日,英国数字、 文化、 媒体和体育部 ( DCMS)发布国家数据战略,支 持 英国对 数据的使用, 设定五项“ 优先任务” ,帮 助 该 国经济 从 疫情中复 苏 。这 五项任务包括: ( 1)释 放数据的价值 ; ( 2)确保促 进增长和 可 信的 数据体制;(3 )转变政府对数据的使用,以提高效率并改善公共服 务; ( 4)确保 数据所 依赖 的基础 架 构的 安 全 性 和 韧 性; ( 5)倡 导 国 际数据流动。 除五项优先任务以外,英国国家数据战略还包括多项计划,大数据白皮书(2020 年) 6 如: 到 2021年,对 500名分析师进行公共部门数据科学方面的培训, 并设立政府首席数据官, 改变政府当前的数据使用方式, 从而提高效 率并改善公共服务; 通过立法提高智慧数 据计划的参与度; 新建一个 260万英镑的项目,在支持创新发展的同时致力于解决当前数据共享 中存在的障碍等。 除各个国家的数据战略外,国际组织也十分强调数据在全球化发 展中的重要性。 2020年 4月,世界银行呼吁各国政府、 相关企业以及 学术界共同合作,通过大数据等技术手段应对新冠肺炎疫情所带来的 危机。在 2020年 7月召开的 G20 数字经济部长会议中,数据流动成 为各国部长们重点讨论的议题之一。 在新一轮的国际经贸规则中,跨境数据流通成为全球双边 /多边 贸易合作的重要议题。一方面,基于“ 共同理念” 的全球数据同盟体系 加速构建,形成了欧盟 GDPR 和 APEC跨境隐私规则体系(CBPR ) 两大区域性的数据隐私与保护监管框架, 众多国家以二者为蓝本,对 本国的数据跨境与数据保护规则进行修订;另一方面, 两大框架在国 与国、 区域与区域之间衍生诸多灵活性的解决方案。 2019年,日韩分 别启动与美欧之间的推动跨境数据流动的双边协定,并与欧盟达成充 分性保护互认协议。 2020年 3月, 澳大利亚信息专员办公室 (OAIC ) 与新加坡个人数据保护委员会(PDPC )签订关于跨境数据流动的谅 解备忘录,加强数据治理方面的合作,促进两国之间的经济一体化; 2020年 6 月,英国宣布脱欧后的未来科技贸易战略,允许英国和某 些亚太国家间的数据自由流动,并希望与日本等国达成比其作为欧盟 成员国时期更进一步的数据协议。 大数据白皮书(2020 年) 7 二、大数据技术发展 近年来,大数据技术的内涵伴随着大数据时代的发展产生了一定 的演进和拓展, 从基本的面向海量数据的存储、 处理、分析等需求的 核心技术延展到相关的管理、 流通、 安全等其他需求的周边技术, 逐 渐 形成了一整套大数据技术体系, 成为数据能力建设的基础设施。 伴 随着技术体系的完善,大数据技术开始向着降低成本、增强安全的方 向发展。本章将对当前大数据技术的涵盖范围以及未来发展态势进行 介 绍。 (一)大数据技术全景解析 大数据技术起源于 2000 年 前 后互联网的 高速发展。伴随着时代 背景下数据特征的不断演变以及数据价值释放需求的不断增加,大数 据技术已 逐步演进针对大数据的多重数据特征 ,围绕 数据 存储 、处 理 计算的基础技术, 同配套的数据治理、数据分析应用、数据安全流通 等助力数据价值释放的周边技术组合起来形成的整套技术生态。 如 今, 大数据技术已经发展成为覆盖面庞大的技术体系 。 图 3展示了大数据 技术体系图谱及相关代表性的开源软件。 大数据白皮书(2020 年) 8 来源:中国信息通信研究院 图 3 大数据技术体系及主要开源软件 大数据基础技术为 应对大数据时代的多种数据特征而产生。 大数 据时代, 数据量大、数据源异构多样、数据实效性高等特征 催生了高 效 完成海量异构数据存储与 计算的技术需求。在这样的需求下, 面对 迅速而庞大的数据量, 传统集中式计算架构出现难以逾越的瓶颈, 传 统关系型数据库单机的存储及计算性能有限,出现了规模并行化处理 ( Massively Parallel Processing , MPP)的分布 式 计 算 架 构 ;面 向 海 量 网页内容及日志等非结构化数据, 出现了基于 Apache Hadoop 和 Spark 生态体系的分布式批处理计算框架;面向对于时效性数据进行实时计 算反馈的需求,出现了 Apache Storm、 Flink 和 Spark Streaming 等分 布式流处理计算框架。 大数据白皮书(2020 年) 9 数据管理类技术助力提升数据质量与可用性。 技术总是随着需求 的变化而不断发展提升。在 较为基本和急迫的数据存储、计算需求已 在一定程度上得到满足后,如何将数据转化为价值成为了下一个最主 要需求。最初, 企业与组织内部的大量数据因缺乏有效的管理, 普遍 存在着数据质量低、 获取难、 整合不易、 标准混乱等问题, 使得数据 后续的使用存在众多障碍。在此情况下,用于数据整合的数据集成技 术,以及用于实现一系列数据资产管理职能的数据管理技术随之出现。 数据分析应用技术发掘数据资源的内蕴价值。 在拥有充足的存储 计算能力以及高质量可用数据的情况下,如何将数据中蕴涵的价值充 分挖掘并同相关的具体业务结合以实现数据的增值成为了关键。用以 发掘数据价值的数据分析应用技术, 包括以 BI ( Busi ness Intelligence ) 工具为代表的简单统计分析与可视化展现技术,及以传统机器学习、 基于深度神经网络的深度学习为基础的挖掘分析建模技术纷纷涌现, 帮助用户发掘数据价值并进一步将分析结果和模型应用于实际业务 场景中。 数据安全流通技术助力安全合规的数据使用及共享 。 在 数据价值 的释放初现曙光的 同时,数据安全问题也愈加凸显,数据泄露、数据 丢失、数据 滥 用 等安全事件层出不穷,对国家、 企业和个人用户造成 了恶劣影响,如何应对大数据时代下严峻的数据安全威胁, 在安全合 规的前提下共享及使用数据成为了备受瞩目的问题。 访问控 制、 身份 识别、数据加密、数据脱敏等传统数据保护技术正积极向更加适应大 数据场景的方向不断发展, 同时, 侧重于实现安全数据流通的隐私计 算技术也成为了热点发展方向。 大数据白皮书(2020 年) 10 (二)大数据技术发展趋势 2020年以来,大数据技术环境发生了一些变化,一些新的技术趋 势应运而生,重点呈现出以下几点趋势。 1 . 基础技术:控制成本按需索取成为主要理念 大数据技术自诞生以来始终沿袭着基于 Hadoop 或者 MPP的分 布式框架, 利用可扩展的特性通过资源的水平扩展 来 适应更大的数据 量和更高的计算需求,并 形 成 了 具 备 存 储 计 算 处 理 分 析 等 能 力 的 完 整 平台。以往,为了应对网络速度不足、数据在各节点间交换时间较长 的问题,大数据分布式框架设计采用存储与计算耦合, 使 数据在自身 存储的节点上完成计算,以 降低交互 。同 时,无论 是 私 有化 部 署 还 是 云化服务,大数据平台始终以具备数据存储计算处理分析等完整能力 的形态提供服务。 存储与计算耦合的自建平台造成了额外成本。 实际业务中对于数 据存储与计算能力的要求往往是 不断变化且各自独立的, 使得 两类资 源的需求配比不可预见且二者到达资源瓶颈的时间无法同步。 在存储 与计算耦合的情况下, 当两者其一出现瓶 颈时,资源的横向扩展 必然 导致存储或是 计算能力的冗余, 由此必须进行大量的数据迁移才能保 证扩展节点的资源得以有效利用,这无疑造成了难以避免的额外成本 。 同时,以完整产品形式提供服务的大数据平台在应对弹性扩展、 功能 迭代、 成本控制等特性需求时, 无论是开发迭代新版本还是集成混搭 其他工具, 总会引发需求延迟满足、 性能持续降低、 额外新增成本等 其他问题。 存算分离有效控制成本。 存算分离是 将存储和计算两个数据生命大数据白皮书(2020 年) 11 周期中的关键环节剥离开, 形成两个独立的资源集合。 两个资源集合 之间互不干涉但又通力协作。 每个集合内部充分体现资源的规模聚 集 效应, 使得单位资源的成本尽量减少, 同时 兼具充分的弹性以供横向 扩展。当 两类资源之一紧缺或富裕时, 只需对 该类资源进行获取或回 收 ,使 用 具 备 特 定 资 源 配 比 的 专 用 节 点进行 弹 性 扩 展 或收缩,即可在 资源需求差异化的场景中实现资源的合理配置。 按需索取的处理分析能力服务化概念开始流行。 在存算分离理念 的基础上, Serverless 、云 原 生等 概念 的提出进一步助力 处 理分析等各 项能力的服务化。通过存算分离的深入以及容器化等技术的应用, Serverless 概念的落实从简单的计算函数向着更丰富的处理分析能力 发展,通过预先实现的形式将特定的数据处理、通用计算、复杂分析 能力形成服务,以供按需调用。 由此,数据的处理分析等能力摆脱了 对于完整平台和工具的需求,大大降低开发周期、 节省开发成本, 同 时服务应用由提供方运维, 实行按需付费, 消除了复杂的运维过程和 相应的成本。 国内外众多厂商深入进行了存算分离和能力服务化的实践。 目前, 阿里云和华为一众云计算厂商, 纷纷提供了基于各自云化大数据平台、 分布式数据库产品的存算分离解决方案。其 中,阿里云使用自身 EMR+OSS 产品代替原生 Had oop 存储架构,整体费用成本估算下降 50%; 华为则使用了自身 FusionInsight+EC 产品, 存储利用率从 33% 提升至 91.6% 。 在能力服务化方面,国外最为出名的是 Snowflake 公 司提出的数据仓库服务化(Data warehouse as a Service , DaaS),将 分析能力以云服务的形式在 AWS、 Azure 等云平台上提供按次计费的 服务, 成为云原生数据仓库的代表,并于今年以超过 700亿美元的市大数据白皮书(2020 年) 12 值 IPO,成为软件企业最大 IPO 案例。在国内则有以阿里云的 AnalyticDB 、 DLA 为代表的一系列产品提供基于类似思想的服务化的 数据处理分析能力。 2 . 数据管理:自动化智能化数据管理需求紧迫 数据管理相关的概念和方法论近年备受关注,在大数据浪潮下越 来越多的政府、 企业等组织开始关注如何管理好、 使用好数据, 从而 使数据能够藉由应用和服务转化为额外价值。 数据管理依赖人工操作带来居高不下的人力成本。 数据管理技术 包括数据集成、 元数据、数据建模、数据标准管理、数据质量管理和 数据资产服务,通过汇聚盘点数据和提升数据质量,增强数据的可用 性和易用性,进一步释放数据资产的价值。 目前以上技术多集成于数 据管理平台,作为开展数据 管理的统一工具。 但是数据管理平台仍自 动化、 智能化程度低的问题, 实际使用中需要人工进行数据建模、数 据标准应用、数据剖析等操作。 更加自动化智能化的数据管理平台助力数据管理工作高效进行。 在基于机器学习的人工智能不断进步的情况下,将有关技术应用于数 据管理平台的各项职能,以减少人力成本提高治理效率成为当下数据 管理平台研发者关注的重点。其中数据建模、数据标签、主数据发现、 数据标准应用成为几个主要的应用方向。 数据建模方面, 机器学习技 术通过识别数据特征, 推荐数据主题分类,进一步实现自动化建立概 念数据模型, 同时,对表间关系的识别将大大降低逆向数据建模的人 力成本, 便于对数据模型持续更新。 数据标准应用方面, 基于业务含 义、数据特征、数据关系等维度的相似度判别,在数据建模时匹配数大数据白皮书(2020 年) 13 据标准,不仅提升了数据标准的应用覆盖面, 也减少了数据标准体系 的维护成本。 数据剖析方面, 人工智能通过分析问题数据和学习数据 质量知识库,提取数据质量评估维度和数据质量稽核规则,并识别关 联数据标准,实现自动化的数据质量事前、事中、事后管理。 在数据资产管理概念火热,各 项工作备受重视的当下,市场上的 数据管理平台产品也在不断演进力争上游。 华为、 浪潮、 阿里云、数 梦工场、数澜科技、 Datablau 等数据管理平台供应商也在各自的产品 中不断更新自动化智能化的数据管理功能。其中华为着重于智能化的 数据探索, 浪潮关注自动化的标签、主数据识别, 阿里云实现了高效 的标签识别以及数据去冗,中国系统则聚焦助力数据标准有效落地。 3. 分析应用:图分析需求旺盛引导数据分析新方向 随着深度学习的迅速发展, 传统的针对以 独立数据集合为对象的 分析技术不断成熟。 相对的,对于存在关联关系的数据进行关联分析 的需求愈加旺盛。关联分析 最早始于由上世纪九十年代,由“ 购 物 篮 分析” 问题,即通过从顾客交易列表中发掘其购物行为模式 引申而来。 早期机器学习领域中也有 Apriori 、 FP-growth 等经典频繁模式挖掘算 法实现对于关联规则的挖掘分析。 传统数据分析方法难以应对图结构数据中关联关系的分析需求。 以社交网络、用户行为、 网页链接关系等为代表的数据, 往往 需要通 过 “图 ”的形态以最原始、最直观 的方式展现其关联性。在图的形式下, 自然而然地存在着连通性、中心度、社区关系等一系列内蕴的关联关 系,这类依赖于对图结构本身进行挖掘分析的需求难以通过 分 类、 聚 类、回归和频繁模式挖掘 等 传统数据分析方法进行实现, 需要能够对大数据白皮书(2020 年) 14 于图结构本身进行存储、计算、分析挖掘的技术合力完成。 专注于图结构数据的图分析技术成为数据分析技术的新方向。 图 分析是专门针对图结构数据进行关联关系挖掘分析的一类分析技术, 在分析技术应用中占据的比重不断上升。与图分析相关的多项技术均 成为热点的产品化方向,其中以对图模型数据进行存储和查询的图数 据库、对图模型数据应 用图分析算法的图计算引擎、对图模型数据进 行抽象以研究展示实体间关系的知识图谱三项技术为主。通过组合使 用图数据库、 图计算引擎和知识图谱, 使用者可以对图结构中实体点 间存在的未知关系进行探索和发掘, 充分获取其中蕴含的依赖图结构 的关联关系。 根据 DB-Engines 排名分析,图数据库关注热度在 2013-2020年 间增长了 10倍,关注度增长排名第一。图数据库、图计算引擎、知 识图谱三项热点技术方向正在全球范围内加速产业化。国内 阿里云、 华为、 腾讯、百度等大型云厂商以及部分初创企业均已布局这一技术 领域。 其中, 知识图谱已经开始深入地应用于公安、 金融、工业、 能 源、法律等诸多行业,纷纷落地内部试点应用。 数据来源:DB- Engines , 2020年 1 1月 图 4 数据库领域关注度变化态势 大数据白皮书(2020 年) 15 4 . 安全流通:隐私计算技术稳步发展热度持续上升 除了对数据进行分析挖掘以外,数 据 的 共 享 及 流 通 是 另 一 个 实 现 数据价值释放的方向。 无论是直接对外提供数据查询服务还是与外部 数据进行融合分析应用, 都是实现数据价值变现的重要方式。 在数据 安全事件频发的当下, 如何在不同组织间进行安全可控的数据流通 始 终缺乏有效的技术保障。同 时,随着相 关 法 律 的 逐 步完善, 数据的对 外 流通面临更加严格的规范限制, 合规问题进一步对多个组织间的数 据 流通产生制约。 基于隐私计算的数据流通技术成为实现数据联合计算的主要思 路。 在数据合规流通需求旺盛的环境下, 隐私计算技术发展 火热。 作 为 旨 在保护数据本身不对外泄露的前提下实现数据融合的一类信息 技术, 隐私计算为实现安全合规的数据流通带来了可能。当前, 隐私 计算技术主要分为多方安全计算和可信硬件两大流派。其中, 多方安 全计算基于密码学理论,可 以 实 现 在 无可信第三方情况下安全地进行 多方协同计算;可信硬件技术 则 依据对于安全硬件的信赖,构建一个 硬件安全区域, 使数据仅在该安全区域内进行计算。在认可密码学或 硬件供应商的信任机制的情况下, 两类隐私计算技术均能够在数据本 身不外泄的前提下实现多组织间数据的联合计算。此外, 还有联邦学 习、共享学习等通过多种技术手段平衡了安全性和性能的隐私保护技 术,也为跨企业机器学习和数据挖掘提供了新的解决思路。 由于解决的问题十分契合数据流通领域的热点命题, 近年来隐私 计算技术持续稳步发展,各类市场参与者逐渐清晰。一方面, 互联网 巨头、 电信运营公司以及众多大数据公司纷纷布局隐私计算,这类企 业自身有很强的数据业务合规需求,也有丰富的数据源、数据业务、
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642