资源描述
华大区块链白皮书 V1.0 2 版权所有 深圳华大基因科技有限公司 前言 大千世界的万物生长和生老病死都受控于生命的遗传密码 基因组。基因,记录了地球生命 几 十 亿 年的 演化历史 , 基因资源 的多样性 是生命进化和物种分化的物质基础。亿万 物种 的多样化基因 信息 就是最天 然的 、 高度压缩的 ,包 合了时空 维度 的分布式数据库 ,海量生命数据的相互融合、 变异与传承 , 共同造就了 纷繁复杂 的 生物 多样性 。科学家们正是 通过 基因测序技术将 物种数字化 , 然后进行数据分析 和价值挖掘 , 用 硅基 比特记录 和 分析 碳 基 生物 沧海桑田的 变迁,从而 认知 人类 自身 与 地球万物 。 1999 年 9 月 9 日,华大基因伴随着国际人类基因组计划 “中国部分 ”的正式启动而诞生 。 2001 年,由美、英、法、德、日和中国 6 个国家超过 3000 名科学家共同参与的第一个人类基因组草图绘制完成,耗时 13 年,所用总资金超过 30亿美元。十几年 来,基因测序 的成本以 “超 摩尔定律 ”的 速度下降 。 2015 年以来,华大基因 实现了核心测序 工具的突破 , 相继推出 多款 国产自主测序平台 ,以 600美元的低价引领个人全基因组测序进入百元美金时代。目前全球已测序的高等动植物中(含未公布)约 70%由华大基因和合作者共同完成。 2018 年 4 月 , 被誉为生物“登月计划”的地球生物 基因组 计划( Earth BioGenome Project, EBP)正式 对外发布, 华大基因 也是 该项目 联合发起单位, 计划在 10 年内对 1000 万至 1500万种的已知真核生物基因组进行破译,总经费预计 需要 47 亿美元。通过 数字 化地球 , 全面破译解读 亿万物种的 遗传密码 ,推动人类在认知 、 理解、利用和保护生物多样性等方面迈上全新起点 。 华大区块链白皮书 V1.0 3 版权所有 深圳华大基因科技有限公司 随着测序技术及多种生命数字化 工具 的突破, 以 大 数据 驱动 的 “精准 医疗 ”和 “精准 健康 ”时代正在 来临 。生命是一个多层次的复杂系统,在时空中动态演变。华大 基因 创造 性地提出了 以“大人群生命组学大数据( 2B4D) ”的 方法 论来认知 生命 ,即 从 DNA 开始 , 遵循 生命中心法则, 从基因组到蛋白组到跨组学贯穿,从微观到宏观、从生到死的跨尺度、多维度、多模态、全方位、全周期的海量全景式生命大数据解读。从 国家层面 看 , 2016 年 6 月,国务院办公厅发布关于促进和规范健康医疗大数据应用发展的指导意见,首次将健康医疗大数据提升到国家战略层面。同年 10 月发布的“健康中国 2030”规划纲要,也特别强调发展健康产业和医疗大数据、培育健康医疗大数据应用新业态。然而,该领域一直面临 协同开放程度不高、权属不明确等问题,数据的采集 、生产、存储、 传输及计算 分析等 各流程都 涉及到公民的隐私保护和数据 安全问题,提升 跨机构数据共享的 互操作性,最大化 发挥 数据价值 ,都 成为了刚性迫切的需求 。 区块链作为 一种集合 分布式存储、点对点传输、共识机制、加密算法等技术的组合式创新应用, 为 个 人数据自 治 和 跨机构 共享交换, 提供了崭新的解决方案 。华大基因 自 2018 年 起开始布局 区块链 技术应用 并 加入 了 超 级 账本( Hyperledger) ,由 内 外 部 实际 场景驱动, 逐步推动 技术落地, 最终目标是与 行业伙伴共同 搭建基于区块链及密码学技术的数据流通生产 级 基础设施, 以 隐私保护 为前提,以 数据共享为目的,确保 全流程 可控制、可审计、可监管,从而支撑民生 普惠、 科学探索和产业应用,使相关主体(个人、政府、医疗机构、科研机构、国家基因库、企业等)共有、共为、共享,在生命时代将个人生命数据确权并将 数据资源资产化,形成生命价值可定价、可 流通、 可交换的全新生态体系。 华大区块链白皮书 V1.0 4 版权所有 深圳华大基因科技有限公司 人类 社会正 由工业、信息时代 加速迈向 生命时代 。“生优病少、健康长寿、温饱不愁、环境友好”,是美好生活与命运共同体的基础,是人类发展的最大刚需和终极目标。华大追求终极、挑战极限,依托生命“读写存”高效低成本工具,聚焦生命的解读、编写与合成,把“基因科技造福人类”的伟大目标转化为从我做起的内生动力。万物相形以生 ,众 生互惠而成。基因 是人人与生俱来的数据资源, 存在即 合理 ,人与人之间 0.1%的 基因 差别 定义了人类 的多样性, 核心 正 是 万物 共生与 协同 ,这与 区块链所 倡导 的分布式价值交换不谋而合。 与工业、 信息 时代单纯追求效率、 成本的极限 不同,生命时代的价值评估更加多维度与多样化。 为推动区块链在生命 大数据 行业的应用,加速行业伙伴对 其应用 理解, 华大区块链项目组编写了华大区块链白皮书 V1.0。 白皮书总结了 华大对于区块链的理解 及相关核心技术积累 ,分 享 了 区块链及 密码学 在 生命 大数据共享 、 生物 智能 计算、个人健康 激励等 实际 应用场景的 实践案例, 并 提出了相关建议。白皮书内容详尽、分析透彻、落地场景扎实,具有 较 好的参考价值。 我们 认为, 从 基础设施建设到最终大规模应用, 没有 捷径可走, 在经过基础研发、概念验证、节点部署、开发测试等一系列流程后, 华大 逐步 将生产级的联盟链 BaaS 平台开放给内部 各体系及外部合作机构 , 共同推动行业 发展 ,打造 基于 区块链的 共赢 生态 。 如果说 生物 技术 ( BT)的 突破实现了 生命大 数据的 精准 量化 , 以区块链 等 为代表的新一代的信息技术( IT) 则 为生命价值 的定价与 交换 提供了必须 的 基础 设施 。 我们坚信 , “BT+IT”,两者 深度耦合 与互相反馈 , 必将共同 构建生命时代 全新的多方协作体系 ,进而推动 人类 “健康 长寿 ”终极追求 的实现 。 华大区块链团队 2018 年 5 月 27 日 华大区块链白皮书 V1.0 5 版权所有 深圳华大基因科技有限公司 编委会成员 策划 顾问 : 陈芳 、单日强 、侯勇 、蒋慧、 金鑫 、李波、 刘健 、刘靓 、 刘娜 、苗继 业 、 宋浩 、 伍 利、徐军民、张勇 、 张玉良、 宗洋 研究撰写 : 杨梦 、潘 光明 、 赵宏德 、 李艳 、潘 远航、周童 、 唐强 、 李华平 、 李航 、谢青 、 李鹏程 、曹 威 、吴 家胜 、 肖鹏、田巍 、李亚星 视觉设计 : 刘斌 、 邹康 华大区块链白皮书 V1.0 6 版权所有 深圳华大基因科技有限公司 目录 前言 . 2 导论 . 8 1 区块链简介 . 10 1.1 区块链兴起与演变之路 . 10 1.2 区块链主要优势特点 . 11 1.3 区块链核心关键技术 . 12 1.4 区块链未来发展趋势 . 15 2 区块链在健康医疗行业的应用 . 18 2.1 当前健康医疗行业数据问题概述 . 18 2.2 精准医疗 VS 隐私保护 . 20 2.3 国内外健康医疗行业的 区块链应用现状 . 21 2.3.1 国外健康医疗行业的区块链应用 . 21 2.2.2 国内健康医疗行业的区块链应用 . 22 3 华大区块链 . 23 3.1 华大区块链的业务目标 . 23 3.1.1 华大区块链技术展望 . 24 3.1.2 华大区块链用来解决什么问题 . 26 3.1.3 设计原则 . 26 3.2 华大区块链技术架构 . 27 3.2.1 共识机制 . 27 3.2.2 密码学算法 . 30 3.2.3 基因数字 ID . 31 3.2.4 碎片分布式存储 . 33 3.2.5 安全多方计算 . 35 3.3 华大区块链优势特色 . 38 3.3.1 隐私保护 . 38 3.3.2 安全共享 . 38 华大区块链白皮书 V1.0 7 版权所有 深圳华大基因科技有限公司 3.3.3 价值交互 . 39 3.4 华大区块链应用场景 . 39 3.4.1 区块链 +跨组学数据:个人生命数据的价值流动 . 39 3.4.2 区块链 +注册申报:医疗器械申报全流程管理 . 42 3.4.3 区块链 +罕见病公益:许一个没有罕见病的未来 . 43 3.4.4 区块链 +互助保险: HPV 检测保障计划 . 44 3.4.5 区块链 +深度学习:从技术融合到生物智能 . 45 3.4.6 区块链 +供应链:农产品智慧防伪溯源平台 . 46 4 拥抱生命大数据时代 . 47 术语与缩略语 . 49 参考文献 . 51 咨询与合作 : CHAIN.GENOMICS 华大区块链白皮书 V1.0 8 版权所有 深圳华大基因科技有限公司 导论 近年来,人类基因组计划催生的高通量测序仪 ,结合 质谱仪、高分辨率影像系统等生命组学工具 的日益成熟,人们不仅可以将对生命的解读从微米、纳克的尺度推进到纳米、道尔顿的分子和原子级别的微观观察极限,更可以遵从生命中心法则,从基因组到蛋白组到多组学贯穿,实现从微观到宏观、从生到死的跨尺度、多维度、多模态、全方位全周期的海量全景式生命大数据解读和研究,因此以基因组学为基础的个人 生命 跨组学 大 数据将迎来爆发式增长。以全基因组测序为例,一个人的全基因组 包含 30 多 亿个碱基对,折算成测序数据量至少需要100GB, 如果考虑 跨组学数据, 预估 未来 每人每年 的 数据 量将达到 1TB, 终生 数据 量将超过 10TB。 生命大数据 的 复杂性,需要 百万大人群的数据积累和比较才能总结规律和得出可靠认知, 70 亿人 的跨组学数据 将形成最庞大 的数据资源。从健康 医疗大数据角度看, IDC 预测到 2020 年, 数据量将达到 40 万亿 GB,是2010 年的 30 倍。 生命 大数据的发展不仅会颠覆原有医疗保健模式, 更将 推动循证医学向精准医学转变,为 政府公共 卫生决策提供支持 , 促进个人精准健康管理。 海量 生命大数据的 安全 共享和 高效 应用是 精准医 疗 的 基础和 生命时代 的 刚需 。 但 数据的不合理使用 通常 会导致 个人 隐私 泄露 风险 ,也涉及 商业秘密及国家安全问题,使数据共享成为一把双刃剑 。目前,个 人的医疗健康数据往往由 具备数据采集 和 处理能力的医疗或科研机构进行集中管理。这种管理方式造成了两类问题:其一,个人对于自己的数据没有实际控制权, 即便 机构 有 将数据用于科研或 交予 药厂 、 保险公司 进行 商业 变现 等 行为 , 数据所有者也 无从知晓;其二,由于信息系统 标准差异 与利益格局的 障 碍,不同的医疗 、 科研 单位、 政府、商业机华大区块链白皮书 V1.0 9 版权所有 深圳华大基因科技有限公司 构之间无法实现数据的安全 交换 与 高效 共享。不仅导致了数据的 孤立 分散,也 无法充分 挖 掘数据价值, 尽管每天都有大量的数据产生,但通常无法被整合 形成 完整 的 跨组学 数据集合 并 加以分析, 进而无法 实现精准的 健康干预。 深圳国家基因库于 2011 年由国家发改委等四部委批复,并于 2016 年正式对外运营。基因库依托华大基因研究院组建、运营, 目前已 初步建成“三库两平台”的结构和功能,包括生物样本资源库、生物信息数据库、生物活体库以及数字化平台、基因合成与编辑平台,实现对生物资源和信息的“读写存”,其规模、结构、布局和内容不仅具有世界领先性,更具有唯一性。国家基因库聚 全球之力,以“ 共有、共为 、 共享 ”的宗旨 和 目标 实现基因及数据资源的共享利用, 为 物种多样性提供保障,为精准医学提供大数据支持,在 生命时代 引领健康人生。 华大 基因作为全球 最大的基因组学 研发机构 ,肩负着 促进生命 数据价值流动的责任, 华大基因 重视个人数据的安全 共享 与隐私保护 ,前瞻性 地将 新兴 的区块链及 现代 密码学等技术架构应用于 生命 大数据的 流通 中 。从技术 角度来 讲 , 区块链 可以保障 数据信息不可被任何中心化平台非法使用、篡改和删除, 使得数据交互方可以不依赖第三方机构 进行 价值传递,并保证交易记录公开透明、不可篡改 ,极大地降低 信任 成本,提高交易效率 ,形成 高效的多方利益分配体系 , 并 为数据共享 进行 安全、透明的追溯审计 。而 以 安全多方计算 为代表的现代密码学技术 可确保 在 保护数据所有者 利益和 隐私的前提下 ,实现多方数据 可信交换和协同计算 ,联合挖掘 数据价值。 华大 区块链 的目标 是搭建 2B4D 数据 的 共享开放及价值实现的 IT 基础设施,支撑科学探索和产业应用,最终形成一个信任、 高效 、安全、多方协作的大数据应用生态体系 。 华大区块链白皮书 V1.0 10 版权所有 深圳华大基因科技有限公司 1 区块链简介 区块链是利用块链式数据结构来验证与存储数据 、 利用分布式节点 共识 算法来生成和更新数据 、 利用密 码 学的 技术 保 证 数据 传输和访问 控制 的安全 、 利用由自 动 化脚本代 码组成 的智能合 约 来 编 程和操作数据的一种全新的分布式基础 架构与 计算范 式。目前,区 块链 被很多大型机构称 为彻 底改 变业务 乃至机构运作模式的重大突破性技 术 。在金融 、物 联 网、公益慈善、医 疗 健康、供 应链等 领 域,越来越多的企 业 机构开始探索区 块链 在行 业 中的 应 用前景, 规划 基于区 块链技术的数据 流通路线图。 1.1 区块链兴起与演变之路 区块链技术起源于化名为 “中本聪( Satoshi Nakamoto)的学者在 2008 年发表的奠基性论文比特币:一种点对点电子现金系统。文章提出,希望可以创建一套 “基于密码学原理而非基于信用 “的电子支付系统,任何人可以在不知道对方背景信息的情况下进行交易,且不需要第三方的介入。 这篇文章催生了比特币,标志着人类社会的货币体系 的全新 实验。众所周知,比特币在没有任何中心化机构运营和管理的情况下,多年来运行非常稳定。其原因就在于比特币的发行方式都是由程序和加密算法预先设定后,在全世界的多个节点上运行,没有任何人和机构可以 篡改 ,不受任何单一用户控制。后来,人们把这种基于密码学与分布式存储的底层技术抽象提取出来,称之为区块链技术。
展开阅读全文