2021-2022基因大数据智能生产及分析行研报告.pdf

返回 相关 举报
2021-2022基因大数据智能生产及分析行研报告.pdf_第1页
第1页 / 共114页
2021-2022基因大数据智能生产及分析行研报告.pdf_第2页
第2页 / 共114页
2021-2022基因大数据智能生产及分析行研报告.pdf_第3页
第3页 / 共114页
2021-2022基因大数据智能生产及分析行研报告.pdf_第4页
第4页 / 共114页
2021-2022基因大数据智能生产及分析行研报告.pdf_第5页
第5页 / 共114页
点击查看更多>>
资源描述
2021-2022基因大数据智能生产及分析行研报告4 基因慧 序言基于基因大数据的精准医疗时代已经来临陈润生中国科学院院士2019年,国务院关于实施健康中国行动的意见明确提出,预防为主,从以治病为中心转变为以人民健康为中心。如何落实?最核心的任务是维护全生命周期健康和防控重大疾病,这与基因大数据革新传统医疗健康的模式息息相关。全生命周期是个体从孕育、出生、成长到死亡的过程。以往的医学往往根据症状进行局部的分析并对同类疾病给予相同的药物。如何持续地追踪和量化标记、对症状提前评估、进行疾病分型并实施个性化干预,实现“同病异治”?这些问题亟待解决答案就是生命健康大数据。其中最核心的部分是组学数据,而组学数据中最基础的数据是基因组数据。组学数据结合临床表型形成生命大数据,进行充分的获取、分析、解读,对我国在基础研究、临床诊治、健康管理、包括中药在内的创新药研发和产业化有极其关键的推动作用。2016年,我国“精准医学研究”等重点专项实施了包括近百万个体的中国人群基因队列研究,2020年是第一批数万级队列研究的收官之年。结合“新基建”中的AI、区块链、5G等数字技术,基因大数据不仅能为临床诊疗提供新的信息和范式,也将深刻地改变大健康体系的模式和理念,并且赋能农业育种、工业能源合成和公共卫生。如何更好将基因大数据转化为科研和产业的价值呢?首先,需建立百万数量级的生物样本库,这是建立各种标准的基础;其次,针对生物样本库,要进行多组学测量,所以我们看到基因组是最先兴起的产业;而编码蛋白质的传统基因只占3%,另外97%非编码的重大信息仍需进一步挖掘,大数据技术会得到空前发展;第三,有了数据和样本后,需要从大数据中挖掘信息,这需要生物信息学和AI在内的数字技术融合,包括新兴的分子诊断和生物创新药会兴起; 第四,基于以上的组学大数据及带来的新兴产品,精准预防和精准医疗的理念将得以实现。在此时机,哈尔滨医科大学生物信息学院的学子汪亮带领基因慧团队和业界联合发布的这份基因大数据报告,非常符合学术界和产业界的需求,将基因大数据的科学理念、先进技术和创新产业案例进行传播,同时链接基因、信息技术和医疗健康,相信会吸引更多有识之士加入基因大数据研发和产业中来,为健康中国和新时代的数字经济发光发热,不负韶华!基因大数据及智能化重构现代医学方向东中国科学院北京基因组研究所(国家生物信息中心)研究员大数据已经成为经济和社会发展新的驱动力。基因大数据关乎国民健康和生物资源安全,是重构现代医学模式转变的重要原动力。中国人群和我国特有生物资源的基因数据正呈指数级式增长。在充分保障数据安全的前提下,如何有效管理和利用基因大数据是亟待解决的课题。2020 年是“精准医学研究”等“十三五”国家重点研发计划项目的收官之年,也是全面建成小康社会、脱贫攻坚决战的决胜之年。虽然突如其来的新冠疫情给我们完成既定目标任务带来诸多挑战,但是我们也欣慰地看到,中国的基因和健康大数据产业已经取得长足的进展。单细胞、多维度、全景式等新型生命组学技术成果不断涌现;百万级自然人群多中心大型队列和数万级重大疾病及罕见疾病临床队列成功构建;临床生物样本库和信息库的建设加快步入正轨;精准医学大数据的资源共享平台和中国人群参比数据库建设初见成效,依托中国科学院北京基因组研究所建设的“国家基因组科学数据中心”和“国家生物信息中心”正式提供服务。同时,中华人民共和国人类遗传资源管理条例自2019年7月1日起施行,为推动我国生物信息数据安全、维护数据主权提供重要保障。在医学信息学领域,结合智能可穿戴和POCT等先进医学工程设备实时采集的个体化健康信息,传统的生化病理、医学影像、电子病历和健康档案系统所形成的多源、异构、非标准化的医疗数据逐步迭代成为高质量的健康大数据,有望借助云计算、人工智能、区块链、5G等前沿技术优势,有机融合生命组学大数据,将会更加有效地支撑个性化精准医疗、智能临床决策支持、全民健康管理和公共卫生风险防控等。在此背景之下,基因慧联合科研临床及产业方,共同策划基因大数据智能生产及分析行研报告,充分研讨基因大数据的有效集成、合理利用、公开共享、技术及平台应用和创新案例等热点,恰逢其时。受基因慧创始人汪亮先生所邀,为此报告作序。期待报告为基因大数据技术创新和产业搭建桥梁。相信在社会各界共同努力下,中国基因大数据产业日趋成熟和更具活力。行业代表寄语随着行业的飞速发展和技术的广泛普及,基因科技正成为生物科技和医疗健康行业的“新基建”,需要更快速、稳定、高质量地生产和处理大规模基因数据,支撑科学研究和临床应用。未来的基因数据生产和分析一定是智能化时代,将基因测序技术与IT基础设施结合在一起,实现生产方式的变革。诺禾致源始终专注于开拓前沿分子生物学技术和高性能计算在生命科学研究和人类健康领域的应用,致力于成为全球领先的基因科技产品和服务提供者。为了满足行业需求,推动产业发展,我们在积极地探索样本制备、测序和分析的智能化发展,并将其应用到更广泛的领域,覆盖更多的产品和服务。未来我们还将继续致力于产业创新,成为科学家和医生可信赖的合作伙伴,践行基因科技守护生命健康的使命。 李瑞强(北京诺禾致源科技股份有限公司董事长 & CEO)过去十余年里,测序技术快速发展。以基因测序仪为基础工具和平台,基因组学研究和应用基本实现了海量数据的产出。针对基因大数据的生产,计算、存储和管理,华大智造提供 贯穿全流程的自动化和信息化解决方案,全面覆盖从生物样本管理、实验室管理、生信分 析、数据存储及管理、报告解读的基因大数据智能生产分析全流程。特别地,基于华大智造 DNBSEQ测序平台和ZTRON基因数据中心的应用生态,提供开放的应用商店ZMART(ZTRON Market),搭载多个领域的生信分析解决方案,真正实现从样本到报告一键操作。此外,基于区块链技术,华大智造联合行业龙头企业建设了中国人群基因变异解读标准数据库,弥补适用中国人群基因变异解读标准公开数据库的空缺,解决行业领域只能参考国外公开群体数据库的问题,为防止中国人群基因数据外泄提供有效的科学技术支撑。 单日强(深圳华大智造科技股份有限公司 CIO)目前,我们已经走到了第四次工业革命的起点和风口上,人工智能和知识计算在基因领域的突破和应用会促进医疗健康行业的再次蓬勃发展,在基因诊断、临床研究和药物研发等领域带来巨大的机遇。 贾永利(华为云人工智能领域总裁) 随着测序成本的下降,测序不再是难题,而基因数据解读成为世界性难题,解决这一难题的终极途径就是构建基因-表型大数据。智因东方致力于基因-表型大数据的构建,包括低成本采集和大数据挖掘,推进对基因变异的致病性解读,从而提升临床诊断,助力科研发现。 谷为岳(北京智因东方转化医学研究中心有限公司 CEO)报告说明报告宗旨本报告为基因慧联合代表产业机构和临床科研专家调研及撰写而成,面向专业人士免费传播,推动基因大数据技术的科学普及、技术推广、转化应用及创新创业。面向对象对基因大数据有一定基础了解的政策制定者、临床医生、创业者和投资者、科研工作者(医疗器械耗材、实验设计、生物信息、新药研发、数据挖掘等)、跨界人士以及其他对基因大数据技术和转化应用有浓厚兴趣的专业人士。内容范围内容上,围绕基因大数据行业背景、核心技术、价值链、应用及产业创新案例分析展开(考虑篇幅,除特别说明,检测方面以测序技术为主展开);时间上,基于近年的信息梳理、归纳和预测,立足于 2020 年,展望未来 3 年发展趋势;地理上,以中国大陆地区的市场范围为主,对照全球的市场环境和产业格局综合分析。更多需求基于“使连接产生价值,用数据看见未来”的理念,我们尽可能严谨、客观收集信息和归纳分析;信息源于基因慧旗下GeneMail资讯、大咖论健、产业信息大数据平台YourMapnull、专家咨询、市场调研及联合撰写团队提供信息等合规素材。但由于行业特殊性和信息披露的时效性等因素,内容难免存在不足,信息颗粒度可能无法满足所有场景。如有错漏,欢迎您向我们反馈;如有对更大范围和更细颗粒度的内容需求,欢迎联络我们定制行研报告。法律声明本报告由深圳基因界科技咨询有限公司(以下简称“基因慧”)联合合作方研究的成果,旨在推动基因大数据科技普及、转化应用和创新创业。本报告版权归基因慧所有。未经基因慧的书面授权,任何机构、个人不得以任何形式使用、复制和传播本报告的任何部分用于商业目的。学术研究引用时请注明来自基因慧;侵权必究。基因慧未受聘于任何企业从事此报告研究。本报告不得解释为基因慧专业的医疗决策、产业咨询及投融资等意见,亦不得解释为基因慧对个别产品、机构评价的观点。读者接收本报告即视为同意以下声明:任何机构或个人在引用本报告信息时,须对本报告的数据和结果进行独立调查和判断;由于信息时效性,基因慧对本报告所含信息的准确性或完整性不作任何担保或保证,且明确声明对任何机构和个人不承担基于本报告决策而产生的任何责任。第一部分行业概况一、生命健康新基建 12(一)生命健康新基建的定义 12(二)基因大数据生产及分析流程 17二、发展现状 23(一)市场规模 23(二)转化应用 24(三)行业重难点 28第二部分行业背景三、政策及监管背景 31(一)美国双通路监管机制 31(二)国内基因测序政策及准入机制 32四、市场背景 36(一)数字化与卫生经济 36(二)人群队列研究及全生命周期管理 37(三)大数据重构基因及数字生命健康产业 40(四)智能生产趋势 43五、技术背景 44(一)基因检测技术 44(二)数据分析及解读 49(三)云计算 / 人工智能 / 区块链 /5G 54第三部分基因大数据价值链分析六、基因大数据价值链及商业模式分析 64(一)数据生产 64(二)生物信息分析 67(三)数据解读 72(四)一站式解决方案 73七、投融资分析 76(一)国内外企业投融资状况分析 76(二)投资机会及风险分析 78第四部分创新案例分析八、创新案例 82(一)智能生产平台:诺禾致源 82(二)全流程数字化平台:华大智造 85(三)华为云医疗智能体:EIHealth 88(四)生物信息分析:Ingenuity Systems 和 BIOBASE 93(五)数据分析与挖掘:智因(Chigene)东方 94(六)基因云:DNAnexus 98(七)基因 + 人工智能及硬件加速:NVIDIA 和 Intel 100(八)基因软件加速:Edico 和 Sentieon 102(九)基因 + 知识图谱 105(十)其他 106第五部分未满足需求及发展趋势简析九、未满足需求调研简析 108(一)应用端 108(二)产业端 108(三)研发端 109(四)监管层面 109十、发展趋势简析 111(一)行业层面 111(二)企业层面 112(三)技术及产品层面 115第一部分行业概况一、生命健康新基建(一)生命健康新基建的定义1. 新基建新型基础设施(简称“新基建”,下同)的概念第一次出现是在2015年国务院关于积极推进“互联网+”行动的指导意见中。从2018年开始,新基建被频繁提及,例如在2019年两会、中央政治局会议和2019-2020两年的政府工作报告中,并于2020年4月的国务院常务会议中被正式定义。2020是我国全面建成小康社会和“十三五”收官之年,在全球经济下行压力、疫情等社会和自然不稳定因素冲击下,“新基建”的投资与建设作为逆周期调节的重要手段,也为创新驱动的战略性新兴产业打下坚实的政策支持基础。表 1.1:新基建的相关政策汇总信息来源:各级政府官网、基因慧整理时间 政策 / 会议 内容摘要2015 年 7 月国务院关于积极推进“互联网 +”行动的指导意见(发展目标)物联网、云计算等新型基础设施更加完善。人工智能等技术及其产业化能力显著增强。2018 年 12 月 中央经济工作会议加大制造业技术改造和设备更新,加快5G商用步伐,加强人工智能、工业互联网、物联网等新基建。2019 年 3 月 政府工作报告加大城际交通、物流、市政、灾害防治、民用和通用航空等基础设施投资力度,加强新一代信息基础建设。2019 年 5 月 国务院常务会议 把新型基础设施建设与制造业技术进步有机结合。2019 年 7 月 中共中央政治局会议 稳定制造业投资、加快推进信息网络等新基建。2019 年 12 月关于促进“互联网+社会服务”发展的意见加快布局新型数字基础设施,加快构建支持大数据应用和云端海量信息处理的云计算基础设施,支持政府和企业建设人工智能基础服务平台。2020 年 4 月 国务院常务会议部署加快推进信息网络等新型基础设施建设,推动产业和消费升级。坚持以市场投入为主,支持多元主体参与建设,鼓励金融机构创新产品强化服务。2020 年 5 月 政府工作报告重点支持既促消费惠民生又调结构增后劲的“两新一重”建设:加强新型基础设施建设,发展新一代信息网络,拓展G 应用;激发新消费需求、助力产业升级等。根据 2020 年 4 月的国务院常务会议,新基建主要包括三个方面:一是信息基础设施:信息基础设施主要指基于新一代信息技术演化生成的基础设施,包括以 5G、物联网、工业互联网、卫星互联网为代表的通信网络基础设施;以人工智能、云计算、区块链等为代表的新技术基础设施;以数据中心、智能计算中心为代表的算力基础设施等。二是融合基础设施:融合基础设施主要指深度应用互联网、大数据、人工智能等技术,支撑传统基础设施转型升级,进而形成的融合基础设施。例如,智能交通基础设施、智慧能源基础设施等。三是创新基础设施:创新基础设施主要是指支撑科学研究、技术开发、产品研制的具有公益属性的基础设施。例如,重大科技基础设施、科教基础设施、产业技术创新基础设施等。表 1.2:部分省市公布的 2020 年投资计划信息来源:基因慧整理省级行政单位 重点项目数量(个) 总投资(万亿元)四川 700 4.40重庆 1136 2.60陕西 600 3.38河北 536 1.88河南 980 3.30云南 525 5.00福建 1567 3.84黑龙江 - 0.892020年以来,北京、广东、重庆、湖南等25个省市的 2020 年政府工作报告提及新基建。据基因慧统计,截至 2020 年 3 月 1 日,已有 13 个省市区发布了 2020 年重点项目投资计划,其中 8 个省份公布了计划总投资额,总投资额达 25.29 亿元人民币(见表 1.2)。2. 生命健康新基建2020年4月1日,习近平总书记在浙江考察时强调:“要抓住产业数字化、数字产业化赋予的机遇,加快5G网络、数据中心等新型基础设施建设,抓紧布局数字经济、生命健康、新材料等战略性新兴产业、未来产业,大力推进科技创新,着力壮大新增长点、形成发展新动能。”云上火神山医院、5G 网络云监工、核酸检测自动化、“火眼实验室”等成功应用,充分显现了 5G、大数据、云计算、人工智能等技术在对抗疫情的过程中发挥的作用。依托 5G、大数据、云计算和人工智能等新基建,对于诊断、治疗、健康管理、公共卫生监测等各方面的效率提升有着重要的作用,可以为多个场景的医疗健康需求提供解决方案。把“新基建”的数字技术融合生命健康大数据,构建生命健康新基建,可以通过引入新生产力改变生产方式与生产关系,提高生产效率。图 1.1:全国各层级医疗卫生机构数及相应服务量信息来源:基因慧整理2018年11月底全国医疗卫生机构数(个)19241278132476949983医院 基层医疗卫生机构专业公共卫生机构其他机构医院 基层医疗 其他2018年1-11月医疗卫生机构服务量(亿人次)2.832.340.2(1)生命健康新基建的外部条件生命健康新基建的外部条件,主要是指医疗与公共卫生机构的基础设施建设。对比我国医疗卫生机构数量和医疗卫生机构服务量(见图1.1),可以看出不同层级的医疗机构发展极为不均衡,占比95%的基层医疗机构提供的医疗服务还不到整体服务量的一半,基层医疗卫生机构利用率有待提高。通过5G、大数据、云计算、人工智能等新基建,将提升包括智慧医疗、智能化医疗器械、第三方检验中心、“AI+医疗/健康管理”等医疗健康基础设施建设,从技术体系上改善不同地区、不同层级的医疗卫生机构资源配置效率问题。2020年全国“两会”和连续数年的政府工作报告中,医疗新基建相关内容不断被提及。2020 年 4 月,国务院应对新型冠状病毒肺炎疫情联防联控机制发布关于进一步做好疫情期间新冠病毒检测有关工作的通知:明确三级综合医院均应当建立符合生物安全二级及以上标准的临床检验实验室,独立开展新型冠状病毒检测;对医疗资源相对缺乏、检测能力相对薄弱的地区,选择1家综合实力强的县级医疗机构予以重点支持,实现县域内医疗机构具备核酸检测能力。这需要结合传统的临床检验环境、基因检测技术、生物信息和数据中心等数字技术,实现快速检测和布局基层公共卫生服务网络等。图 1.2:生命的中心法则及其延伸信息来源:基因慧绘制DNA RNA 蛋白质 细胞 组织 系统 个体(2)生命健康新基建的内涵生命健康新基建的内涵,主要围绕着生命的中心法则由DNA传向RNA或由RNA传向DNA,mRNA作为指导蛋白质合成的直接模板,将DNA/RNA上储存的遗传信息传递给蛋白质,蛋白质进而发挥功能并影响人体系统机能(见图1.2)。DNA形成基因组,RNA构成转录组,结合蛋白组、代谢组、微生物组等构成生命组学。基因慧认为,生命组学结合医疗健康信息化、真实世界大数据、人工智能/区块链/5G等数字技术,实现实时、全景、全生命周期的数字生命健康大数据(见图1.3),服务临床诊断、健康管理、公共卫生监测、植物育种、动物器官移植、食品安全、工业微生物发酵、司法安全、数据存储等领域,赋能基础研究、新兴技术转化应用和产业升级。图 1.3:生命健康基础设施信息来源:基因慧绘制随着空气、水、土壤等环境污染,细菌、病毒、真菌等微生物感染形成的疫情日益频繁和严重,重大疾病尤其是癌症、心脑血管疾病等发病率日益提高。2018年中国国家癌症登记中心的数据显示,人从0-74岁有22%的累积概率罹患癌症,从1975-2017年四十余年来全球女性的癌症发病率持续上升。同时,我国癌症平均五年生存率只有美国的 55%。为提高重大疾病防控、实现医保控费、提高人民获得感等,传统技术体系和医疗体系仍需不断完善。“健康中国2030”规划纲要提出加快推动从以治病为中心转变为以人民健康为中心,动员全社会落实预防为主方针,降低疾病发病率,提高全民健康水平。在技术手段方面, 2005年国家科技部等单位联合推出的“中国健康人口基因检测科学社会工程”中指出:基因检测是预防疾病最科学、最有效的手段。从生命内源的需求出发,生命健康新基建的应用方向包括疾病预防、临床诊疗、新药研发,公共卫生监测以及健康管理等领域。在基于生物大分子标记物的疾病分型和精准医疗的理念和实践不断成熟的现状下,生命健康基础设施需包括生命健康数字化信息的采集、数据生产、分析、解读与转化应用等环节,基于大数据实现大规模人群的精准医疗和全生命周期管理。其中,基因数据与医疗健康强相关、极具大数据特点且能大规模转化应用。一方面,基因大数据自身具备生命健康新基建的属性。2015 年奥巴马政府提出的“精准医疗 (Precision Medicine)”计划,强调“在合适时间给合适的人用合适的药”,例如基于基因大样本队列研究等方式对疾病分子分型,然后给患者个性化用药等。发展至今,精准医疗项目已发展为全民健康研究项目(All ofUSResearchProgram)”。以基因检测应用(除了基因检测,还包括基因治疗、基因合成、DNA 存储等)为例,覆盖孕前、产前、新生儿、成年到老年全生命周期。仅无创产前基因检测一项,国内总检测样本数超过 1000 万例。基因数据规模的积累加速 IVD 等产品上市。FDA 从 2015 年开始批准一款靶向药和免疫治疗药物同时批准一款相应的伴随诊断产品,从而指导患者合理用药。2017 年开始,不限癌种的“泛癌种”基因检测大 Panel 开始在美国获批上市。自 2018 年,我国针对非小细胞肺癌研发的肿瘤基因检测小 Panel 被获批 8 款。肿瘤基因检测已孕育出两家市值百亿员级别的基因企业,从伴随诊断正扩展肿瘤筛查、新药发现等应用。另一方面,基因大数据是新基建中针对众多数字技术(云计算、人工智能、5G、区块链等)最具价值的输入之一。从 1998 年起,冰岛、英国、中国等地陆续开展数以十万、百万级别的人群基因队列研究。我国基因企业每年生产 PB 级别数据,同时国产测序仪和试剂盒的上市使得测序成本超摩尔定律下降,从 2007 年的百万美元量级、2015 年的万美元量级到 2020 年约 500 美元(人全基因组测序)。大规模的基因大数据应用离不开“新基建”的数字技术,也正是数字技术可执行的应用场景之一:基于云计算模式的弹性存储、计算和数据中心建设、基于区块链技术的基因大数据共享和溯源、基于5G的数据传输(目前大规模数据传输仍依赖于专线、卡车装硬盘、自建服务器的原始阶段)等。本文中从以上两个角度出发,探讨基因智能生产和分析平台作为“生命健康新基建”之一,如何赋能科研、临床、公卫、健康等领域;同时探讨基因大数据如何与新基建的数字技术结合,实现 BT(生物技术)和 IT(信息技术)的高效融合和技术赋能。 特别说明的是,除此之外,有一点是本报告未详细展开的部分,即基因大数据改变科学发现、技术发明和产业发展的范式。传统以假设为驱动的范式(“提出假设项目设计实践操作数据收集结果验证”)基于已有的、主观习惯的规律,正部分转变为以数据为驱动的范式(“数据收集提出假设实践操作结果验证”),基于客观的数据增加了创新的路径,通过大规模的数据集以及数据中心提高了创新转化的效率。(二)基因大数据生产及分析流程1. 基因大数据基因大数据指的是基于测序、PCR(聚合酶链式反应)、基因芯片、光学图谱等获得的大规模、具有数据挖掘应用价值的多样本基因数据信息。基因慧认为,基因大数据本质是生命数字化的基础信息,包括核心的先天遗传信息以及后天随环境改变的基因变异信息,是生物个体及群体的身份识别、疾病健康生物标记以及生命组装等方面的基本要素。同时,在应用于医疗健康等场景的辅助决策时,需结合医疗信息、表型信息和群体背景信息等。随着百万级人群基因大数据的积累并结合区块链、机器学习为代表的数字技术,基因大数据不仅为基础研究和应用提供了赋能技术,也反哺改变和革新临床表型及疾病分类、诊断、治疗以及生命改造等,正在为科学发现、技术发明和产业发展建立新的范式。图 1.4:基因大数据(以 pan-genome 结构为例)信息来源:DOI: 10.1093/bib/bbw089关于 pan-genome:对于基因数据结构,除了目前的参考基因组组装及数据库、人口级基因队列和区域数据中心建设,2015 年,以德国萨尔大学(Saarland University)生物信息学中心为首的计算泛基因组学联盟开展研讨会,提出基于更丰富的数据结构代替传统的线性参考基因组,即泛基因组(pan-genome),丰富基因数据中隐含的变异、相似性、频率和功能性内容的信息等。综上,在数字经济成为新经济“稳定器”的现状下,大数据作为新的生产要素,是数字经济的核心。基因大数据作为精准医学和全生命周期管理的核心生产资料,通过优化甚至革新生产关系,提高生产力,促进产业发展并助力提高全民健康水平。2. 基因大数据生产及分析流程在基因领域,基因大数据是最基本的生产要素,与其相关的基础设施不仅包括从采样、样本制备(含样本提取、建库、质控等)、到测序(或其他技术)的基因数据生产流程所需的设备试剂盒耗材及软件平台等生物技术基础设施,还包括基因数据的存储、传输、计算、分析及挖掘过程中所需要的信息基础设施。图 1.5:基因大数据生产及分析流程信息来源:基因慧绘制采集样本结果提取 DNA/RNA 样本制备建库湿实验室 干实验室测序生物信息初级分析生物信息二级分析数据挖掘 及解读数据文件构建文库DNA/RNA生物组织样本本报告中,主要基于测序技术(其他技术简单介绍),探讨基因大数据的智能生产及分析环节,包括基因数据的生产、数据处理、生物信息分析及数据挖掘等过程,同时结合应用及一线需求展开。(1)基因数据的生产基因数据的生产过程主要在湿实验完成(注:湿实验是指在传统实验室里采用分子、细胞、生理学试验方法进行研究;干实验是指通过计算机算法模拟,例如生物信息学方法进行研究),对应上图生物信息初级分析之前的步骤。具体过程包括样本采集、文库制备、测序(或基于其他技术的基因读取过程)。主要的衡量指标包括周期(Turnaround Time,即 TAT)、价格(可及性)、有效性等。1)样品的采集、运送和 保存生物样本是基因大数据的来源。根据国家最新标准生物样本库质量和能力通用要求(GB/T 37864-2019),生物样本指的是从人体、动物、植物、微生物或非动/植物类的多细胞生物等生物个体获得或衍生的任意物质。其中,含有人体基因组、基因等遗传物质的器官、组织、细胞等遗传材料(样本)及其产生的数据属于人类遗传资源。对于基因大数据研究的样本,主要形式包括组织器官、细胞、生物体液(血液、唾液、尿液、精液、腹腔积液等)或衍生的 DNA、RNA 等。样本采集需详细记录样本信息(编号、物种、样本类型、质控参数、项目信息等)。在采样过程中应避免污染和干扰,避免样品中病原微生物感染。各种样品的采样过程根据物种类型和研究目的要遵守卫生部微生物和生物医学实验室生物安全通用准则和个体化医学检测质量保证指南等规范中的相关要求。2)DNA/RNA 保存、运输及 提取一般情况,长期保存纯化的DNA样品建议应置入在带盖密封、疏水的塑料管中,冻存在-20环境中;RNA或组织材料则建议保存在-80的环境中,干冰或冰袋运输(除了乙醇沉淀的 DNA 样品可以常温运输外)。基于样品类型及实验要求,实验人员采取不同的方法(目前高通量主要采用磁珠法、低通量主要采用硅胶膜吸附法)对接收到的样本提取DNA或RNA。样本提取后,需对于OD(光学密度)、RNI(RNA 完整值)、浓度等进行严格的质控方可进行下一步。3)文库 制备对于Sanger测序,采用PCR技术分离和扩增待测区域核酸片段,然后对PCR获得的待测片段进一步纯化得到用于测序反应的测序模板。对于NGS测序,提取后的DNA经过超声、雾化、酶切等步骤完成片段化过程,然后进行末端修复、磷酸化修饰、再连接上与测序平台相匹配的接头,完成所需测序片段文库构建,然后进行文库扩增和纯化来完成测序模板制备。4)上机 测序对于Sanger测序,测序模板分别经过双脱氧测序反应和毛细管电泳检测得到测序结果;对于 NGS 测序,基于 SBS、SBL、DNBSEQ 等不同技术原理,通过相机采集碱基配对中荧光标记的信号变化,处理后转换成数字信号,然后传输到计算机处理获取样本的碱基序列信息。单分子测序或纳米孔测序的建库和 NGS 建库方式有所不同,最终测序获得的 DNA 序列长度不同,但格式一样(均是FASTQ格式)。因为序列片段(reads)的长度不同,生物信息处理方法略有差异。为方便描述和理解,以下以 NGS 测序的基因数据处理和生物信息分析为例说明。(2)生物信息分析基因数据的处理和分析,通常称之为“生物信息分析”,是在计算机或计算集群上完成,一般称之为“干实验”(相对上文提到的“湿实验”而言)。生物信息分析主要过程是基于项目要求、数据特征、分子遗传理论和数学算法等编写计算机程序和流程,将测序获得的碱基序列通过比对、筛选、注释等一系列过程转换为生物信息的过程。 简单起见,下文主要以遗传病基因检测流程为例来说明基因数据处理和生物信息分析流程。根据 2019 年 5 月在上海召开第二届基因检测联盟会议形成遗传病二代测序临床检测全流程规范化共识探讨,遗传病基因检测的生物信息学分析流程主要包括数据过滤、序列比对、变异检测、变异注释和相关质控统计等步骤(见图 1.6)。1)数据过滤:生物信息学分析流程通常是从测序源文件 BCL 转化的 FASTQ 开始,在FASTQ 文件中,每条读句都以一定格式的文本保存,每条读句的每个碱基都有对应的质量值,需根据质量值对数据进行过滤。2)序列比对:序列比对是将数据过滤后保留下来的合格读句通过软件定位至基因组相应位置的过程。3)测序数据质控:测序数据质控是根据比对文件计算目标区域的覆盖度、平均深度、重复序列比例、比对到目标区域的读句比例、目标区域每个碱基的测序深度等指标来评价测序的质量。基于探针捕获的测序数据还需要计算捕获效率。4)变异检测:变异检测分为两大类,一类是单碱基变异(Single NucleotideVariant,SNV)和小插入缺失变异(Insertion andDeletion,INDEL);另一类是大片段的结构变异(Structure Variant,SV),其中拷贝数变异(Copy NumberVariation,CNV)指较大片段的重复或缺失变异,而 SV 一般指除 CNV 以外的结构变异如序列倒位、易位等。常用于检测SNV 和 INDEL 的软件是 GATK 和 SMAtools 等。5)变异注释:变异注释是根据基因变异所在基因组坐标范围,对变异位点的变异类型、关联的基因名称以及对应的通路、功能等进行变异致病性解读参考信息的过程。一般使用开源软件或自主开发的软件流程进行变异注释。常用的变异注释软件有 ANNOVAR 等。图 1.6:基因大数据分析详细流程(基于 NGS 数据的遗传病分析为例)信息来源:中华医学遗传学杂志二、发展现状(一)市场规模图 1.7:2012-2025 年全球基因检测行业市场规模信息来源:BCC Research, 基因慧根据 BCC Research 数据,全球基因测序市场总体规模从 2012 年的 35 亿美元增长至 2019年约为130亿美元(见图1.7)。基因慧预测,2020年全球基因市场规模为180亿美元。预计新冠疫情刺激的全球基因市场会至少持续增长两年,2022进入相对稳定增长状态,预计到2025 年全球基因市场规模可达 360 亿美元。图 1.8:2012-2025 年中国基因检测行业市场规模信息来源:前瞻研究院,基因慧基因慧预计2020年国内基因行业市场规模可达149亿元。未来几年内国内基因测序市场的普及率与渗透率会逐步提高,市场规模增势稳健,复合增长率预计将超过35%(见图1.8),到 2025 年市场规模预计约为 727 亿元。(二)转化应用表 1.3:基因大数据转化应用场景信息来源:基因慧整理应用方向 应用场景 应用对象 支付来源 成熟度医疗健康领域科研服务基础研究、临床科研、新药发现等科研机构 / 药企 科研经费 基因编辑和基因治疗 科研机构 / 药企 科研经费 临床服务生育健康诊断和筛查医疗机构 医保 / 个人肿瘤伴随诊断 遗传病辅助诊断 肿瘤液体活检和预后监测 健康管理肿瘤早诊早筛 健康管理中心等 个人 药物代谢和营养代谢 个人 / 医疗机构 个人 祖源分析等其他 个人 个人 公共卫生 传感染检测和监测 政府 / 个人 医保 / 个人 其他分子育种 企业 / 科研机构 企业 / 科研经费 基因合成 科研机构 科研经费 DNA 司法鉴定 司法机构 个人 DNA 存储 企业 / 科研机构 企业 / 科研经费 基因大数据目前广泛应用于医疗健康领域的基础研究、临床诊断、用药指导、新药研发等,以及公共服务领域的公共卫生、司法安全等,并逐步应用到健康管理、植物育种、动物器官移植、食品安全、数据存储等。以下作简单介绍。1. 医疗健康领域(1)科研服务科研服务主要内容包括基础研究、临床科研、新药发现等,用户主体为科研机构、医院和制药公司。基础科研和临床科研作为医学可持续发展的充分必要性条件,为医学的发展提供了强大的支撑,医学科研的创新与突破对实现健康中国战略极其重要。同时,临床的需求痛点也同步推动着科研的创新转化。基因大数据应用基础研究主要包括研究生命活动相关的通路、人类演化和迁徙轨迹(见图1.9)、疾病分子机制、用药反应等。我国近年加大投入基础研究。近四十年相关文献发表数量的复合增长率超过 9%(见图 1.10)。图 1.9:基于基因组数据的分析推断全球主要人类迁徙信息来源:基因慧整理临床科研为临床诊断、治疗、预防等提供科学发现理论、技术发现和工具发明等,近年主要体现在疾病基因图谱、致病基因发现、疾病药物靶点发现、人群队列研究等。例如诺禾致源与海军军医大学长海医院泌尿科研究团队合作展开的迄今为止最大规模的中国人群前列腺癌队列研究,提供了第一个中国前列腺癌基因组和表观基因组全景图谱(CPGEA),该项研究成果于2020年 3 月发表在 Nature。图 1.10:1979-2019 年基因研究相关的文献发表数量持续增长信息来源:PubMed,基因慧整理1979 2019国内药企新药研发正处于起步阶段,在生物药研发热潮下,新药研发将成为科研应用市场新的增长点。国外药企早在 2010 年已开始和头部企业合作,从新药靶点研发、临床试验入组、伴随诊断产品研发等多方面合作。例如:阿斯利康、默克、安进、辉瑞、BMS等药企与国内超过10家基因企业展开伴随诊断合作。国内药企,包括微芯生物、君实生物、信达生物等也和基因企业开展了类似合作。例如2019年10月,诺禾致源与微芯生物合作,为后者开发抗肿瘤新药西奥罗尼针对小细胞肺癌患者的伴随诊断检测方法,并为其提供临床试验样本的检测服务。如果临床试验的结果符合预期,两家公司将共同推动西奥罗尼与该伴随诊断产品在国家药品监督管理局同时获批。(2)临床服务基因大数据应用方面,临床服务市场增速最快。主要的应用场景包括生育健康诊断和筛查、单基因遗传病辅助诊断、遗传性肿瘤等辅助诊断、伴随诊断和癌症早诊等(见图 1.11)。 图 1.11:基因大数据应用生命全周期管理信息来源:基因慧整理孕前产前新生儿儿童中青年老年人携带者筛查NIPTPGD/PGSNIPT Plus耳聋筛查代谢病筛查基因身份证用药指导遗传病检测传感染检测基因体检肿瘤早筛DTC伴随诊断预后监测基因治疗基因大数据应用于生育健康主要包括孕前携带者筛查、产前基因诊断和辅助生殖的胚胎移植前诊断 / 筛查(PGD/PGS)。目前国内最为成熟的应用是无创产前诊断与筛查(NIPT/NIPS),各地物价局定价局限在 800 元 -3000 元之间,部分城市享受政府补贴(例如深圳市)。目前市场格局较稳定,70% 的市场份额由华大基因和贝瑞基因占领。华大基因 2019 年生育健康基础研究和临床应用服务的收入超11亿元。目前国内渗透率不足5%,预计五年内市场规模可达百亿元级。除了生育健康,肿瘤方面临床应用是当前发展最快的方向之一,包括:1)用药指导(基于疾病分子分型,对患者用药进行伴随诊断)2)病情监测(确诊癌症患者的治疗预后、复发监控)3)早期诊断(疑似癌症患者的辅助诊断、高危人群早期筛查)4)易感基因检测(健康人群的患癌风险评估)目前我国市场上肿瘤基因检测的价格区间大致在数千元到数万元之间,基因测序成本下降和业态体系的成熟带来产品普惠于民,但目前的价格相对支付能力仍偏高,有望通过生产设备端及下游大规模样本快检需求来进一步控制成本。结合肿瘤患病人数的增长趋势以及基因检测渗透率,基因慧预计肿瘤应用市场 2025 年市场价值将达 300 亿元。遗传病的筛查诊断方面最成熟的应用是单基因遗传病诊断,主要针对以罕见病为代表的遗传病辅助诊断。此外,新生儿遗传代谢病以及其他复杂遗传性疾病的基因检测由于疾病类型众多,单种疾病患者人群数量较少,临床诊断应用市场相对分散。基因慧预计遗传病筛查与诊断市场规模五年内达到 80 亿元。(3)健康管理健康管理方向的应用主要面向个人消费者,包括易感基因筛查、药物代谢、营养代谢以及其他。易感基因筛查主要针对神经系统疾病、代谢相关疾病等具有明确分子生物标记的疾病;消费级基因检测包括祖源分析、运动表现、营养代谢、皮肤特质等。目前健康管理领域应用产品比较繁杂,市场相对分散,大多数为初创公司,产品处于探索阶段,带有互联网属性。目前发展较快的国外相关企业包括 23andMe、 Ancestry、
展开阅读全文
相关资源
相关搜索
资源标签

copyright@ 2017-2022 报告吧 版权所有
经营许可证编号:宁ICP备17002310号 | 增值电信业务经营许可证编号:宁B2-20200018  | 宁公网安备64010602000642