伴随产业数字化在基因行业的逐步深入,特别是生产自动化及智能化、基因大数据与生物计算的发展,不仅从硬件、软件上建立了数字化基础设施,也将生物技术(BT)与信息技术(IT)紧密融合。本文连载《2023基因行业蓝皮书》,从生产自动化及智能化、基因大数据与生物计算两部分谈其应用和价值。


01

生产自动化及智能化 助力行业降本增效

目前,宏观环境及经济环境给基因行业带来较大的成本压力,那么从长期的产品及业务战略上,基因行业如何才能做到降本增效?

以基因检测为例,根据基因慧联合多家机构正参与起草的《临床NGS的自动化及常规化共识探讨》(“共识”),尽管基因检测已成熟应用于NIPT、肿瘤伴随诊断、胚胎植入前筛查、感染病原体鉴定等领域,但并未在临床形成常规化,核心因素是基因检测的临床价值和经济价值未得到更大程度地挖掘。技术上的原因之一是自动化、智能化程度较低,因此影响了使用成本、生产周期和便捷性。主要表现在以下情况: 

实验环节冗长,手工操作步骤多,检测周期较长

批间差异较大,一致性差,特别是生物信息分析不标准化

流程的质控难以把控,数据管理繁杂,数据挖掘不充分

较早实践生物信息自动化的代表是2013年华大的云计算系统 EasyGenomics,通过标准化、模块化和自动化实现部分生物信息分析部署云端,这对于后来具有千万级样本的 NIPT分析流程具有极大的增效作用,基于此进一步优化和发展成了现在的BGI Online等系统。这方面较为成熟的平台包括DNAnexus、Seven Bridges(Velsera)以及BaseSpace(Illumina)。

流程自动化和智能化的代表产品有:

2017年10月华大智造推出的NGS模块化工作站 MGIFLP;

2020年1月华大智造推出的百万基因组自动化产线 MGIGLab-L;

2020年3月诺禾致源推出的柔性智能交付平台Falcon,2022年5月Falcon Ⅱ推出,并在英国、美国、天津、广州等地部署。Falcon Ⅱ集成16台精密仪器,实现 WGS、RNA-seq和 WES 产品从核酸QC到信息分析全流程自动化、24小时智能化作业,单条产线日均样本处理量 96-384 个,实验室人效提升约100%,产品周期最多可压缩60%。

星云基因于2022年发布的“云智一号”全自动化智能检测生产线,检测通量可达到单日20万管样本,同时可将实验室人工成本降低至传统实验室的10%以下。

2023年,百迈客联合Perkin Elmer发布的全自动化实验平台“百灵2000”。

最为成熟的自动化环节是自动化样本制备和文库制备。代表性的自动化样本制备系统是华大智造MGISP系列,涵盖自动化移液、核酸提取纯化、文库制备等功能,是抗疫期间日检样本超10万份的“火眼实验室”的核心装置之一。

其他比较有代表性的自动化文库制备包括安捷伦2019年的发布全自动基因测序文库制备仪Magnis,思路迪于2021年获得II类医疗器械注册证全自动封闭式基因测序文库制备仪ANDiS 500,罗氏诊断 2021年发布AVENIO Edge System全自动NGS建库工作站等,锐翌生物的核酸提取转化一体机Realmaster-32 等。

图/基因检测相关的自动化举例 来源/基因慧

自动化涉及到实验室操作和信息分析的绝大部分方面,关键要素是标准化、模块化以及自动化技术装置。自动化技术装置的厂商包括Thermo Fisher、Perkin Elmer等海外巨头,国内近年涌现专注实验室自动化及智能化的企业,包括合木千行、汉赞迪、耐优生物等。

基因慧认为,未来2~5年,自动化及其进一步智能化是行业降本增效的重要路径,从建库局部环节、生产线自动化到智能实验室,以及手持自动化检测系统。建议更多自动化供应商进入市场联合研发,聚焦大样本、“小快好”、低门槛的产品,同时融合大数据平台。


02

基因大数据与生物计算 基因行业数字化的两大核心

搭建好自动化及智能化生产平台之后,企业如何运营产出高价值、高效的产品?除了生物层面的产品设计之外,还可以借助基因大数据及生物计算,来优化甚至重新设计有竞争力的产品。

基因大数据和生物计算,分别对应生产资料和生产力,二者可独立或融合应用及运营,覆盖到数据库、样本库、生物信息、机器学习(AI)、云计算、区块链、GPU 等。

图/基因大数据和生物计算的技术及产品举例 来源/基因慧

其中,数据库由于其敏感性和权威性,主要由国家认证的公共数据平台提供。长期以来,基因行业数据库主要依赖美国国立生物技术信息中心(NCBI)的数据库,以及欧洲的EBI、日本的DDBJ等数据库。

近几年国家生物信息中心、国家基因库等相关数据库加大建设和逐步投入使用。未来需要进一步加大力度,加强数据孤岛的协作,构建参考基因数据库、各病种数据库及各地区数据中心,促进合规转化利用,为基础研究、医疗服务和产业化提供大数据基线。

样本库在2022年以来较为活跃,主要由各地区的样本库以及医院牵头进行学术交流、基础设施建设和产学研协作,目前还在初级阶段。相对数据库需要大型服务器和数据管理软件,样本库还需要液氮保藏以及智能检索平台等基础设施,例如华大智造推出的超低温自动化生物样本库平台 MGICLab-LT 等。

全球典型的基因样本库是英国生物银行(UK BioBank),2006 年开始试运行,2006年~2010年采集并长期储存了50万名志愿者的血液样本,发布了基于大规模基因组关于罕见病、大脑、代谢组等相关的系列科研成果,2021年公布了20万人全基因组数据,极大促进全球的基因研究及转化。

UK BioBank 经费渠道包括两类:主要是来自英国卫生部、英国医学研究理事会等部门的投资,平均一年约3000万美元;此外是药企及基金会的资助,2019年获得安进、阿斯利康、葛兰素史克、强生、卫尔康信托基金会(Wellcome Trust)等战略合作单位总计 2 亿英镑资金。

在大规模队列分析和大数据挖掘中,机器学习具有极大的价值,特别是数据建模提高面向消费者基因检测(DTC)、肿瘤早筛的准确性以及队列数据的群体分类、分子分型阈值判断等。目前最新的研究方向之一是深度学习,即借鉴生物决策的人工神经网络算法的延伸。机器学习在基因行业的应用还在早期,关键因素是高端人才及研发投入。

云计算在基因领域的应用有三个重要的时间点,分别是2012、2017 以及2022年。近年由于火山引擎、华为云、腾讯健康以及百度(百图生科)等互联网公司的投入,加快市场融合。

目前,云计算的运营模式从早期的大规模存储、高性能计算服务演化到容器化的工作流、数据分析和数据挖掘阶段。BT(生物技术)和 IT(信息技术)的融合在这个领域有较大空间互利赋能,目前两个领域的战略合作共识及研发协作还没有深入,更大价值的产品及市场空间亟待开发。

由于基因云计算市场被头部机构迅速覆盖,而且短期盈利空间小,因此部分基因云计算创新企业转移业务重点到临床辅助决策系统。这个领域具有一定的技术和市场门槛,核心集中在临床辅助决策系统;对于表型和基因型数据的整合,还需要深入的前后端优化甚至重新架构,目前还在产品的初级阶段。

具有代表性的事件是,2023年1月,第41届摩根大通医疗健康大会上,由投资基金Summa Equi促成、Pierian、Seven Bridges 和UgenTec三家公司合并的精准医学公司Velsera宣布成立。

图/《医疗机构临床决策支持系统应用管理规范(试行)》

来源/卫健委官网

临床辅助决策是以原有的医疗决策系统为主,基于信息管理、数据分析系统等提供线上辅助决策,基于AI洞见少量的新知识(insight);随着数据规模和数据挖掘技术的提升,有可能构建完整的信息流、知识洞察工具和数据驱动的独立分析系统,即真正的知识库,对现有的医疗决策、基础研究及产业化将带来范式的革新,产品成熟的时间乐观估计是5~10年。

随着UK BioBank等数以十万级基因大数据的开放,谷歌、亚马逊、腾讯、阿里、华为等互联网公司下一阶段的技术及资金投入,以及公共医疗服务及公共卫生的需求等多因素的综合聚集,将加速这一领域的成熟。

区块链在基因组学领域尚未真正应用,2018 年 George Church 的 Nebula Genomics 成立,激起市场短期热度,但目前在产品上存在极大不成熟及监管不确定性;同时,区块链的去中心化、记录不可篡改性和 Token 机制,可应用于基因等敏感数据的合规流转、确权及数据安全保护。

2022年8月29日,ChinaMAP 曹亚南研究团队与华大智造合作在 Cell 系统生物学领域子刊Cell Systems发表研究成果。研究人员开发了一款支持多方联合进行GWAS全流程分析的隐私计算工具——TrustGWAS。该工具结合了多密钥同态加密和伪随机数扰动两种密码学技术方案,成功实现首个支持全流程 GWAS 分析的隐私计算工具 。2023年5月,华大智造参与编撰的国家标准《GB/T 42752-2023 区块链和分布式记账技术参考架构》发布。