生命科学领域自21世纪初以来迅猛发展,自动化高通量筛选、DNA合成、CRISPR基因编辑等技术加深了人们对生命科学的认识。随着人们的科学认知水平不断提高,基因测序技术逐渐拓展,至今已发展到第三代。这个过程中,信息技术的推动起到了至关重要的作用。事实上,现在阻滞生物技术进一步普及的瓶颈已然不是生物技术本身,而是信息技术的发展。数据的收集、存储、分析成为生命科学的中心主题。


客户简介

求臻医学,现为国家高新技术企业,国有参股混合所有制企业集团,肿瘤精准医学大数据平台承担单位。求臻医学以新一代基因测序和先进信息挖掘技术为基础,依托《中国肿瘤基因图谱计划》和《肿瘤精准医学大数据平台》项目,深度融合基因检测和人工智能,致力于肿瘤液态活检领域诊断产品的开发及智能迭代升级,业务涵盖肿瘤早筛、伴随诊断、动态监测、预后评估等多场景应用领域;同时不断探索发现中国人肿瘤基线及特异的生物标志物,助力抗肿瘤药物的研发。


基因测序背后的压力

为助力肿瘤NGS领域的产品研发、学术研究等方面的应用,求臻医学独立研发了专注于肿瘤精准诊疗的生物医学信息化平台。利用该平台的自主知识数据库、临床信息采集系统、数据注释接口(API)等模块系统,可实现数据的分析调用,为基因检测客户生成个体化的检测报告。

在数据的分析调用过程中对整个信息平台数据存储的基础设施有着较大的挑战和要求:

首先,是存储数据量的需求。一个完整的基因测序样本会产生千万量级的文件,据了解,目前一台先进的测序仪、分析仪等设备每天捕捉的测序数据平均水平已达到4TB,加之基因信息分析过程一般会产生原始数据量5倍左右的中间文件及结果,因此PB级别存储空间已经成为存储设备的基本要求。

其次,是数据可靠性的需求。肿瘤基因检测数据作为肿瘤精准诊疗核心数据,检测数据通常需要长期保存多年,通过合理的生命周期管理系统进行归档保留,数据的自动化迁移归档、数据的安全性、存储的易扩展性是数据归档存储考虑的重要因素。

最后,基因测序访问实时性要求高。基因测序过程是一个超高并发的文件转换过程,整个生产过程有非常密集的文件读取和写入。整个生物样本的导入过程对文件存储的性能有着极高的要求,满足科研任务对不同文件高带宽的存储需求,既要文件系统必须提供超大文件数量的支持,同时必须在有限的时间内完成海量小文件的导入。


释放数据之力 加速测序进程

针对求臻医学信息化平台的相关需求及基因测序的业务特点,浪潮信息携手合作伙伴北京英信未来科技有限公司为求臻医学提供专业化的存储解决方案。

该方案采用AS13000G6高密分布式存储,节点间管理网络采用千兆交换机,通过100GB高速IB网络连接前端并行计算业务集群,为前端业务构建了一套大容量、高可靠、高性能、低延迟的数据存储服务。

在容量方面,AS13000分布式存储集群由5节点组成,每节点提供35块8T大容量硬盘配置,可提供PB级存储容量,满足海量数据存储需求。值得一提的是,该解决方案可实现分钟级扩充,最大可扩展至5120节点,在扩容同时可保障业务性能无明显波动,性能与容量随着节点的扩展而线性增长,避免对现有计算任务读写访问性能造成影响,使得存储系统的容量、性能在未来可随时按需扩展。

在可靠性方面,浪潮信息分布式存储平台AS13000G6有副本和纠删码两种数据保护方式,为用户提供多层级的数据保护及容灾功能,充分保证检测任务以及前端计算任务7x24小时的连续读写访问。结合信息平台检测数据需要长期保存的业务特点,浪潮信息采用三副本的数据冗余保护方式,同时,还可搭配InView智能管理平台,对基因测序数据中心的设备进行管理,提供容量、性能、故障等预测性分析智能化功能,帮助运维人员预防硬件潜在故障,降低了存储的复杂性,同时也有效的维护了成本。

在性能方面,浪潮信息分布式存储解决方案针对基因测序数据特点采用冷热数据分级存储搭配全局缓存技术,实现热数据快速响应,延迟降低40%。针对于对象类型数据,采用对象聚合技术,来提升单次落盘的对象大小,降低落盘操作次数,单节点恒定聚合带宽达2GB/s以上,确保基因测序任务的读写性能。

拓扑图


项目总结

目前,基因测序应用从科研服务的基因图谱、遗传多样性,到医疗服务的疾病早筛和治疗都在大幅拓展,对未来提升医疗智慧水平意义重大。浪潮信息始终坚持通过数字的力量,为基因测序基础研究储能,驱动精准医疗能力提升。