基因检测是指通过特定设备对被检测者细胞中的DNA分子信息作检测,分析其所含有的基因类型和基因缺陷及其表达功能是否正常的一种方法,从而做出对疾病筛查、诊断、复发监测、靶向用药指导、疗效及预后等的技术。测序技术的出现,直观而深刻地揭露了核酸分子的深层信息,为人类进一步探索基因结构与功能提供了决定性的技术手段。

以二代测序和三代测序为主的高通量测序在过去20年中飞速发展,与之相关的基础应用、科研探究以及临床应用随之大幅增加。同时随着“精准医疗”的快速发展,临床应用上对高通量测序的需求越来越大,病原学诊断、检测与遗传病、肿瘤等疾病的精准诊断等应用领域对高通量测序技术的要求也越来越高。

高通量测序技术作为精准医疗的重要基石,对精准医疗做出了极大的贡献,除在临床相关的病原微生物检测、临床肿瘤学、遗传疾病检测、传染病监测以及新型病毒的发掘等方面发挥出优势;在新冠肺炎疫情等几次世界性范围的传染性疫情防控工作中均发挥了非常重要的作用。


基因测序业务流程

基因测序的业务流程主要包括原始文库数据置备(样本上机、测序文件生成)、测序数据处理(基因序列比对、数据处理)、结果检测分析(变异检测、注释、分析、解读),报告结果交付(将结果数据及报告交付至用户或各科研医疗机构并进行归档)。

基因测序业务流程

其中,基因序列比对、结果检测分析等环节极为耗时,涉及大量的生信领域专业软件,计算资源的算力性能、存储资源的IO性能及方案优化对提升生信研发效率起着至关重要的作用。

基因测序面临的痛点与挑战

数据产生速度快,要求大容量高性能存储:测序仪的通量越来越高,高通量基因测序仪每日数据量在TB级别。以一台华大智造DNBSEQ-T7为例,四载片连载日产数据量高达6Tb,一天24小时可完成60例个人全基因组测序,单日可产生6TB数据,一年能产生2PB左右数据量,且生信分析过程中一般会产生数倍于原始数据量的中间文件和结果,存储系统需实现低成本的海量基因数据长时间存储及数据在线分析、归档等生命周期管理需求。

此外从测序仪下机的单个原始数据通常为几GB、数十GB大小的文件,用户需将原始数据快速导入到存储系统中,而后开始对原始数据进行分析和解读。存储系统需提供超大容量的存储空间并支持大容量单文件存储,同时具备在有限时间内完成大量原始数据并行导入的超高性能。

测序比对分析数据量大,要求高业务连续性:完整的基因测序数据分析过程中,环节复杂,产生的数据量非常巨大,且中间结果特别多,参考数据知识库繁杂,同时业务系统需支持多用户同时进行在线作业分析。故运行数据分析Pipeline流程对实时性、稳定性要求非常高,一旦存储或计算系统出现故障,测序数据分析就会中断,甚至整个分析的Pipeline要重新进行。要求存储系统满足7*24h连续高压作业的要求,保证长时间的高稳定运行,保障整个业务的连续性。

复杂业务分析计算,要求高并发文件读写:基因数据分析过程根据不同的应用需求、专业软件,要求计算和存储资源可支撑混合负载需求,例如典型的 WGS(人类全基因组测序)流程,由于涉及文库索引构建、reads 比对、排序、去重、BQSR 校正以及 Caller 等环节,方法多样、流程繁复,且不同步骤对应BWA、GATK 等不同的软件及参数,不同的生信软件可能又对应不同的并发能力及性能,这些需要通过各种类型生物信息学Pipeline对其进行分析,而相应Pipeline中的软件对计算资源、存储系统IO读写能力要求各不相同。且通常在运算过程中需要同时对成百上千样本数据进行分析,例如:reads比对时要求极高单线程性能,Caller变异时要求多进程同时分析;故要求底层存储系统可支持复杂的高并发读写,满足复杂业务分析计算的要求。


基因测序高性能存储解决方案

UIT结合UITCloud云平台及UDS统一分布式云存储产品,为基因测序场景提供高性能的计算存储一体化整体解决方案,其中UDS10000分布式云存储是针对复杂应用环境自主研发的新一代高性能海量云存储系统。采用分布式Scale-out体系架构,支持EB级单一命名空间,弹性扩展存储容量及性能,具有较高的高可靠性、可用性及高并发访问性能,可帮助用户建设统一的基因数据共享资源池,为上层业务应用平台提供一体化的底层存储底座。

UDS云存储通过NFS/CIFS/POSIX多协议服务共享访问,可支撑各业务阶段数据不同协议访问需求,避免数据迁移,通过全局统一资源池,实现基因测序分析过程全局数据共享,提升存储资源利用率。

通过元数据集群及访问协议等针对小块IO读写进行定向优化,有效提升复杂业务场景下高并发文件读写性能,满足测序作业的大文件小IO读写要求;采用Scale-out横向扩展,可快速完成集群节点扩容,满足不同阶段业务对存储空间及性能的需求,有效降低早期的投资成本,且存储集群支持在线不停机扩容,增加或删除节点、硬盘不影响业务正常运行,有效保证基因测序业务的连续性。

AD/LDAP域用户认证、ACL访问控制、分级存储等丰富企业级功能,可满足多用户对整个存储系统不同数据访问权限及管理的需求;并通过冷热数据自动分层存储特性,满足冷/热数据分级管理需求,实现热数据实时在线分析,海量冷数据低成本存储,有效提升存储效率、数据分析处理能力;帮助用户提升生信分析研发的业务效率。