因美纳为英国生物样本库的大规模队列项目提供测序分析支持

图片来源:Marc Dufresne

上周,英国生物样本库向学术界、产业界、慈善组织和政府部门中获得许可的相关科研人员提供了50万份样本的序列分析结果。专家们认为,这一里程碑事件将极大地帮助科学家进行药物发现和其他生物医学开发。

因美纳软件和信息学负责人Rami Mehio表示:“这是一个非常重要的基础性项目,研究人员可以借此获取与表型数据相匹配的大规模全基因组测序数据。”

2006年,英国生物样本库宣布以生活在英国的50万人为对象进行研究,了解疾病与环境、生活方式和基因的相关性。项目招募了40至69岁的参与者,该年龄段是癌症、心血管疾病、痴呆症和糖尿病等疾病的高发阶段。

四年内,这项研究完成了50万名患者的招募和知情同意,并于2012年推出了生物医学数据库。随后,英国生物样本库在2018年宣布了一项重大举措,即对这50万名患者开展全基因组测序。

英国生物样本库副首席执行官Mark Effingham博士表示:“如此大规模的全基因组测序对技术的精确度和灵敏度都有着极高的要求。”因美纳成为英国生物样本库当时首选的技术合作伙伴。

这一项目所开展的全基因组测序(WGS)采用了因美纳NovaSeq™ 6000测序平台,测序地点包括冰岛deCODE Genetics和英国维康桑格研究所。

由安进、阿斯利康、葛兰素史克和强生等业界前沿的制药公司组成的行业联盟为这项雄心勃勃的计划提供资金支持,并在测序完成后与因美纳合作,对数据进行分析。在第一阶段,他们使用了以高效和准确著称的DRAGEN Germline分析流程。这一分析流程与其他大规模群体基因组学计划所采用的分析流程相一致,以便今后对数据进行交叉分析。其他大型群体基因组学计划包括新加坡国家精准医学项目PRECISE、英国Genomics England十万人基因组计划、由美国国立卫生研究院支持的百万自然人群队列研究项目All of Us,以及由Nashville Biosciences牵头的基因组发现联盟(Alliance for Genomic Discovery)。

Mehio表示:“全基因组的基因组分析需要大量计算,在如此规模下,速度、准确性、可靠性和成本都是分析流程选择需要考虑的重要因素。”

在第二阶段,该联盟邀请因美纳使用部署在Illumina Connected Analytics(ICA)云端平台上的DRAGEN联合检出解决方案来整合队列的基因组分析数据。

Mehio还表示:“要把这些数据变成对研究人员有用的数据,仅仅分析单独的样本是不够的,还需要将这些样本作为一个整合队列来进行考量。”

因美纳屡获殊荣的DRAGEN二级分析是能准确挖掘出样本中的变异信息的理想工具,DRAGEN汇集能将其转化为单一基因数据集。

“这可能是目前世界上最大的全基因组测序汇集,”Mehio继续补充道。“ICA上的DRAGEN联合检出解决方案可扩展到数十万个样本,并解决了N+1问题。因此,向队列中再添加10,000个样本时,用户无需从头开始联合检出。

DRAGEN算法已经能够从50万个基因组中识别出约15亿个变异,相当优秀。”Effingham补充道。

Mehio表示:“我们的ICA的基础架构托管在亚马逊网络服务(AWS)上,在扩展和支持大型队列整合方面具有独一无二的能力。我们现在已经完成了多个群体队列项目的类似汇集。该平台能够进行大规模计算,帮助研究人员挖掘和协作处理其丰富的数据集。并且该平台还配备了常用工具,当然还有所有主要的DRAGEN分析流程。”在实现测序和分析的同时,通过这些全球范围内的大规模人群队列项目,因美纳正帮助研究人员更好地了解健康和疾病遗传学。

“通过与英国生物样本库合作,我们将进一步探索针对这些大型队列的基因组数据技术,这将为研究人员从中挖掘出更多统计数据,帮助他们完善模型,更精确地确定药物发现目标和多基因风险评分。”Mehio解释道。

Effingham表示:“庞大的数据集带来的是宝贵的洞察。这将帮助研究人员更好地了解遗传学对于药物发现的促进作用,最重要的是,改善患者的健康和福祉。”