几十年来,在研究人员的共同努力下,为人类组装了一份相对完整的分子指令副本——人类基因组图谱。第一稿于 2000 年完成,但它仍然有几处缺失。即使在 2022 年发布了完整的参考基因组,他们的工作仍然没有完成。

单个参考基因组不能包含已知的遗传变异,例如决定一个人是否具有 A、B、AB 或 O 型血的基因变异。此外,参考基因组并不能代表人类祖先的广泛多样性,这使得它在检测疾病或寻找治疗方法方面的应用受到限制。

在过去的三年里,60 个机构的 119 名科学家参与了一项名为人类泛基因组研究联盟的国际合作,通过创建一个新的、更具代表性的人类基因组图谱——泛基因组来应对这些挑战。

2023 年 5 月 10 日,人类泛基因组参考联盟在《Nature》上展示了人类泛基因组参考的初稿。泛基因组包含来自一组遗传多样性个体的 47 个分阶段二倍体组装体。这些组装覆盖了每个基因组中超过 99% 的预期序列,并且在结构和碱基对水平上的准确度超过 99%。


使用图表构建泛基因组

在高通量 DNA 测序的分析工作流程中,测序仪器读取个人基因组的数百万个短片段,然后使用称为映射器或对齐器的程序估计这些片段相对于单个线性人类参考序列的最佳位置。接下来,变异识别软件识别个体序列相对于参考序列的独特部分。

但是由于每个人类都携带一组不同的序列,因此无法分析存在于个体 DNA 中但不在参考基因组中的那部分序列。一项针对 910 名非洲人的研究发现,共有 3 亿个 DNA 碱基对——大约 30 亿个碱基对参考基因组的 10%——不存在于之前的线性参考中,但它至少存在于这 910 个个体的其中一个身上。

为了解决这个问题,该联盟使用了图形数据结构,这对基因组学来说非常强大,因为它们可以同时表示许多人的序列,这是创建泛基因组所必需的。图基因组中的节点包含种群中已知的序列集,通过这些节点的路径紧凑地描述了个体 DNA 的独特序列。

图示:图基因组示意图。(来源:论文)

图示:基因组主要组织相容性复合体 (MHC) 区域的实际图形基因组。(来源:论文)

使用图表会带来许多新挑战。他们需要高度准确的参考序列,并开发可以使用其数据结构作为输入的新方法。

新的测序技术(例如一致性测序和分阶段组装方法)在解决这些问题方面取得了突破。

一次读取较大的基因组片段(一万到数百万个 DNA 碱基)的长读长测序技术,对于创建高质量参考序列至关重要;与早期技术读取的短片段相比,较大的片段可以更容易地拼接成组装的基因组。尽管长读长测序在参考基因组创建方面具有优势,但针对长读长技术的信息学方法开发较少。


进化 DeepVariant 以进行纠错

谷歌开发了 DeepVariant,这是一个开源的 CNN 变体调用框架,用于分析基因组局部区域的短读测序证据。研究人员通过重新训练 DeepVariant ,从而对 Pacific Bioscience 的长读数据进行准确分析。

图示:DeepVariant 的训练和评估示意图。(来源:论文)

DeepVariant 使用多种长读长测序模式的能力,在 Telomere-to-Telomere (T2T) 联盟的研究中被证明对纠错有效,该联盟产生了人类基因组的第一个完整组装。完成第一个基因组,为构建泛基因组所需的多个参考基因组的构建奠定了基础。

随着一组高质量的人类参考基因组的出现,开发可以使用这些组件的方法变得越来越重要。该团队与 UCSC 合作,为基于图形的变异检测构建了一个端到端的分析工作流程,并展示了数千个样本的准确性提高。使用泛基因组可以正确识别许多以前遗漏的变体。

图示:使用泛基因组参考与先前的线性参考相比,KCNE1 基因(具有与心律失常和猝死相关的变异的基因)中变异调用的可视化。(来源:论文)


使用 transformers 改进泛基因组序列

正如新的测序技术促成了新的泛基因组方法一样,新的信息学技术也促成了测序方法的优化。谷歌采用了从人类语言分析到基因组序列的 transformer 架构来开发 DeepConsensus。实现这一目标的一个关键推动因素是可微分损失函数的开发,该函数可以处理测序数据中常见的插入和缺失。这使研究人员能够在不需要解码器的情况下获得高精度数据,从而允许跟上 TB 级音序器输出所需的速度。

图示:DeepConsensus 的 transformer 架构。(来源:论文)

图示:对齐损失函数对模型输出训练评估的影响。(来源:论文)

DeepConsensus 提高了仪器数据的产量和准确性。由于 PacBio 测序提供了 47 个基因组组装的主要序列信息,研究人员可以应用 DeepConsensus 来改进这些基因组组装。通过应用 DeepConsensus,联盟成员构建了一个基因组组装器,能够达到 99.9997% 的组装基础级准确度。

研究人员还开发了多种新方法来改进基因测序方法,并将其用于构建泛基因组参考,从而实现更稳健的基因组分析。

研究人员表示,这只是故事的开始。在下一阶段,将会有更多的全球科学家和临床医生使用这个泛基因组作为参考,来研究遗传疾病和制造新药。未来的泛基因组将代表更多的人类个体。

论文链接:https://www.nature.com/articles/s41586-023-05896-x

相关报道:https://ai.googleblog.com/2023/05/building-better-pangenomes-to-improve.html