人类的基因组常被比作是一本书写生命的“天书”,书中只有A、T、C、G四种“字母”但字数却高达60亿。DNA分布在23对染色体中,碱基的无穷组合蕴含着人类进化、生老病死的奥秘。21世纪初,人类基因组序列的第一版草图问世。这版草图虽不完整,却已在生物医学领域产生了深远影响,为临床研究、药物开发和医疗实践的发展提供指引。

2022年4月1日凌晨,Science发布“Completing the human genome”重磅特刊!该特刊整期上线6篇封面文章,首次公布了人类基因组的完整序列。至此,人类完整基因组测序计划正式完成,全球科学家近40年的努力也终收获一个满意的成果。这项跨越3年的研究成果,填补了多年前的测序空白,是人类基因组测序研究的重大里程碑,将彻底改变我们对人类基因组变异、疾病和演化的理解。

Science 6连发,公布史上最完整的人类基因组测序结果

Science上线的特刊“Completing the human genome”[1]中包括6篇研究论文(图1),其中一篇是主论文,其他5篇论文分别从5个方面探讨了该完整基因组在人类遗传学上的重要性。5篇论文中的第一篇主要研究segmental duplication等复杂区域;第二篇论文重点介绍了中心粒的结构和其表观图谱;第三篇论文讨论的是该完整基因组如何提高对人类遗传变异多样性的分析;第四篇论文说明了人类基因组重复序列中的基因表达和其表观图谱;第五篇论文介绍了该完整基因组的表观图谱。

1648878546892895.png

图1 研究成果(图源:Science)


填补8%的测序空白解锁最复杂区域

2022年4月1日,第一个完整的、无间隙的人类基因组序列发布,这是继1983年人类基因组计划公布第一个人类基因组序列草案以来的首次再突破。据研究人员称,人类DNA中拥有大约30亿个碱基的完整、无间隙序列,其对于了解人类基因组变异的全谱以及了解对某些疾病的遗传至关重要。因此,科学家们于1990年启动人类基因组计划,并且于2003年完成。但是,当时只是完成了92%的人类基因组测序,未完成的8%,一直受限于DNA测序技术。随着DNA测序技术的发展,国际科学家团队——Telomere to Telomere(T2T)联盟的科学研究,彻底填补多年前的测序空白。

新的参考基因组称为T2T-CHM13,它是增加了近2亿个碱基对的新DNA序列,其中包括99个可能编码蛋白质的基因和近2000个需要进一步研究的候选基因(图2)。此外,它还纠正了当前参考序列中的数千个结构错误。由新序列填补的空白包括五个人类染色体的整个短臂,覆盖了基因组中一些最复杂的区域[2]。例如染色体末端的端粒和在细胞分裂过程中协调同源染色体或姐妹染色单体分离的着丝粒。新序列还揭示了以前未检测到的片段重复(在基因组中重复的长段DNA),这些重复片段可在进化和疾病中发挥重要作用。

1648878619644576.png

图2 红色部分表示T2T联盟解决的先前缺失的序列(图源:Science)

T2T基因组序列代表完成的CHM13基因组加上最近完成的T2TY染色体(CHM13包括X染色体但不包括Y染色体),是UCSC Genome Browser(简称“Browser”)中的新参考基因组。T2T序列在Browser中的完全注释为科学家提供了一种有效的方式,来访问和可视化与基因组和基因组其他元素相关的大量信息。如今有了完整的基因组,科学家就能进一步研究该片段在人类种群中的多样性以及导致疾病的精细遗传点。因此,本次测序工作最大的意义在于通过长读测序技术解决复杂区域的序列结构,为后续的精准医疗和分子诊断提供更为精细的索引[3]。


人类参考基因组或将推动辅助生殖发展

该完整基因组的构建不仅提供了人类基因组模板,更重要是该技术手段将迅速被应用到以基因组学为手段的生物学研究中(图3)。

1648878660384715.png

图3 研究发现(来源:Science)

对于演化基因组学研究来说,此后可拥有较好的人类基因组学模板来研究人类特有的基因片段和人类复杂区域的遗传多样性。特别是对于灵长类演化研究来说,对于我们理解人类和非人灵长类在复杂区域的基因组异质性,有着重要的意义。同时,对于演化研究和基因组学研究来说,研究人员以后可以在单核苷酸水平上去观察中心粒的完整结构,理解中心粒的结构变异和演化。进一步探究中心粒在基因组稳定性中的作用,以及不同疾病中基因组不稳定性和这些复杂区域的关系。

中科院北京基因组研究所博导蒋岚表示,国家二孩三孩政策的相继推出,使得提高人口出生率和人口健康成为国民关注的问题。高龄产妇生育能力下降、难受孕、易流产,与卵细胞和早期胚胎的着丝粒区域异常的表观遗传学状态密切相关。着丝粒区域富含复杂的高度重复序列,在之前的基因组参考序列中留下许多空洞。因此,我们对于人类基因组着丝粒区域的表观遗传学的理解是不完整的。而此次报道的无缝隙人类基因组参考序列,结合三代测序等新技术来研究表观遗传学修饰特别是DNA甲基化,有望克服这个瓶颈。故该成果对于推动辅助生殖技术的发展,也具有重要意义。

此外,科学家也能免费使用该数据去研究其他生物学问题。事实上,在本论文正式发表之前,就已经惠泽更多课题组,日本科研团队已使用T2T联盟此前发表在预印本上的论文数据做出了研究成果。专家表示这些研究加强了我们对于人类基因组的基本认识,同时该技术的创新给我们带来更多的研究方向。未来通过获得不同人类种群T2T基因组来进一步精细研究人类起源和人类基因组多样性将会是很重要的课题。因此,美国国立卫生研究院专门拨款3000万美元经费支持研究团队完成350个人类T2T水平的二倍体基因组测序组装工作。该工作将构建非洲、亚洲、欧洲和美洲等各个不同人群的泛基因组图谱。这个泛基因组图谱将会极大影响我们对人类演化和人类遗传多样性的理解,同时该图谱也会对各类疾病的研究起到至关重要的作用。


参考资料:

[1]https://www.science.org/toc/science/376/6588

[2]First complete, gapless sequence of a human genome reveals hidden regions .

[3]补齐近2亿碱基的遗传信息,迄今为止最完整的人类基因组测序结果正式发布。

[4]Formenti et al. Merfin: improved variant filtering, assembly evaluation and polishing via k-mer validation. Nature Methods. Published online March 31, 2022. doi: 10.1038/s41592-022-01445-y