人类基因组是人类遗传信息的蓝图,破译它能够为疾病诊断、新药研发、新疗法探索等带来革命性进步。然而,人类基因组的测序并不容易,由于其复杂性和巨大性,科学家们花了近40年的时间才完成了首个完整、无间隙的人类基因组序列。

2022年3月31日,由美国国家人类基因组研究所、加利福尼亚大学圣克鲁斯分校、华盛顿大学等机构研究人员领衔的国际科研团队公布了这一重大成果,并在《科学》杂志上发表了6篇相关论文。这一成果被认为是人类基因组测序研究的重要里程碑,将彻底改变我们对人类基因组变异、疾病和演化的理解。

人类基因组含有约30亿个DNA(脱氧核糖核酸)碱基对,这些碱基对构成了人类所有细胞中的遗传指令。1990年,国际科学家团队启动了人类基因组计划,旨在完成人类基因组的测序和注释。2001年,该计划公布了人类基因组草图及初步分析;2003年,该计划宣布完成了人类基因组序列草图。

然而,由于当时的测序技术所限,这份草图中留有许多空白,约占整个基因组的8%。这些空白主要位于染色体的两端(端粒)和中间(着丝粒),以及一些高度重复或复杂的区域。这些区域对于理解人类基因组的结构、功能和演化都非常重要,但却难以用传统的测序方法进行解析。

为了填补这些空白,科学家们利用了新一代的长读测序技术和新型的生物信息学工具,构建了一个名为T2T-CHM13的新参考基因组。该基因组来自一个健康的女性细胞系(CHM13),包含了所有23对染色体(包括X染色体但不包括Y染色体)的完整序列。该基因组增加了近2亿个碱基对的新DNA序列,并纠正了当前参考序列中的数千个结构错误。

通过对比T2T-CHM13和当前参考序列(GRCh38),科学家们发现了许多新颖和重要的发现。例如:

他们发现了99个可能编码蛋白质的基因和近2000个需要进一步研究的候选基因。这些基因中有些与人类的认知能力、免疫系统、生殖系统等功能相关,有些与某些疾病如癌症、神经退行性疾病等有关。

他们发现了人类基因组中最长的基因——DUX4,它位于X染色体上,长度达到了3.5兆碱基对。这个基因在人类的肌肉发育和再生中起着重要作用,但也与一种罕见的遗传性肌营养不良症有关。

他们发现了人类基因组中最复杂的区域之一——着丝粒,它是染色体两端的特殊结构,参与染色体的分离和稳定。着丝粒包含了大量的重复序列,这些序列在不同人群和物种之间存在差异,反映了人类的演化历史和遗传多样性。

他们发现了人类基因组中许多重复片段(segmental duplication),这些片段是基因组中反复出现的、序列相似性超过90%以上的大段序列。重复片段是人类基因组变异和创新的主要来源,也是人类与其他灵长类动物区别的标志之一。重复片段中包含了许多功能未知或未注释的基因,也与一些遗传性或复杂性疾病有关。

这些发现为我们揭示了人类基因组的奥秘,也为我们理解人类的健康和疾病提供了新的线索。此外,这项工作也为我们提供了一个更完整、更准确、更可靠的人类基因组参考序列,为未来的基因组学研究和应用奠定了坚实的基础。