20年前,人类基因组计划发布了第一版人类参考基因组草图,标志着基因组测序领域的重大突破,彻底改变了基因组学、生物学和医学领域。由于当时测序技术所限,这版草图中留有许多“空白”。2022年,在国际科研团队“端粒到端粒(T2T)”联盟的通力合作下,最新版人类参考基因组(T2T-CHM13)问世,包括所有22条常染色体和X染色体的“无缝组装”,共含有30.55亿对碱基[1]。这份参考基因组达到了前所未有的完整程度,解锁了染色体着丝粒等结构复杂区域,为后续进行变异和功能研究提供了重要的基础。

Y染色体是人类两性染色体之一,具有复杂的重复结构(包括长回文、串联重复和片段重复),难以测序和组装。迄今为止,仍有近一半Y染色体序列是缺失的。

近日,T2T联盟联合主席、美国国家人类基因组研究所Adam M. Phillippy博士带领的研究团队在Nature上发布了题为“The complete sequence of a human Y chromosome”的文章。研究团队采用长读长测序技术和新型的计算组装方法,揭示了来自HG002基因组的人类Y染色体(T2T-Y)的完整序列,共包含62,460,029个碱基对,并纠正了人类参考基因组GRCh38-Y中的多处错误,同时还增加了3000多万个碱基对(图1)。

基于百万碱基对序列的参考,该研究还揭示了基因家族TSPY、DAZ和RBMY的完整扩增序列结构,确定了41个新的蛋白质编码基因(大部分来自TSPY)以及提出了异染色质Yq12区域中人类卫星1和3区块的交替分布模式。最后,研究团队将T2T-Y与CHM13基因组相结合,创建了完整且全面的人类22+XY染色体参考序列,并将可用的群体变异、临床变异和功能基因组数据映射到这一参考序列中。

图1. 完整的Y染色体结构。来源:参考资料[2]

研究团队基于PacBio HIFI、ONT和Illumina 三种测序技术以及Verkko算法,遵循T2T-CHM13组装所用的策略,对Y染色体进行了组装,得到的T2T-Y大小为62460029bp。随后,研究团队分析了新组装的Y染色体的假常染色体区域(PAR)、扩增序列和回文序列、着丝粒卫星和q臂异染色质,并对T2T-Y进行了注释,将其与之前的T2T-CHM13相结合,形成了一个完整的人类染色体参考序列:T2T-CHM13+Y。

为验证新参考序列的可用性,研究团队对ClinVar23、GWAS24、dbSNP25和gnomAD26的可用变异数据集进行了改进,并召回了1000 基因组计划(1KGP)和西蒙斯基因组多样性小组(SGDP)数据,以及来自ENCODE数据的表观遗传学图谱。结果显示,当使用T2T-Y作为参考时,XY个体的可映射性和突变调用得到改善。

T2T-Y的组装改进了CHM13基因组开发的组装方法,并促进了二倍体人类基因组组装自动化方法的开发。随着人类基因组完整、准确和无缺口的组装成为常规,表型和基因型之间的关联将愈发紧密,并帮助科研人员探索更多的复杂结构基因组变异。

同一时间,美国杰克逊基因组医学实验室Charles Lee团队在Nature上发布了题为“Assembly of 43 human Y chromosomes reveals extensive complexity and variation”的文章。该研究揭示了跨越182,900年人类进化的43条Y染色体的从头组装,对其遗传和表观遗传变异和组成进行了全面分析,报告了人类Y染色体在大小和结构方面的显著多样性(图2)。

研究人员结合PacBio HiFi和ONT长读长测序数据,组装了来自全球21个不同人群的43个男性个体的Y染色体,其中近一半为非洲裔。这个由43条Y染色体组成的新数据集在核苷酸水平上提供了人类Y染色体18.2万多年间遗传变异的详细视图,揭示了新的DNA序列、保守区域的特征,以及造成Y染色体复杂结构的分子机制。

该研究发现,Y染色体区域有一半会发生大规模倒位,与其他所有染色体相比,其复发率高出两倍多。与倒位相关的扩增序列显示出不同的突变率,这些突变率与序列环境有关,并且一些扩增基因显示出与谱系特异性假基因的获得和清除协同进化的证据。人类基因组中最大的异染色质区Yq12由重复序列组成,其数量、大小和分布都存在广泛变化,但保持1: 1的拷贝数比例。重组的假常染色体区1和XY染色体的非重组部分之间的边界距离目前已建立的边界为500kb。有趣的是,该研究发现在过去被认为是细菌DNA的遗传物质实际上来自人类的Y染色体。

综上,该研究对43条不同的Y染色体进行了全面测序和分析,有助于人们了解其在人类发育进化过程中的全部变异范围,并为基因组稳定性和染色体完整性提供了重要见解。此外,研究还揭示了Y染色体在男性特有的发育、生育以及由遗传引发的疾病(如癌症)中的作用。

图2. Y染色体的大小和结构变异。来源:参考资料[3]

美国杰克逊基因组医学实验室的新闻稿指出:“综合来看,这两篇论文为人类Y染色体提供了有趣的见解,揭示了Y染色体在个体之间的高度变异性,并为未来研究其如何导致某些疾病和病症提供了重要基础。”

综上所述,两篇文章共同揭示了Y染色体的组装和整体结构。这些多样化、完整的人类基因组的组装,以及类似高质量的非人类灵长类动物基因组的组装,将为人类变异和进化提供一个无与伦比的视角。这有助于人们全面了解人类遗传变异,也为将Y染色体序列与特定的人类特征联系起来,以及更彻底地研究人类进化提供了起点。


参考文献:

[1]Sergey Nurk et al. ,The complete sequence of a human genome.Science376,44-53(2022).doi:10.1126/science.abj6987

[2]Rhie A, Nurk S, Cechova M, et al. The complete sequence of a human Y chromosome [published online ahead of print, 2023 Aug 23]. Nature. 2023;10.1038/s41586-023-06457-y. doi:10.1038/s41586-023-06457-y

[3]Hallast P, Ebert P, Loftus M, et al. Assembly of 43 human Y chromosomes reveals extensive complexity and variation [published online ahead of print, 2023 Aug 23]. Nature. 2023;10.1038/s41586-023-06425-6. doi:10.1038/s41586-023-06425-6