8 月 24 日,随着两篇最新研究论文在顶尖学术期刊《自然》正式上线,人类 Y 染色体的完整序列终于展现在世人面前。这条染色体是人类的性别决定染色体之一,也是人类 46 条染色体中最后一条完全解码的染色体。

人类 Y 染色体是人类基因组中最后一条得到完整测序的染色体

(图片来源:参考资料 [ 3 ] ;Credit:Darryl Leja, National Human Genome Research Institute)

2022 年,在国际科研团队 " 端粒到端粒 " 联盟(T2T)的通力合作下,最新版的人类参考基因组(被命名为 T2T-CHM13)问世,包括所有 22 条常染色体和 X 染色体的 " 无缝组装 ",含有 30.55 亿对碱基。这份参考基因组达到了前所未有的完整程度,解开了染色体着丝粒等结构复杂的区域。然而,人类参考基因组中的 Y 染色体,仍有一大半序列是缺失的。

Y 染色体成为人类基因组的最后谜团,与其重复结构的异常复杂有关。所有染色体都有一些重复序列,但在 Y 染色体中,重复序列所占的篇幅特别大,将近一半——约 3000 万个碱基是重复序列,因此要把测序读取到的片段重新拼装起来就特别困难。玩过拼图的朋友知道,缺乏线条的纯色图案最具挑战性。

为了解决这一难题,T2T 联盟领导的这项新研究应用了前沿的长读取测序技术和新型的计算组装方法,借鉴此前无缝组装人类其他染色体时的成功经验,首次完成了 Y 染色体的测序和组装。其结果填补了 Y 染色体长度 50% 以上的空白,同时纠正了原先人类参考基因组序列中 Y 染色体上的多个错误。

全球 100 多名研究人员组成的团队对人类 Y 染色体进行了全面测序

" 最大的惊喜是,那些重复序列是如此有序。" 论文通讯作者、T2T 联盟的联合主席 Adam Phillippy 博士在美国国立卫生研究院(NIH)的新闻稿中指出," 过去我们不知道缺失的序列是如何组成的,有可能非常混乱。但事实相反,染色体中近一半由两段特定的重复序列——即‘卫星 DNA ’——交替组成,构成了拼布一般的图案。"

根据此次获得的完整序列(T2T-Y),人类的 Y 染色体由 62,460,029 对碱基组成。科学家们从中新鉴定出了 41 个过去未知的蛋白编码基因,也揭示了影响生育的重要基因组特征。

一条人类 Y 染色体的完整序列(图片来源:参考资料 [ 1 ] )

例如,Y 染色体有一段被称为 " 无精子症因子区 ",包含了与精子生成有关的几个基因。而这段 DNA 中有一组回文序列。这种回文结构会形成环状结构(DNA loop),有时 DNA 环被意外切断,造成缺失。而 " 无精子症因子区 " 的 DNA 缺失会破坏精子生成,导致不育。研究人员指出,有了完整的 Y 染色体序列,现在就可以更精确地分析这类缺失及其对精子生成的影响。

这项研究还重点关注了 TSPY(testis-specific protein Y)基因家族,即睾丸特异性蛋白编码基因,新发现的 41 个基因中有 38 个属于这一家族。它们的一大特征是串联重复拷贝非常多。研究人员在分析这一区域时发现,不同的个体含有的 TSPY 拷贝 10~40 个不等。

Y 染色体不仅结构复杂,还是人类染色体中变化速度最快的染色体,《自然》同期发表的另一篇研究论文便揭示了 Y 染色体在不同人群中的演化和变异。

研究团队一共组装了 43 条来自不同男性个体的 Y 染色体,他们来自全球 21 个不同种群。这些组合提供了人类 Y 染色体在 18.3 万年间遗传变异的详细视图,揭示了新的 DNA 序列、保守区域的特征,并揭示了造成 Y 染色体复杂结构的分子机制。

完整的人类 Y 染色体序列将为许多新发现打开大门。除了与性别决定有关的特征外,Y 染色体上的基因对人类的其他性状和疾病也有影响,比如癌症的患病风险和严重程度。基于 Y 染色体的完整序列,后续将有更多研究可以围绕影响癌症或其他疾病的临床相关基因深入探索。

一些研究发现,拥有 Y 染色体的人随着年龄增长会丢失部分或全部 Y 染色体,但科学家们还没有完全弄清这种情况为什么会发生、可能产生哪些影响。现在,解开这一谜团将变得容易。

在意料之外的领域,研究论文也提供了一个有趣的发现:在过去有些研究中被认为是细菌 DNA 的遗传物质实际上来自人类的 Y 染色体,也就是被人类样本污染的结果。因为这些细菌样本在采集时,通常提取自人类皮肤,而过去由于人类参考基因组中 Y 染色体的大部分序列都是缺失的,一些未能被正确识别的序列就被误以为是细菌的。研究人员指出,更新的序列数据有望对细菌基因组的研究提供帮助。