近日,我国科学家自主完成了首个人类“端粒到端粒”二倍体完整参考基因组“CN1”,相关工作以封面论文的形式发表于我国本土著名学术期刊《细胞研究》(Cell Research),为精准医学研究及应用提供重要参考数据支撑。


人类基因组构建之路  

DNA中蕴含遗传信息,为了破译人类的遗传信息,实现通过基因组学研究改善人类健康的目标,美国科学家率先在1985年提出了“人类基因组计划”——测定人类染色体(单倍体)中所包含的30亿个碱基对组成的核苷酸序列,绘制人类基因组图谱,辨识其载有的基因及其序列。美国、英国、法国、德国、日本和我国科学家共同参与了这一计划,我国承担了其中1%的任务。2000年6月26日,6国科学家共同宣布,人类基因组草图的绘制工作已经完成。

人类基因组草图公布之后,这一参考序列随着技术的进步不断进行着版本升级,到目前为止,GRCh38.p14是其最新版本,大量的疾病研究都是以此为做为参考开展的。人类基因组计划之后,人类基因组的研究面临两个重大任务,一是如何构建完整的无间隙的个人基因组;二是使得精准医疗可以真正惠及每个个体。

2022年,“端粒到端粒(T2T)”国际研究联盟基于细胞系构建了第一个完整的从头到尾无间隙人类参考基因组T2T-CHM13,填补了最后缺失的约2亿碱基对的测序。

“端粒位于人类染色体的两端,从端粒到端粒的无间隙测序,意味着获得了每条染色体的完整遗传信息。”张国捷如是说。“然而,T2T-CHM13基因组在来源上不属于生物学上的正常个体,并不具有从父母遗传获得的两套存在差异的基因组。这一工作离真正构建二倍体人类完整基因组的目标还有一步之差。”


二倍体基因组道阻且长

据介绍,由于染色体DNA很长,只能将DNA片段化之后再对每个小片段进行测序,然后需要通过算法对数据进行拼接和纠错,组装成染色体DNA。人的体细胞中有46条染色体,也就是22对常染色体和1对性染色体(XX或XY)。由于每对常染色体之间的序列相似度很高,限于算法,往往只能组装出一条“嵌合”的染色体数据,最终得到22条常染色体和两条性染色体(X染色体和Y染色体)组成的单倍体基因组。

另外由于二倍体基因组相比于单倍体会有来自父母本两个非常相似的基因拷贝,这些基因拷贝很容易受到测序错误的影响而断开或者组装错误;其次染色体上面的复杂区域,如着丝粒和核糖体DNA含有的大量重复序列会让拆分同源染色体难度加大。目前已发表的高质量二倍体基因组HG002仍然有几十个未被填补的缺口,这些缺口主要集中在着丝粒区域和Y染色体。


首个人类二倍体完整基因组

浙江大学生命演化研究中心张国捷课题组与深圳农业基因组研究所阮珏团队,以及华大生命科学研究院合作,联合攻关二倍体完整基因组组装解决方案。两个课题组此前在二倍体基因组和复杂基因组组装方面积累了丰富的经验。通过开发算法,以个体的父本和母本数据作为参考系,能够完美地将不同染色体上的数据区分开,将人的46条染色体的数据分别组装出来。然后,对因为数据过于复杂而仍然存在的69个缺口进行了手工补洞。最终,获得了健康个体完整的二倍体基因组。

研究显示,与现有参考序列相比,利用该完整基因组作为东亚人群遗传学研究的参考序列,可以提高东亚人群的序列比对并降低错误率,对单碱基多态性的检测准确率也会更高。该完整图谱的绘制,为我国开展精准医疗研究提供了更准确的参考基因组。