日前,北京大学人民医院高占成教授团队与中国科学院北京基因组研究所康禹研究员团队在《基因组蛋白质组与生物信息学报》杂志发表研究论文,首次在世界范围内成功完成从端粒到端粒的中国人全基因组,获得包括Y染色体在内的高质量真实人类二倍体以及完整无间隙的全基因组参考序列——“唐尧”基因组。

“唐尧”基因组相关研究成果发表在《基因组蛋白质组与生物信息学报》,图为当期杂志封面。受访者供图

该研究显示,其DNA序列具有明确的汉族中国人遗传特征。为何“唐尧”基因组具有历史性突破的重大意义?近日,封面新闻记者专访“唐尧”基因组研究团队共同领衔科学家康禹。

# 困境 #

中国人没有自己的参考基因组

34年前,被誉为生命科学领域“登月计划”的人类基因组计划正式启动。21世纪初,首个人类基因组图谱问世,但受当时研究技术所限,图谱中存在8%的序列缺失。直至2022年3月,一个国际科学家团队在《科学》杂志发表研究成果称,此前基因组图谱缺失的大约8%序列已被补上,首个完整的人类基因组图谱正式发布。

国际科学团队“端粒到端粒(T2T)”联盟(以下简称“T2T”联盟)2022年发布的新版人类参考基因组T2T-CHM13,是有史以来首个具有卓越质量的完整单倍体人类基因组。但一个无法回避的困境是,人类基因组计划发展至今,仍然没有中国人自己的参考基因组。

这样的困境,在医学实践中给“唐尧”基因组研究团队负责人、北京大学人民医院呼吸与危重症医学科主任高占成教授带来诊疗上的困惑。作为国家重疾应急专家组成员,高占成接诊了大量来自全国各地的呼吸科疑难病症患者。丰富的临床案例让他意识到,不少疾病综合征在不同种族人群中的临床表现存在明显差异。

“唐尧”课题组高占成(右一)团队。受访者供图


# 初衷 #

为何要绘制中国人的参考基因图谱

据了解,目前肿瘤、遗传病等测序诊断报告,均以美国主导的GRCh37/38为人类参考基因组序列判定正常或变异。而GRCh37/38是由多个人类个体基因组序列嵌合而成的一套基因组,其中约70%的序列来自一个欧非裔个体。在高占成看来,GRCh37/38不但不完整,而且难以代表中国乃至亚裔族群。

临床诊疗中的困惑,让高占成研究团队认为,有必要构建中国人自己的参考基因组。

2020年,设在山西省临汾市中心医院的高占成呼吸病学山西工作室开始筹建,绘制中国人自己的参考基因图谱被提上日程。

“唐尧”课题组康禹(左三)团队。受访者供图

“建立中国人自己的参考基因图谱,目的是更好地服务现代医学应用,所以样本应当更好地代表大多数现代中国人的基因组特征。”康禹向封面新闻记者介绍,最终团队决定从人数最多的汉族群体着手选取研究样本。

据康禹介绍,这次研究的血液样本来自一名世代居住于山西省临汾市洪洞县的汉族健康青年男性。研究团队将该参考基因组命名为“唐尧(T2T-YAO)”,因为这个采样点位于几千年前尧帝建立的古唐国遗址附近。该地区是明代洪洞移民(即历史上有名的“大槐树”移民)的起点。这场迁徙持续近半个世纪,大量移民遍布中国各地并进入东南亚。


# 破局 #

补全二倍体基因组父系和母系

1990年,被誉为生命科学领域“登月计划”的人类基因组计划启动。11年后,该计划发布人类基因组工作草图。2003年,人类基因组测序计划完成。此后数年,国际研究团队不断填补人类基因组空白区,但仍有约8%的序列缺失。

直到2022年,“T2T”联盟填补了缺失的“拼图”碎片,发布了T2T-CHM13新版本参考基因组。而唯一被遗漏的,是人类所有染色体中最小的一条——Y染色体。

2023年,随着两篇研究论文发表在《自然》杂志,人类Y染色体的完整序列终于展现在世人面前。国际基因组计划用了30多年时间终于获得包括Y染色体在内的人类完整单倍体基因组序列。

2022年,“T2T”联盟测的是一个单倍体,即所采用的DNA序列不是来自自然人的组织样本,而是来自女性子宫中的水泡状胎块(葡萄胎)细胞株——CHM13。

“真正的人类基因组应该是两套基因组,一套来自父本,一套来自母本,也叫二倍体。真正意义的完整基因组应该将两套基因组完全解读出来,各自达到T2T水平。”康禹向封面新闻记者表示,完成二倍体基因组的补全,是摆在课题组面前的一个重要挑战。

带着绘制中国人自己的参考基因图谱的使命,“唐尧”项目以最快的速度启动。仅用了不到两年时间,2023年8月,“唐尧”项目组获得来自中国人的真实人类二倍体完整无间隙高质量基因组序列。

经国际通用的评估基因组质量的重要工具Merqury评估,“唐尧”的质量值达到了参考基因组的质量标准,为Q74.69(意为每2950万碱基一个错误),高于T2T-CHM13的质量值Q73.94(意为每2480万碱基一个错误)。

“这个数字说明我们的参考基因组错误更少,拼接质量高于T2T-CHM13。”康禹向封面新闻记者表示,DNA测序和拼接技术的快速进步让他们以较少花费、较短时间完成这件事情,建立中国人参考基因组可谓得“天时、地利、人和的综合有利条件”。

“唐尧”课题组在世界上首次获得包括46条染色体的真实人类二倍体基因组序列,能99.99%准确地区分来自父本和母本的两套单倍体基因组序列。


# 曙光 #

构建中国人基因组技术体系

在中国科学院北京基因组研究所原副所长于军看来,“唐尧”基因组是中华民族群体遗传学研究的一个新起点。推进其他有代表性的个体参考基因组测序,并开展不同民族等群体的测序,加快构建中国人自己的基因组研究的步伐是未来一段时间的重要工作。

20多年前,在人类基因组计划的基础上,美国提出全新的大科学计划——精准医学计划。该计划最终目标是测定每一个人的基因组,也被称为“全民基因组计划”。

在高占成看来,一旦全民基因组计划完成华人在内的基因组测序,有可能形成“外国人比我们自己更了解中国人基因组”的局面。

“要避免这样尴尬的局面,构建中国人自己的基因组技术体系至关重要。”康禹对封面新闻记者表示,基于中国人自己的参考基因组发展服务华人的靶向测序、基因组分析和诊疗技术,并推动未来的新药研发是该项研究更重要的现实意义。

近年来,国际科学家联合成立了人类泛基因组联盟(HPRC),试图建立更精准完整的世界主要人群的参考基因组。去年5月,HPRC制作的首个人类泛基因组参考草图在《自然》杂志发布,将全球47个样本纳入其中,其中包括3例中国南方汉族样本。

封面新闻记者注意到,基因组领域最主要的两个国际联盟——国际人类泛基因组联盟、国际T2T基因组联盟,其重要成员均来自欧美的大学和研究所,我国研究机构和实体并不在内。

“唐尧” 基因组提示了中国人和欧洲人基因组水平的显著差异。对照“T2T”联盟发布的新版人类参考基因组T2T-CHM13,“唐尧”显示出11%差异序列和5%差异基因。

“‘唐尧’基因组揭示的中国人和欧洲人基因组水平的差异是不容忽视的。下一步,我们将对‘唐尧’进行进一步解析和注释,让它能更好地应用于临床。”康禹表示,对个体而言,用亲缘关系最近的参考基因组能显著提高遗传变异判断的准确性,是实现精准医学的技术基础。推广使用“唐尧”作为中国人临床基因组测序分析的参考基因组,将摆脱“用欧洲人的参考基因组来定义中国人的遗传变异”的局面。