人类的基因组常常被比作生命的“天书”——a、t、g、c四种碱基构成了dna序列,却配对出超过60亿种可能。中国人群的基因组有何特性?到底是哪些基因突变引起了亚洲人特有疾病?这些始终困扰我们的难题,今天终于有了突破的可能。

由复旦大学、西安交大、中国医学科学院等26家单位联合发布的中国人群泛基因组联盟(cpc)一期研究进展,初步构建了首个中国人群专属的泛基因组参考图谱,为破译中国人群基因密码奠定基础,为“健康中国”“精准医学”战略提供支撑。

6月14日,相关成果以《基于36个族群的中国人泛基因组参考图谱》(“a pangenome reference of 36 chinese populations”)为题发表于《自然》(nature)主刊。这也是我国学者领导的人群基因组研究首次发表在《自然》主刊。

“基因组结构变异大概是生物进化中从微观到宏观演变的关键遗传基础,也是最有可能连接渐变到跃变这个‘鸿沟’的进化密码。”复旦大学校长、中科院院士金力点评,“我相信通过对基因组结构变异的高精度解析,不但能大幅提升‘基因型-表型’关联分析的功效,而且有可能最终帮助我们理解生命演化中重要性状和功能产生的遗传基础和分子机制。”

论文通讯作者、复旦大学生命科学学院教授徐书华表示,下一步,团队将继续扩大族群覆盖度和增加样本量、拓展研究广度和深度、发展核心算法和分析能力,解析新序列的表型及功能,“希望团结国内外更多优势研究力量,把第二期工作做得更好”。


独立自主完成首个中国人群泛基因组参考图谱

人类参考基因组是广泛用于人类遗传学和医学研究的遗传密码“导航图”,是解析人类起源与演化、解析人类表型和疾病的遗传基础的根基。

人类基因组计划(hgp)成立之初,尽管中国作为唯一参与的发展中国家并为人类基因组参考图构建作出贡献,促成人类科技史的重要里程碑上刻有“中国”二字,但目前通用的人类参考基因组皆基于欧洲白人为主体样本构建,难以代表非欧裔族群、尤其我国族群的基因组多样性。即便是一个月前最新发表的人类泛基因组国际联盟(hprc)收集了全球范围的47例样本,也仅包含3例中国汉族样本。

作为人口大国,我国巨大的人口基数和丰富的人群多样性是发展人类基因组学和精准医学的重要优势:西南部高原地区分布着众多藏缅、南亚语系族群,东西方人群在西北部丝绸之路沿线交融,苗瑶语族人群在云贵地区世代繁衍,蒙古、突厥人群曾游牧于北部风沙地,通古斯语族抵抗严寒一路向北,台-卡岱(侗台)族群的先辈亦曾穿梭于南方丛林河谷。悠久的人群历史、丰富的地理气候环境,塑造了中华民族独特的遗传多样性,构成了人类泛基因组研究不可或缺的东方画卷。构建能够代表中华民族遗传多样性的中国人群泛基因组图谱势在必行且迫在眉睫,这将极大提高捕获罕见或低频遗传变异的灵敏度和准确性,支撑服务中国人遗传多样性研究、复杂疾病分子机制研究和精准医学研究与应用。

▲ “中国人群泛基因组联盟”一期36个族群画像集

本次研究的最大成果,就在于从技术上初步构建了我国人群的泛基因组参考图谱,此外还发现了在人类通用参考基因组上缺失的约1.9亿个碱基对的参考序列;新鉴定了约580万个点突变或小变异以及3.4万个结构变异,涉及大量潜在功能原件包括至少1367个蛋白质编码基因;并发现通用参考基因组上缺失的参考序列富集了适应性演化和起源于远古人类的遗传变异,并且与角质化、紫外线辐射应激、dna修复、免疫反应以及寿命等表型或功能相关。这项研究表明,建立我国自己的人群泛基因组图谱十分必要。在重构人类演化历程、挽回复杂疾病研究时“丢失的遗传率(missing heritability)”等研究和应用中,该图谱具有巨大的潜在价值。

从人类基因组计划中国只承担“1%”的图谱绘制任务,到今天中国人群泛基因组图谱“100%”由中国科学家完成,这项研究成果展现了中国生命科学尤其是基因组学科研水平在过去40年间的历史性跨越,为完整构建中华民族参考泛基因组打下了坚实的基础,也为人类参考泛基因组图谱绘制了独特的“中国画卷”。

中科院院士、分子微生物学家赵国屏认为:“这一成果表明我国科学家在人类基因组学领域的研究水平得到了显著提升。我相信这项工作对我国的人类基因组学和医学中的复杂疾病遗传基础研究等领域会起到重要的推动作用。”


从“线性一维序列”到“泛基因组多维图谱”的跨越

与曼哈顿原子弹计划、阿波罗登月计划并称为人类科学史上三大科学工程的人类基因组计划,最主要的成果就是第一次解析了人类遗传密码,构建了一个沿用至今并在不断完善中的人类参考基因组。

人类参考基因组之所以重要,是因为人类虽然是一个物种,其基因组大致相似(如果不考虑结构变异,在组成人类基因组的30亿个碱基对中,大约99.9%是一致的),然而,人类个体的基因组又是各不相同的;而正是这0.1%左右(大约三百万碱基对)的不同,造成了人类各族群、个体间表型不同的遗传基础。

由于目前基因检测技术的限制,无法一次性测通一个人的所有dna,而要将其先打成成千上万份“碎片”,测好后再一一拼接而成。所以,要能够正确使用人类基因组序列,帮助我们认识人类自身特别是与我们健康密切相关的基因组信息,以获得有价值的知识,必须有一张能够指导待研究对象的基因排序和组合的“导航图”,这就是人类参考基因组。

然而,从2001年首次发表人类基因组草图,人类参考基因组经历了数十次的更新迭代,发展到目前广泛使用的第38版本(grch38)。直到2022年从“端粒到端粒”联盟(t2t)构建的“无缺口”的t2t-chm13参考基因组完成图,所有涉及人类遗传学的研究仍然依赖于线性参考基因组。

“对我们而言,以白人为主体信息参考的线性参考基因组代表性很不充分,如果按照此前的‘导航图’,我们中国人的基因‘拼图’碎片会有很多无法匹配上去。”徐书华解释。

▲ 徐书华

今年正值国际人类基因组计划完成20周年,也成为人类参考基因组从“线性一维序列”过渡到“泛基因组多维图谱”的转折年。“所谓线性,就是像写字一样,一行一行地表示基因字符,但是实际上的基因组要比这复杂许多。除了单个字符会变化,语句之间还会形成结构化的变异。”徐书华说,从线性到多维的转变,为完整进行中国人的基因“拼图”提供了可能性。

实际上,基因组的组装一开始就借助了数学中的“图论”思想和理论,加之计算机算法,实现了特定物种基因组元件的顺序排列。泛基因组(pangenome)进一步借助图论的思想和计算技术,将人类多个族群的代表性样本的具有多样性的基因序列以多维图谱形式组装起来,形成一个能充分反映种群基因组结构变异多样性的导航图,从而指导进一步的遗传学和医学研究。随着dna测序和基因组组装技术以及计算分析方法的大幅改进,富含个体遗传多样性信息的图泛基因组替代线性基因组作为人类参考基因组的趋势,将很快成为现实。

本次研究就突破了先前的单一线性序列,开辟全新维度,即体现跨人群、跨种族的差别,形成一张泛基因组图谱。和原先的线性人类参考基因组图相比,这张泛基因组图谱的体量扩大到了前者的近百倍,挽回了大量漏缺的基因序列。

徐书华介绍,这张图谱极其纷繁复杂,以至于离开计算机无法用肉眼直接观察和操作,也因和前不久发布的hprc图谱进行了整合,可以说是目前“全世界最好的泛基因组图谱”。


助力遗传学、医学研究,服务人民生命健康

为了构建高质量高精度的中国人群泛基因组参考图谱,复旦大学徐书华教授、西安交通大学叶凯教授联合国内26家单位发起了中国人群泛基因组联盟(chinese pangenome consortium, cpc),旨在建立我国专属参考基因组和泛基因组资源和分析体系,形成我国自主可控的人类基因组资源与核心技术,支撑精准医学发展,服务“健康中国”战略。

在其第一期研究计划中,cpc对代表中国36个族群的58个样本采用最新的第三代高保真基因组测序技术进行了深度测序,结合最新的单倍型基因组组装方法,获取了116个高质量单倍型基因组,并以图基因组的方式构建了高质量中国人群参考泛基因组。该泛基因组图谱总共包含约3.01 gb个碱基对的序列信息,在现有人类参考基因组的基础上新增了约1.9亿个碱基对的新序列,包含约590万个小变异(单核苷酸多态性变异和小规模插入/缺失变异)和约3.4万个结构变异(structural variation, sv),涉及至少1367个蛋白编码基因复制事件等。其中,约500万个碱基对新序列存在于95%以上的单倍型中,被视为中国人群基因组核心序列,可能与中国人群特有的较为稳定的生物学功能或表型特征相关。

▲ cpc一期核心样本地理分布及语系、族群、遗传聚类关系

cpc泛基因组图谱作为首个中国人群专属的泛基因组参考图谱,与hprc泛基因组图谱相比,在中国人群特有的复杂变异解析方面具有显著优势。cpc泛基因组图谱中新发现了1079个基因拷贝数变异,以及包含药物代谢基因cyp2d6等在内的在中国人群中富集而在其他世界人群中出现频率较低的若干基因拷贝数变异;新鉴定出富集在中心粒、端粒等染色体复杂区域的3.4万个结构变异,其中半数以上仅在单个或两个样本中出现——若不针对中国丰富的族群多样性开展专门研究,将没有机会发现这些遗传变异。研究人员进一步揭示,这些cpc新发现的遗传变异可能与亚洲人群特有的疾病易感性及表型多样性有关。一个典型的例子是α-珠蛋白基因簇,研究人员在该基因区域鉴定出两个中国人群特异性的大规模结构变异,包括一段20kb的缺失序列和一段10kb的重复序列,这将为进一步研究中国人群贫血症的遗传机理和致病机制提供新的线索。

▲ 图形化泛基因组示例及cpc特有复杂变异分布

▲ cpc对我国族群特异的复杂基因组结构变异解析示例

同时,cpc新发现的遗传变异影响了具有潜在功能和经受过适应性进化的基因,这些基因可能与亚洲人群特有的疾病易感性及表型多样性有关,这也证实了将人群专属高质量泛基因组用于基因组学和医学研究的潜力和必要性。此外,研究人员在cpc参考图谱中发现了相当大比例的古人来源基因序列——平均每个族群和每个样本中分别有约15mb和约9.5mb的古人来源新序列——这可能是前期开展大量研究却未在现代人基因组中发现的古人基因渗入序列,或将为东亚现代人基因组中的古人基因渗入研究乃至整个古dna领域提供新的信息资料和线索。

未来,中国人群参考泛基因组不仅有助于中华民族共同体的遗传学研究,还将改变过去依赖主体基于欧洲白人的参考基因组而导致东亚特有罕见变异检出精确度难以提升的困境,应用于我国重大疾病的遗传机制解析,从而提高我国生物医学数据分析的质量和效率,服务人民生命健康。

复旦大学徐书华教授、西安交通大学叶凯教授、中国医学科学院褚嘉祐教授和复旦大学陆艳副教授为论文的共同通讯作者。复旦大学博士后高扬,西安交通大学杨晓飞副教授,中国科学院上海营养与健康研究所博士生陈豪、谭昕江,中国医学科学院杨昭庆研究员以及复旦大学邓恋青年研究员为论文的并列第一作者。该论文共同作者包括复旦大学王宝楠、孔爽、李松洋、崔雨杭、雷畅、赵晓涵、史颖冰、杨子艺,中科院王亦民博士、潘雨闻博士、马森博士,中国医科院孙浩博士,中科院昆明动物所吴东东研究员,江苏师范大学伍少远教授,复旦大学赵兴明教授,西安交大附属医院施秉银教授,复旦大学金力教授,南京医科大学胡志斌教授等。


中国人群泛基因组图谱已公开在线发布:

https://pog.fudan.edu.cn/cpc/#/

https://github.com/shuhua-group/chinese-pangenome-consortium-phase-i

该项研究所涉及的样本信息和数据的公开发表已获得国家人类遗传资源管理部门批准。该项研究得到了国家自然科学基金重点项目、基础科学中心、国家重点研发计划等项目的资助。


论文链接:

https://www.nature.com/articles/s41586-023-06173-7

更多信息请访问cpc网站:https://pog.fudan.edu.cn/cpc/#/

来源:生命科学学院、人类表型组研究院