人类基因组模板的研究始于九十年代,彼时国际人类基因组计划(Human Genome Project)启动了全球范围的合作,旨在解析人类基因组的结构和功能。2001年,国际人类基因组计划成功发布了第一个人类基因组模板,标志着人类基因组时代的开启,该模板具有巨大价值,对人类生命科学和医学研究产生了深远影响。经过二十年全球科学家的努力,目前正在使用的人类基因组模版(GRCh38)提供了人类遗传信息的全面记录,帮助我们了解基因的组成、位置和序列,以及基因之间的相互作用,这对于遗传性疾病、基因变异、个体差异等研究至关重要,但该模版基因组中基因组复杂区域仍然存在大量未知序列。

随着第三代测序技术的快速发展,T2T联盟在2022年发表了人类第一个完整基因组(T2T-CHM13),并对其进行了精准的分析。但是,由于研究范式存在瑕疵,完整基因组T2T-CHM13和GRCh38之间的大尺度基因组差异并未被完整精准表征。重要的是,基因组的大尺度差异对于我们理解人类疾病以及灵长类演化等有着重要的生物学意义。

2023年7月4日,上海交通大学毛亚飞课题组在Genome Biology发表题为“Characterization of large-scale genomic differences in the first complete human genome”的研究论文,利用新范式系统性比较分析了T2T-CHM13完整基因组与现今运用最广泛的参考基因组组装(GRCh38)之间的基因组差异,特别是在大尺度结构变异上的差异(≥10Kbp),并在其中发现了67个新鉴定的差异区域。同时,还开发了一个可视化的结构变异工具网站(SynPlotter),用于系统性分析这两个广泛使用的基因组。本项研究有助于我们理解人类基因组的大尺度结构变异与人类脑疾病和灵长类演化的关系。

2022年,科学家们首次完成了人类端粒到端粒完整基因组的组装。T2T(Telomere-to-Telomere)基因组是目前组装最完整的人类基因组,提供了更为全面和准确的序列结构。先前受到广泛应用的人类基因组组装GRCh38,虽已经过多个版本的更新,但仍然在某些区域存在缺失、不连续或不准确的部分。然而,目前这两个基因组组装之间存在哪些差异仍然缺乏精准的表征。

在本项研究中,研究人员通过整合不同的大尺度变异鉴定方法对于T2T和GRCh38基因组进行了结构变异的鉴定,并且最终鉴定出了694个大尺度的结构变异(≥10Kbp)。然后利用自主研发验证工具进行校正和筛选后,精准表征238个大尺度结构变异,其中多个区域与脑疾病和免疫疾病相关。

图1 GRCh38与T2T-CHM13基因组区域差异分析

在深入挖掘分析这238个基因组大尺度结构差异区域的过程中,研究人员发现了一个有趣的基因组区域,该区域存在于免疫功能相关的KLRC基因簇,研究者从演化、人群分型、和蛋白结构等多个角度深入探索了该基因簇中KLRC2和KLRC3的演化遗传机制。通过AI模拟结果显示,hKLRC2和hKLRC3结构及受体的亲和力差异与免疫功能相关。

图2 人类KLRC2的演化历程及功能结构

随着T2T(Telomere-to-Telomere)基因组相关注释的不断完善、高通量测序技术以及先进基因组组装算法的发展,人们对基因组的认识和理解也将进入一个崭新的时代。而T2T-CHM13基因组的广泛应用也为未来基因组结构研究与分子探针的设计提供了新思路。该研究通过新范式说明了不同基因组模版具有一定的偏好性,这些偏好性可能会影响我们对与疾病和演化的理解。因此,研究人员最后提出全球应该合作共建更具有遗传多样性的基因组模版,这些工作将会对未来的精准医疗、人群和疾病队列等研究提供宝贵的遗传参考。

文章来源“iNature”