短串联重复序列(STR;也称为微卫星)是1–6个碱基对的串联重复序列,约占人类基因组的3%。STR重复结构使其比基因组其他部分有更高的突变率,其大多数突变是由于重复单元的扩增或收缩,导致的长度多态性。约60个STR基因座已被发现与一系列孟德尔疾病有关,包括共济失调、肌萎缩性侧索硬化症、亨廷顿舞蹈症、额颞叶痴呆和各种神经系统疾病。大量多态性STR(pSTR)已被发现可以调节各种分子和细胞过程,如DNA甲基化、基因表达和选择性剪接,可能影响人类的复杂性状。

尽管STR具有广泛的变异与重要的功能,但由于序列的重复结构以及序列长度可能超过短读测序的读长,STR变异的分析难度大。STR分析的不足,也普遍被认为是导致人类性状和疾病的“遗传力缺失”问题的原因之一,揭示pSTR对复杂性状的贡献是一个长期的研究目标。因此,迫切需要构建一个完整、准确的人类基因组pSTR变异图谱。目前缺少对人群STR变异的大规模研究,构建包含中国人群在内的世界人群pSTR图谱,有助于弥补这一缺失,补充人类基因组STR多态性。

为此,中国科学院生物物理研究所徐涛院士团队和何顺民研究员团队,于今日在Nature Communications在线发表了题为Characterization of genome-wide STR variation in 6487 human genomes 的文章,介绍了该团队关于STR的最新工作。该研究针对包含中国人群在内的世界人群构建了全基因组STR变异图谱,并对STR的基因组分布、突变特征、功能影响、基因调控效应、人群特征与人群差异等进行了系统分析,构建了一个全面的STR变异资源库。该工作是中国科学院生物物理研究所徐涛院士、何顺民研究员牵头的 “女娲”(NyuWa)中国人群基因组资源的一部分。“女娲”(NyuWa)中国人群基因组资源前期已经发布了两项工作。一是2021年发布中国人群SNP/Indel变异图谱、基因及非编码基因功能丧失型变异图谱,以及首个中国人群特异的大规模高深度单倍型参考面板 (Cell Reports, 2021, Cell Reports | 徐涛/何顺民团队发布“女娲”基因组资源,提供中国人群遗传变异图谱和参考面板) 。二是2022年系统分析和挖掘了5675人的全基因组数据(含“女娲”中国人群数据2998例),发布全球人群移动元件变异图谱,构建了目前含中国人群数目最多的全球移动元件变异资源 (Nucleic Acids Research, 2022, “女娲”基因组计划第2篇 | 徐涛/何顺民团队发布中国人群可移动元件插入变异图谱)。

该项工作中,研究团队结合来自“女娲”基因组资源的3983个高深度全基因组测序数据和来自千人基因组计划的2504个高深度全基因组测序数据对STR变异进行了系统性地鉴定。经过严格的质量过滤,共鉴定到366,013个多态性STR位点(pSTR)上的超过155万个等位基因,其中约1/3(523,063个)等位基因为女娲数据集中特异发现的(图1)。

图1. 该研究鉴定的pSTR位点及pSTR allele数量

基于此pSTR数据资源,研究团队分析了STR位点的突变模式,发现STR突变受单元长度、染色体环境和表观遗传特征的影响。研究人员发现单元长度为6个碱基对的pSTR在亚端粒区域内富集,而其他pSTR或mSTR未发现在此区域内富集(图2)。

图2. pSTR的变异模式

为分析pSTR潜在的基因调控效应,研究人员鉴定了3273个与基因表达相关的STR位点(eSTR)以及1117个与3'UTR选择性聚腺苷酸化相关的STR位点(3’ aSTR)。研究人员发现,这些pSTR显著富集在具有活性组蛋白标记的基因组区域和染色质开放区(图3)。

图3. eSTR与3’aSTR在基因组区域中的富集

基于不同人群中的pSTR变异集合,研究人员发现了大量在人群间存在显著长度差异的pSTR,这些位点可能影响了不同人群之间的表型差异。例如,E2泛素结合酶家族成员UBE2L3内含子中的一个pSTR位点主要在东亚人群中存在扩增,且与GWAS研究已经发现的与克罗恩病、系统性红斑狼疮等多个性状相关联的SNP存在强LD关联(图4)。

图4. 人群间差异的pSTR位点

综上所述,该研究报道了一个构建于6487个基因组的366,013个多态性STR位点的变异图谱,包括3983个中国样本(~31.5x,NyuWa)和2504个来自千人基因组计划的样本(~33.3x,1KGP)。发现STR的突变受单元长度、染色体环境和表观遗传特征的影响。鉴定了3273个与基因表达相关的STR位点以及1117个与3'UTR选择性聚腺苷酸化相关的STR位点。该研究探索了STR的人群特征,鉴定了人群间以及人群内部差异性的STR位点,还提供了已知的致病STR位点在人群中的长度分布。这一工作是目前国际上最大规模的STR变异研究之一,对人类基因组中STR变异的多样性和潜在功能提供了新的见解,为未来STR相关的研究提供了参考与基础。

中国科学院生物物理研究所的何顺民研究员、徐涛院士为该论文共同通讯作者,中国科学院生物物理研究所的博士研究生史忆戎、中国科学院大学生命科学学院的博士研究生牛仪伟为该文并列第一作者。

原文链接:

https://www.nature.com/articles/s41467-023-37690-8