单个重复DNA序列的扩增(又称串联重复,TR)会导致50多种疾病【1】,如亨廷顿疾病、脆性X综合征等。但目前仅有神经疾病和神经退行性疾病中的重复扩增研究得比较充分。某些肿瘤的突变会在TR的短区段中累积,称为微卫星不稳定性(MSI);而较长的重复扩增在肿瘤中尚未进行过系统研究。

近日,斯坦福大学的Graham S. Erwin、Michael P. Snyder与耶鲁大学的Mark Gerstein研究组合作Nature上发表了文章Recurrent repeat expansions in human cancer genomes,在29种共2622个癌症基因组中寻找TR扩增,在其中7种癌症中发现160个循环重复扩增(rRE),其中大部分为亚型特异的。作者发现rRE在基因组中的分布有偏好性,倾向于富集在顺式调节元件附近,暗示其在基因调节中发挥作用。其中一种靠近UGT2B7基因第一个内含子调节元件区域的GAAA重复扩增,在34%的肾细胞癌症中检出到并得到测序验证。在含有上述rRE的细胞中导入GAAA靶向分子会剂量依赖地导致细胞扩增水平降低。由此作者认为rRE可能是人类癌症中遗传变异的重要来源。

可致病的TR区段通常较长(大于100bp),往往超过普通短片段测序的读长,使得发现这类长TR十分困难。已有研究评估过短TR在癌基因组中的分布变化情况【2】,发现MSI在多种癌症中分布广泛,包括30%的子宫内膜癌、20%的胃癌和15%的结直肠癌。但长TR的分布情况尚未获得系统研究,尽管其在癌基因组中已发现超过25年【3】。

作者从权威数据库中收集全基因组测序数据,共获得来自2509位病人的2622个癌症基因组,涵盖29种不同癌症类型。作者对每种类型癌症分别进行分析,使用EHdn方法检测短读长测序数据中超过测序读长长度的TR序列【4】。EHdn法使用非参数的统计测试进行病例对照,以确定肿瘤基因组中的重复长度是否超过常规基因组中的长度,该方法类似于联合群体水平的基因分型。

作者首先对786-O和Caki-1肿瘤细胞系进行全基因组测序以验证EHdn方法的准确性,发现EHdn可以捕获长片段测序中72%的重复扩增,当测序深度在30×以上时rRE的检出效果比较理想。作者随后对2622个肿瘤基因组和正常基因组进行EHdn分析,共发现578个候选rRE。由于拷贝数会影响EHdn的检测灵敏度,作者进行本地读长深度过滤和标准化处理,发现读长深度标准化对发现癌症基因组中真正的rRE很有帮助,许多通过过滤器的rRE在癌基因组中出现扩增。通过本地读长深度过滤还可去除EHdn方法产生的假阳性结果。

作者最终在7种癌症类型中确认160个rRE(图1),主要来自前列腺癌和肝癌,也有卵巢癌、毛细胞星形细胞瘤、肾细胞癌(RCC)、疏色细胞癌RCC及鳞状细胞肺癌,即三个胚层来源的组织中均有检出,说明这种扩增是人类基因组固有现象而非组织特异性过程。大部分前列腺癌(93%)和肝癌(95%)基因组中至少包含一个rRE,有些基因组包含若干rRE。由于rRE仅在7种人类癌症种类中出现,因此是肿瘤亚型特异的。作者还发现rRE的形成与MSI不相关,与突变特征的相关性也很弱。

图1 分析流程和rRE检出结果示意图

在160个rRE中,作者观察到多种基序,其重复单元长度呈双峰分布,类似某些疾病中的RE分布。约半数(76/160)的rRE分布于G+C丰度低于50%的区域。6种rRE含有致病性基序GAA;而通过比较串联重复查找器目录,作者在rRE目录中找到3种富集基序,其中一个也是GAA。当GAA基序的重复扩增出现在共济蛋白frataxin基因内含子时,可导致DNA甲基化和抑制性染色质标记沉积,强烈抑制基因并引起Friedreich共济失调【5】。作者由此推测癌症中的某些rRE可能会改变表观组并影响基因调控网络。

rRE在基因组中的分布并不统一,倾向于分布在染色体臂的末端。大部分rRE位于内含子、非翻译区段(UTR)或剪切位点。这说明rRE在调节基因表达中可能发挥不同的作用。此外,作者还发现rRE往往位于或靠近基因组上的功能区段。

作者进一步试图发现rRE与癌症的关联关系。通过定位每个rRE最靠近的基因,作者发现9种rRE关联到癌症体细胞突变目录中第一档的基因。作者观察到与癌症相关基因的强相关性。与160种rRE关联的疾病前五位有四种都是癌症。作者还发现许多rRE位于癌症的风险位点,特别是前列腺癌。但在研究COSMIC基因与rRE出现关系时,显示体细胞突变更多存在于不含rRE的病人基因组中。而且作者也未观察到rRE的出现与癌细胞对免疫细胞毒性的相关性。

接下来,作者通过凝胶电泳发现GAAA重复在多种肾细胞癌细胞株中出现的扩增数远多于普通肾细胞系。长读长测序也验证该现象,同时可在癌症病人的癌组织中检测到该重复。考虑到34%的肾细胞癌样本中都发现UGT2B7基因内含子中存在GAAA扩增,且该基因选择性地表达于肾和肝脏,作者着重分析该rRE附近的功能性元件,发现一个临近的增强子。受前述Friedreich共济失调中GAA重复的启发,作者怀疑GAAA重复是否会抑制UGT2B7基因的表达,但结果仅显示一定程度的降低且统计学上并不显著。但意外发现该rRE可显著减少UGT2B7一种转录异构体的产生。

最后,作者试图确认GAAA-重复扩增是否会影响细胞增值。为此,作者引入发现疾病重复扩增的靶向小分子【6】策略。合成靶向GAAA的转录延伸因子,导入相应的癌细胞系中,检测显示其对GAAA重复扩增数最多的Caki-1细胞系的增值抑制最明显,而对重复数低的细胞系影响不明显,说明GAAA重复扩增可能代表肾细胞癌的一种遗传脆弱性。

回顾全文,作者通过基因组水平分析,在多种人类癌基因组中鉴定出160种rRE。这些rRE大多是癌症亚型特异的,倾向于在癌症位点富集并靠近调节元件,但这些rRE未显示出与MSI的相关性。靶向分子实验证实GAAA重复扩增可影响癌细胞增值。该研究结果揭示出癌症基因组中未探索的遗传改变,具有重要的机制和治疗意义。

原文链接:https://doi.org/10.1038/s41586-022-05515-1


参考文献

1. Hannan, A. J. Tandem repeats mediating genetic plasticity in health and disease. Nat. Rev. Genet. 19, 286–298 (2018).

2. Hause, R. J., et al. Classification and characterization of microsatellite instability across 18 cancer types. Nat. Med. 22, 1342–1350 (2016).

3. Panzer, S., Kuhl, D. P. A. & Caskey, C. T. Unstable triplet repeat sequences: a source of cancer mutations? Stem Cells 13, 146–157 (1995).

4. Trost, B. et al. Genome-wide detection of tandem DNA repeats that are expanded in autism. Nature 589, 80–86 (2020).

5. Sandi, C., Al-Mahdawi, S. & Pook, M. A. Epigenetics in Friedreich’s ataxia: challenges and opportunities for therapy. Genet. Res. Int. 2013, 852080 (2013).

6. Nakamori, M. et al. A slipped-CAG DNA-binding small molecule induces trinucleotide-repeat contractions in vivo. Nat. Genet. 52, 146–159 (2020).