基因就像一盏灯,调控它的东西就像一个个电灯开关。当癌症基因组发生结构变异时,很多开关便会打开特定的基因。如能找到致癌基因,就能助力于寻找新的治疗方法。

而青年学者徐志超的科研经历,在一定程度上也反映着近年来基因学的发展。

他本科就读于北京大学,主要研究拟南芥遗传。2008 年前后,高通量测序技术的发展,让遗传学的主流研究方法,从经典的孟德尔遗传转向反向遗传学。即只需在基因组上找到并注释基因、设计定点突变、以及观察表型,就可以建立表型和基因的关系。

此后,徐志超开始对基因组学产生兴趣,并来到清华大学读博,主要研究新型基因组学方法,力图从 0 到 1 地组装更完整的基因组草图,并开始关注基因组重组与基因表观调控的关系。

博士毕业后,他加入美国索尔克生物研究所助理教授杰西·狄克逊(Jesse Dixon)的课题组担任博后,开始研究肿瘤细胞基因组中广泛存在的基因组重组,即通过观测癌症基因组中的结构变异,提出导致特定原癌基因激活的假设,并使用 CRISPR-Cas9 基因组编辑技术在细胞系中进行验证。

图 | 从左至右:徐志超、杰西·狄克逊(Jesse Dixon)(来源:资料图)

2017 年,徐志超加入该团队时,适逢实验室的一篇论文刚被 Nature Genetics 收录。在那篇论文中,课题组介绍了一种通过三维基因组实验来检测基因组结构变异的方法。

相比传统的基于全基因组测序的结构变异检测方法,该方法的优势在于:能够探测到重组位点位于基因组复杂区域的、更大范围的结构变异。

后来,他们将其与基因组三维结构的变化联系起来。以此为基础,实验室的一个主要方向是:在肿瘤基因组中,寻找结构和功能的联系。

(来源:Nature)


01

揭示激活癌基因表达的特定分子机制

此前有研究表明,哪怕是在肿瘤细胞中,多数常见的染色体结构变异比如缺失、易位和倒位,并不会让基因表达发生任何显著的改变。

但是,少部分的结构变异,能让同一染色体、甚至不同染色体上的增强子,转移到致癌基因的附近,这一过程叫做增强子劫持。

增强子劫持是一种错误的编排,不少原癌基因的异常激活都和它密切相关。所以,探明这种结构变异到底在哪种情况下才会激活目标基因是非常重要的。

近日,在徐志超和所在团队的一项研究中,他们在肿瘤细胞中发现了包含 MYC、TERT 和 CCND1 等原癌基因在内的结构变异热点,揭示了激活癌基因表达的特定分子机制,并发现癌基因会促进正常细胞转为癌细胞。

其还通过 CRISPR-Cas9 基因组编辑技术,在细胞系中发现了结构变异导致 MYC 基因激活的机制:即结构变异只有将增强子结合到 MYC 基因附近,且与 MYC 启动子在三维空间中临近的情况下才能激活 MYC。

总体而言,该工作的意义在于:将癌症基因组结构上的变异,与原癌基因激活进行联系,证明在三维空间中对调控元件进行重新编排,会让基因组结构变异,进而导致原癌基因的激活。

研究中,他们在多个肿瘤细胞系和临床样本中,通过三维基因组实验找到了大量结构变异位点。

通过对结构变异附近的染色质三维结构进行分析后发现,重组后的染色质常常会产生新的融合拓扑结构域。

通过训练基于神经网络的深度学习模型,研究团队对于这些结构变异是否会导致融合拓扑结构域的生成进行鉴定。

结果发现,相比普通的拓扑结构域,融合拓扑结构域含有更多的增强子。对重组位点的分类进行分析之后,他们发现:基因组中有着多个融合拓扑结构域,并以更加频繁的次数发生了结构变异,借此产生新的融合拓扑结构域,里面分别包含 MYC、TERT 和 CCND1 等原癌基因。


02

37 个子细胞系:涵盖 10 条染色体、15 个不同位点

聚焦于原癌基因 MYC,以及针对全基因组泛癌分析数据库中的结构变异,课题组进行了分析。结果发现:在所有的临床病人样本中,MYC 所在的融合拓扑结构域,会更显著、更频繁地在各类肿瘤中发生结构变异。

他们还发现,在那些包含 MYC 的融合拓扑结构域中,还有一些发生变异的样本。在这些样本里,MYC 的表达整体出现显著增加,不过方差依然很大。

同时,那些 MYC 融合拓扑结构域中发生变异的样本所对应的病人,他们的预后存活率也更低。至止,对于融合拓扑结构域和 MYC 的表达,研究人员初步建立了基于结构与功能的联系。

(来源:Nature)

为验证这一联系、以及剖析结构变异致使 MYC 激活的机制,该团队通过实验来再现这一过程。

在一个 MYC 不表达、且所在融合拓扑结构域没有结构变异的细胞系中,他们利用 CRISPR–Cas9 基因组编辑技术,引进了染色体结构变异,并往细胞内转入两个 gRNA。

第一个靶向在 MYC 基因附近 300kb 的一个位点,第二个靶向在另一条染色体上的某个位点。

通过聚合酶链式反应实验,他们初步筛选出了染色体易位,然后通过三维基因组和荧光原位杂交实验做进一步的验证,最终得到 37 个子细胞系,涵盖基因组中的 10 条染色体、15 个不同的位点。

对于每个子细胞系,他们又使用深度学习模型,再次验证结构变异的发生与融合拓扑结构域的生成。

同时,还通过 RNA-seq 测量了 MYC 的表达。实验结果表明,部分子细胞系中的 MYC 得到了激活,并且 MYC 的表达总体方差较大,这与他们在全基因组泛癌分析数据库中的发现是类似的。


03

用 ABC 模型找到两条线索

进一步地,课题组在子细胞系的数据中,寻找导致 MYC 激活的因素,最终找到两个线索。

接下来,他们展示了两个子细胞系,通过与不同的染色体重组,形成了相似的、含有 MYC 的融合拓扑结构域。

值得注意的是,MYC 只在一个细胞系中被激活。在 MYC 被激活的细胞系中,参与重组的另一条染色体,在重组位点附近的增强子信号,远高于 MYC 未被激活的细胞系。这说明,融合拓扑结构域中新加入的增强子,会导致 MYC 的激活。

另外,研究团队还展示了一个子细胞系,即参与重组的另一条染色体,在重组位点附近存在一个富集 CTCF 结合位点的绝缘子,而在下游则有一个超级增强子。

研究结果显示,绝缘子的存在使得 MYC 和超级增强子之间,无法形成融合拓扑结构域,并且该细胞系中 MYC 并没有被激活。

因此,结构变异带来的新增强子强度、以及它们与 MYC 启动子的接触频率,共同决定着 MYC 是否能被激活。

接下来,他们将子细胞系分为测试组和验证组,结合三维基因组、MYC 基因表达、以及已发表的组蛋白 H3K27ac 数据,用测试组训练了多个数学模型,并检测其在验证组中的表现。

然后,他们得到了一种 Activity-By-Contact(ABC)模型,即在启动子附近每个增强子的强度、与增强子-启动子接触频率乘积的总和。徐志超表示:“对于预测结构变异后 MYC 基因的表达强度,这一模型的效果是目前最好的。”

另据悉,通过 CRISPR–Cas9 基因组编辑来再现 MYC 激活的实验,并非在一开始就具备系统性。

最初设计这个实验的背景在于,他们发现:在 SK-N-DZ 中,MYC 所在的融合拓扑结构域没有结构变异、并且 MYC 未被激活;而同一细胞类型的 SK-N-SH 细胞中 MYC 所在融合拓扑结构域存在结构变异,并且 MYC 会被激活。

可以说,前几个基因组编辑实验都是为了在 SK-N-DZ 中再现与 SK-N-SH 类似的结构变异,然而均未得到 MYC 的激活。

不得已之下,课题组才对更多重组位点做以系统性设计,最终得到多个能够激活 MYC 的重组位点,也为后续 ABC 模型的分析提供了足够的数据。

(来源:Nature)

近日,相关论文以《结构变异驱动癌症中依赖于背景的致癌基因激活》(Structural variants drive context-dependent oncogene activation in cancer)为题发表在 Nature 上 [1],徐志超和李东成(Dong-sung Lee)是第一作者,杰西·狄克逊(Jesse Dixon)担任通讯作者。

图 | 相关论文(来源:Nature)

徐志超表示:“我们团队的一个长远目标是,通过观测表观基因组来预测目标基因的表达水平。”

因此,完善当前的模型、并寻找基因特异性调节因子在增强子-启动子互作中是否发挥重要作用,是下一个研究方向。

另外,还得进一步完善三维空间中基因表达调控的模型,特别是找出增强子以外的调节启动子的因素。

在这之后,对于结构变异之后、临近基因的表达,研究人员还要做出准确预测。在肿瘤以及遗传疾病的诊疗中,这将帮助人们准确地判断结构变异带来的与疾病相关的基因表达差异,从而为相关研究和疾病治疗提供重要线索。


参考资料:

1.Xu, Z., Lee, DS., Chandran, S. et al. Structural variants drive context-dependent oncogene activation in cancer. Nature612, 564–572 (2022). https://doi.org/10.1038/s41586-022-05504-4