为什么这些印记基因

知道自己来自于母亲还父亲?

它们有什么不同?

大家好,我是中科院生物物理研究所的研究员朱冰。很荣幸来到格致论道,向大家介绍表观遗传的知识。

看到今天的题目,可能大家首先会问:什么是表观遗传?为什么我把它叫做“基因组以外的世界”?


Part.1

爸爸妈妈,离了谁都不行

大家都很熟悉基因组,大概也都知道遗传。当我们遇到一些不太理想的事情,至少都可以抱怨一下。比如我说自己长得不太好看,那是因为我爸、我妈,这是遗传决定的,对吧?因为我们的基因来自于父母。但是表观遗传指的是什么呢?就是当你拥有同样基因的时候,它的效果也有可能是不一样的。

我们知道,每一个人的基因组都来自于父亲和母亲,爸爸妈妈会分别给我们一套基因组。这就产生了一个问题:爸爸妈妈给我们的基因组效果一样吗?

大概就在三个礼拜之前,我们家小儿子问了我一个问题:爸爸,如果有一个受精卵,你把它的细胞核拿掉,然后放进去两套来自于两个卵子的细胞核,它会不会活下来?能不能变成一个胚胎,甚至变成一个孩子?

我说:你知道吗?我的主要研究方向就跟这个有关,接下来我就给你讲一讲。

这张示意图的上方,有一个比较大的卵子,还有一个小一点的精子。当然实际上精子的个头远远比这个小,更加不成比例。

一旦受精以后,来自于卵子的DNA和来自于精子的DNA不会马上混合在一起,它会变成两个原核:一个叫雌原核,一个叫雄原核。这两个原核在形态上不一样,所以在光学显微镜下能够清楚地知道,哪一个是从妈妈那儿来的,哪一个是从爸爸那儿来的。

根据这样的特征,在很多年前,科学家们就做了一项探索:他们将一根毛细管扎进小鼠的受精卵,然后把来自妈妈的雌原核吸走;吸走以后,再放入一个来自于爸爸的雄原核。这就相当于小鼠没有妈妈了,它有两个爸爸,对吧?结果他们发现胚胎致死,单雄生殖失败。

两个爸爸不行,那两个妈妈行不行?两个妈妈也不行。科学家也做了这个实验,把来自于父亲的雄原核吸走,再注入一个来自于母亲的雌原核,这样的胚胎也是不能发育的,同样是胚胎致死。

可能有些读者会觉得,你拿这个毛细管扎来扎去,说不定扎也把受精卵扎死了。但科学家之所以是科学家,就是因为他会做对照实验。那么对照实验是怎样的呢?

研究人员将毛细管扎进受精卵以后,把雌原核和雄原核都吸走,然后再分别给它注入一个雌原核和一个雄原核。结果这个胚胎是活的,可以发育为小鼠,小鼠活蹦乱跳,没什么太大问题。这个受精卵多扎了两次都没事,所以不是因为被扎坏了,而是告诉了我们一个非常朴素的道理:我们既需要一个爸爸,也需要一个妈妈。

我们从小就知道这个道理,但是从科学的角度来讲,不是特别容易理解。因为我们以前知道的信息是:爸爸提供一套基因组,妈妈提供一套基因组,我们有两套基因组,所以就活了下来。在自然界中,我们确实需要通过精卵受精实现这一过程,但如果我们做一个人为实验,像刚才那样,你明明可以拥有两个基因组,为什么就不行呢?

这就告诉我们,因为某个不太清楚的原因,妈妈和爸爸提供的基因组不是完全等价的。这涉及到什么呢?涉及到一个经典的表观遗传学现象,叫做基因印记。


Part.2

神奇的印记基因

基因印记指的是啥呢?我们人大概有两三万个基因,但其中只有两三百个是印记基因。之所以管它叫印记,就是因为它知道自己是从妈妈那儿来的,还是从爸爸那儿来的。而印记基因虽然有两个拷贝,这两个拷贝的DNA或者说序列一模一样,它承载的遗传信息一模一样,但是在我们的细胞中只有一个表达,或者说只有一个起作用。

这挺让人感到困惑的。因为在我们的一个细胞里面,要么有这个基因,要么没有这个基因。现在的情况是有,而且不但有,还有两个,而且这两个基因序列一模一样,但是只有一个表达,另外一个不表达。

传统上认为,一个基因的表达需要看上游的调控因子存在或者不存在,显然在这个细胞里面,调控因子是存在的。为什么呢?因为那个能表达的表达得好好的,但是另外一个就算有上游的调控因子,仍然是不表达的。这就是一个挺困惑的事情。

那么印记基因在我们的基因组里大概有多少个呢?有两三百个。有意思的是,这两三百个印记基因在我们的基因组里并不是散在分布的,它们经常扎堆,好多个印记基因在一堆。当然另外也有好多堆,这样才会有两三百个。

▲ 印记基因:只有父源或母源的一个起作用

这张图上有两条染色体,上面那条来自于母亲,我们叫它母源的染色体;下面那条来自于父亲,是父源的染色体。每一个小方块代表一个基因,标了箭头就表明这个基因正在表达、或者说它在工作。

我们注意到,最左边的基因是两条拷贝都表达的。这不是印记基因,而是一个非常普通的基因,我们绝大部分的基因都是这样。

但是左二和左三两个基因,我们看到只有母源上面画了红色的小箭头,父源上面画了一个圈一个杠,代表它不表达或者说不工作。也就是说,这两个基因知道:自己只有从妈妈那儿来才能表达,从爸爸那儿来的,哪怕算长得一模一样也不能表达。

更有意思的一件事是什么呢?这些印记基因经常扎堆存在,但是在这一堆里面往往还有“反过来的”。

什么叫“反过来的”呢?比如右侧倒数第二个基因,父源那条上有一个蓝色的小箭头,代表从爸爸那儿来的拷贝是可以表达的;但是来自于母亲的那条上面有一个圈一个杠,意味着这个基因不能表达。这就是一个父源特异性表达的印记基因——只有爸爸那儿来的才工作,妈妈那儿来的没有用。

这样会造成什么后果呢?我们来看一下。

▲ 左:小胖威利综合征

右:天使综合征

左边和右边的两个孩子都有特定的疾病。左边这种叫做小胖威利综合征,右边这种叫做天使综合征。接下来我想说一件可能让大家大吃一惊的事情:就是这两种病人其实来自于同一个遗传家系,他们拥有同样的遗传缺陷。

什么是遗传家系?比如在一个家系中,外公有这个病,妈妈没有病,是个携带者,但是外孙女又有这个病,这是一个遗传的家系。一般情况下,一个遗传家系里都只有一种病。

但是这个遗传家系有两种不同的病。他们拥有的DNA的损伤是一样的,但是结果却不一样,会发生不同的疾病。为什么?就是因为我刚才说的,有的基因来自于妈妈、有的来自爸爸,它们会不一样。

▲ 左:小胖威利综合征(父源缺失)

右:天使综合征(母源缺失)

我们现在知道,小胖威利综合征患者缺损的那段DNA来自爸爸,而天使综合征的那一段来自于妈妈。那么为什么缺了同样一段染色体片段,会造成两种不同的疾病呢?这是因为缺失的这一段凑巧正好覆盖了某一个印记基因的群,这里面有好几个印记基因。

我刚才讲过,有的印记基因只有来自于妈妈才表达,有的印记基因只有来自于爸爸才表达。在小胖威利综合征的情况下,来自于爸爸的那条缺失了,来自于妈妈的那条好好的,但其中一个印记基因只有来自于爸爸才能表达,来自于妈妈的那条虽然有,但它不会表达、也不会工作,就相当于没有这个基因,所以就会得这种病。

但是在另外一些孩子里面,这个基因缺损来自于母亲。我们刚才也讲过,印记基因经常扎堆存在,有的还反过来,在这里面它也有几个“反过来的”:只有母亲来源才表达,父亲来源是不表达的。在天使综合征患者中,缺失的是来源于母亲的基因,虽然有父亲来源的那条,但是它不工作,所以相当于没有。

天使综合征患者和小胖威利综合征患者中,“相当于没有”的基因不是同一个,所以表型不一样,疾病的症状也不一样,当然治疗方案也不一样。

接下来想告诉大家的是,为什么这些印记基因知道自己来自于母亲还是来自于父亲?它们有什么不同?这就是基因上表观遗传修饰的存在。


Part.3

基因组里的第5个字母

我相信大家都在中学里学过,我们的基因组上一共有4个主要的字母(碱基):A、T、G、C(腺嘌呤、胸腺嘧啶、胞嘧啶、鸟嘌呤)。A和T配对,G和C配对,3个碱基可以形成一个三联密码子,对一个氨基酸进行编码,合成蛋白质。

我想告诉大家的是,除了这4个字母以外,我们的基因组上还有第5个字母,它就是图中的5-甲基胞嘧啶。左边这个是胞嘧啶,就是所谓的C,右边这个是5-甲基胞嘧啶。我们可以看到,它们几乎长得一模一样,唯一的区别就是右边这个在环上多出来一个甲基,这个甲基的存在,就使得它叫做5-甲基胞嘧啶。

但是合成DNA的时候,其实并没有5-甲基胞嘧啶的存在,只有A、T、G、C四个字母。合成完了以后,有酶能在上面进行一个甲基化的修饰,通过化学反应把它催化上去,那么这个酶就是图中的Dnmt,即DNA甲基转移酶。

DNA甲基转移酶的存在会导致什么问题呢?有了甲基化,就会导致识别它的蛋白质有差异:有的蛋白质会选择性地识别甲基化的胞嘧啶,有的蛋白质会选择性地排斥甲基化的胞嘧啶,这样就使得有甲基化的拷贝和没有甲基化的拷贝拥有不同的与蛋白质的结合。

当然,存在不同的蛋白质的结合,就有可能造成不同的后果,或者说表达与不表达。一般的情况下,甲基化的基因不表达,非甲基化的基因活跃表达。

刚才我已经提到,甲基化会调控基因,印记基因之所以能够知道自己来自于父亲或者来自于母亲,是因为它们拥有亲本差异性的DNA甲基化。换句话讲,在我们一个成体的细胞里面,一条基因来自于父亲,一条来自于母亲,来自于父亲的印记基因和来自于母亲的印记基因甲基化的情况不一样。为什么不一样呢?因为精子和卵子产生时建立的DNA甲基化谱就有显著的差异。

精子和卵子的DNA甲基化组的状态不一样,因此它本来就有差异,而且这些差异中的一部分能够在细胞分裂的过程中得到拷贝。所以细胞分裂、DNA复制以后,原来甲基化的那些还会被甲基化,没有甲基化的那些仍然不被甲基化。这样的话,细胞不停地复制,这个甲基化的信息可以一直得到维持。

就算我们到了成年期,一些细胞仍然知道:我这个基因是来自于爸爸的,因为我这个基因上DNA甲基化组的状态跟精子里面的一模一样;而另外一个基因知道:我是来自于妈妈的,因为我这个谱跟来自于卵子的甲基化组一模一样。这就是我们前面讲到的差异最主要的分子机制是怎么识别的。


Part.4

甲基化时钟的滴答声,可以逆转吗?

还有一个有意思的问题。DNA甲基化的谱能够拷贝,这样的拷贝能够永远忠实地完成吗?实际上还不是这样,给大家看一下这张图。

这张图上有三条“道道”,它们是什么呢?是我们的染色体上的一部分,反映的是我们淋巴细胞中T细胞的状况:黄色区域代表高度的甲基化,蓝色区域代表低水平的甲基化。

▲ 衰老过程伴随着DNA甲基化的选择性丢失

最上面这一条是啥?是一个新生婴儿的T细胞。我们可以看到,这一段染色体上一片黄色,说明他刚生下来的时候是高度甲基化的。

第二条是什么呢?是一个103岁老人的T细胞。我们可以清楚地看到,某些特定的位置出现了选择性的去甲基化,那些地方变成蓝色的了。

更有意思的是下面的第三条,它是来自于淋巴瘤或者说肿瘤患者的T细胞。它跟第二条非常的像,对吧?它们都在同样的区域出现了蓝色,出现了选择性的DNA甲基化的丢失,只不过它更严重一点而已。

这后面的机理是什么呢?我们首先要知道,如果抽血检测白细胞的DNA甲基化组,它是我们年龄最好的分子标志。测完以后就可以知道年龄±3岁的区间,它的判断非常准确。这个也经常被叫做甲基化的时钟,人类年龄的甲基化时钟。

这个时钟是怎么形成的呢?就是因为我们在衰老的过程中,会伴随着刚才所说的DNA甲基化的选择性丢失。但是不清楚的是,到底是因为去甲基化酶喜欢这些地方,然后把这些地方的甲基化去掉了?还是说DNA在复制的过程中,要拷贝DNA的甲基化,但是这个拷贝不够理想,拷贝着拷贝着就慢慢丢了?

这就是我们课题组在几年前曾经研究过的一个内容。我们血液中的白细胞有一个甲基化组,随着年龄的变化,有些地方的DNA甲基化会随着衰老增长,有些地方随着衰老稳定存在,还有一些地方的DNA甲基化会逐渐下降。

我们当时做了一件事情,能够让我们在一个细胞周期,即一次细胞分裂的过程中精确地测定DNA甲基化重建的动力学过程。

这张图上有三条折线,上面的那两条是啥呢?在衰老的过程中,DNA甲基化会增长或者稳定的那些地方。我们可以看到,它们在一个细胞周期内的拷贝曲线几乎是一样的,动力学过程或者说速度建立是一样快的。

但是我们清楚地看到,下面那条红色的线不一样。那条线是啥呢?就是在衰老的过程中DNA甲基化会逐渐丢失的那些地方。我们可以看到,在一个细胞周期里,它明显比另外两条慢,到最右边的时间点,也就是整个细胞周期已经完成了24个小时的时候,它基本上追到了,但没有完全追到。

我们中国人有句老话,叫做“失之毫厘,谬以千里”。细胞分裂一次丢了一丁点儿,分裂很多次之后就会丢掉一大堆。这个就有点像给你一张文件,然后让你去复印一下,复印完了以后,看上去总是差不多的。但是如果你再拿着复印完的版本去复印,等到你复印一百次以后,就会发现惨不忍睹了。

这告诉我们,随着衰老,我们表观遗传信息的状态只会越来越糟糕,这是一个命中注定的事情,因为我们DNA甲基化的拷贝不是那么理想,不是那么绝对的精确。

当然从我个人角度出发,我们既然已经发现了这个现象,在未来几年里面,我们非常希望能够进一步开展研究。我们究竟有没有办法找到特定的手段去逆转、哪怕是减缓DNA甲基化时钟的嘀嗒声?如果我们能够对它进行干预,有没有可能获得一个更加理想的生活?这是我们目前正在研究的方向,希望多年以后,有机会向大家汇报新的进展。

谢谢大家!