在人类基因组中,大约包含 2 万个编码蛋白质的基因,其中有一类比较特别的基因称为转录因子。转录因子的一个重要功能就是调节和控制基因的转录,也就是把储存在 DNA 里面的遗传信息根据需要释放出来变成 RNA。

通过一系列生物学过程,这些释放出来的 RNA 最终形成具有生物学活性的蛋白质,从而参与细胞内的一系列生命活动过程。

目前已知人类基因组包含超过 1600 种转录因子,这些转录因子编码的蛋白在行使调控角色和功能的时候,会识别并结合到 DNA 上的调控区域。

通常情况下,一个调控区域会同时包含多个不同转录因子的结合位点,这些转录因子会以某种合作方式结合上去。同时,这些转录因子的结合位点,并不是随机地出现在基因组的调控区域,而是以某种规则出现。

至于它的分布规则是什么?转录因子之间如何协作?近年来,这已成为基因转录调控的一个研究热门。

在基因组上,对于不同的调控区域来说,它们能结合的转录因子数量和种类也不相同。即使是同一个调控区域,在不同细胞组织里面、或同一细胞组织在不同状态下,结合的转录因子数量和种类可能也会不一样。

了解这些转录因子结合位点的分布规律、以及转录因子之间的合作规则,可以帮我们探索细胞内基因转录调控的具体机制,也能帮助探索细胞组织是如何维持分化、发育以及细胞功能。

研究该问题的另一个重要意义在于,可以探究疾病的发生机制。目前已有研究发现,在人类的复杂疾病中,超过 80% 的遗传变异发生在基因组的调控区域。

当某个调控区域上发生遗传变异时,可能就会改变转录因子的结合位点,从而影响该调控区域的功能,进而导致下游基因的表达异常。


01

多角度分析 1400 种转录因子结合位点的分布规律

为了探索转录因子之间的合作规则,中科院博士、目前在美国国立卫生研究院(National Institutes of Health,NIH)担任博士后研究员的赵永兵,对近 500 种人和小鼠的细胞组织进行多组学大数据分析。

从多个角度来分析了 1400 种转录因子结合位点的分布规律,借此增加了人们对于转录因子在调控区域的分布规律、以及转录因子之间的合作机制的了解。

图 | 赵永兵(来源:赵永兵)

首先,赵永兵发现不同家族的转录因子在调控区域结合的位置不一样,有些倾向于结合在中间,有些倾向于在边缘,还有一些没有明显的倾向性。

其次,他发现不同转录因子所结合的调控区域,具有不同的转录因子密度。举例来讲,一些转录因子倾向于结合在多数转录因子都能结合的区域,它们可能有很多的潜在“伙伴”。而一些转录因子倾向于结合在只有少数转录因子才能结合的区域,因而它们的“伙伴”会比较少。

最后,对于任意两个转录因子共同结合/共定位在同一个调控区域的频率,赵永兵也进行了分析,并为每个细胞组织分别构建出转录因子共定位热图。

分析结果显示,超过 90% 的转录因子对(TF pairs),很少共定位于同一个调控区域。对共定位热图进行聚类后,赵永兵发现频繁结合在一起的转录因子会在热图上形成“簇”,比如 FOS-Jun 家族的转录因子。

他还专门开发一个网络数据库(https://tfsyntax.zhaopage.com/),以方便业内人士查看转录因子的相关数据。

相关论文也已发表在 Nucleic Acids Research 上,论文题为《TFS 语法:哺乳动物基因组中转录因子结合语法数据库》(TFSyntax: a database of transcription factors binding syntax in mammalian genomes)[1],赵永兵是该论文唯一的作者。

图 | 相关论文(来源:Nucleic Acids Research)

在该研究基础上,赵永兵发现有一些转录因子会频繁与其他转录因子结合在同一调控区域,这些转录因子被命名为 Stripe factors。

为了进一步探索和验证 Stripe factors 的生物学功能,赵永兵与合作者利用多种计算生物学和实验生物学技术进行了深入研究。

结果发现,Stripe factors 会帮助其它转录因子结合到同一个调控区域上,从而增加转录因子在 DNA 上的停留时间,并维持基因组调控区域的开放性。

相关论文发表在 Molecular Cell 上,《“条纹”转录因子提供哺乳动物基因组中的共结合伴侣的可访问性》(“Stripe”transcription factors provide accessibility to co-binding partners in mammalian genomes),赵永兵是论文第一作者兼共同通讯作者 [2]。

图 | 相关论文(来源:Molecular Cell)


02

了解细胞内转录因子之间的合作规则

这一系列研究的主要目的是了解细胞内转录因子之间的合作规则,这将有助于探索包括癌症在内的各种疾病发生的生物学机制。

据悉,赵永兵在加入 NIH 之前,曾在梅奥诊所医学中心工作过。期间,他一直从事癌症发生过程中的转录调控机制研究。因此,对于转录因子如何在基因组的调控区域形成 enhanceosome、以及 enhanceosome 如何调控下游基因等问题非常感兴趣。

加入 NIH 之后,刚好实验室也准备开展相关研究,赵永兵与导师一拍即合,很快就明确了大致研究方向,即转录因子之间的合作机制。

作为研究目的之一,想要探索转录因子之间互作规则,首先就要获得所有转录因子在全基因组上的结合位点。

传统方法是采用 ChIP-Seq 实验的方法,但是该方法一次只能在一个细胞样本里面检测一个转录因子。要想在大规模样本中分析 1000 多种转录因子,该方法存在多种局限性,譬如成本太高、不是所有的转录因子都有适用于 ChIP-Seq 实验的抗体。

经过各种探索,赵永兵打算采用基于计算的方法,利用 ATAC-Seq/DNase-Seq 和 RNA-Seq 数据来推断转录因子的潜在结合位点。

实验策略确定后,接下来就是准备数据。为了全面了解不同细胞和组织里面的规律,赵永兵下载了整个 ENCODE 和 GEO 数据库中有关人和小鼠的 ATAC-Seq/DNase-Seq 数据样本,并进行预处理。

数据预处理的主要工作内容包括:去掉 ENCODE 和 GEO 两个数据库之间的重复数据;分析哪些是生物学重复、哪些是技术重复;了解细胞和组织的遗传背景;数据质量分析等。甚至还需要查看这些数据的原始文献,以便了解背后样本的准备流程。

完成 ATAC-Seq/DNase-Seq 的数据预处理之后,还得重新回到 ENCODE 和 GEO 数据库里面,找到对应细胞组织的 RNA-Seq 数据,并对 RNA-Seq 也进行预处理。

“收集数据的工作量非常巨大,幸运的是我在计算机编程方便比较有经验,所以我写了一些自动化程序,来对公共数据库里的内容进行分析和提取。这些自动化程序大大提高了我的工作效率。”赵永兵说。

完成数据准备和初步分析后,赵永兵获得了 1400 种转录因子在 500 种人和小鼠细胞组织中的潜在结合图谱。

“这是很大的数据量,虽然我一直在做大规模数据挖掘,但在得到这些数据时依然感觉很兴奋。不过,我还是让自己冷静下来,毕竟如何深入挖掘这些数据才是关键。”赵永兵说。

通过生物信息学方法发现并验证 Stripe factor 之后,赵永兵立马和导师分享了这个好消息,导师也觉得这个发现非常让人振奋。于是,他们一起头脑风暴,分析可能的生物学功能、以及如何设计实验验证等。

在功能验证和探索过程中,赵永兵和合作团队采用多种生物学实验技术,譬如基因编辑技术(CRISPR,Clustered Regularly Interspaced Short Palindromic Repeats)、杂交小鼠模型、单分子示踪显微镜等。

他说:“毕竟我个人的知识储备、掌握的技术以及时间精力是有限的,因此就邀请了新的合作伙伴加入项目中。正因为他们的加入,这个项目才得以快速往前推。”

而由于新冠疫情防控政策的限制,几乎有大半年整个实验接近停摆状态。好在防控放松后,每次允许一小部分人回去做实验,但名额和时间段需要跟其他几个实验室协调,于是大家开始轮流倒班去做实验。

譬如,平时可以容纳 10 来个人同时工作的细胞房,在防控期间同一时间只允许 1 个人在里面做实验。由于在同一时间内,只允许少数人去做实验,于是大家倒班做实验,这过程还涉及与其他实验室、动物房、测序中心等协调,算是紧锣密鼓、“人歇实验不歇”。

“期间我们随时通过网络会议讨论实验和数据。这让我想起《横空出世》这部电影,先辈为了造原子弹需要从几百公里外不断往戈壁沙漠运淡水,昼夜不停、人歇车不歇。虽然我们这个项目远远比不上造原子弹,但也算是在另外一个领域向他们学习和致敬吧。”赵永兵说。

而尽管经历了这个小插曲,但是大家还是在尽可能短的时间内,接力完成了庞大的工作量。

另据悉,这个项目的工作内容还有很多。如前所述,目前已经发表两篇论文。但是,还有不少数据和研究结果尚未公布,他也还在继续研究中。

譬如,基于 Stripe factors 在维持基因组调控区域开放性的功能,他正在研究 Stripe factors 在调控区域结合的改变,是如何导致癌症中的转录调控的异常。

同时,也在结合可解释神经网络模型和实验方法,来进一步探索转录因子之间的合作与 enhanceosome 形成相关的机制研究。


03

左手 coding 右手 pipetting

据介绍,赵永兵本科毕业于华中科技大学生物技术专业。2014 年,他在中科院北京基因组研究所获得生物信息学博士学位,主要从事泛基因组学算法和分析方法的研究。

博士毕业后他来到美国,先后在梅奥诊所医学中心和 NIH 从事博士后研究。目前在 NIH 的职位是 Research Fellow,主要探索方向是基因转录调控的机制。

他说:“在我的经历里,有一点比较有意思。我的本科专业是生物技术,属于实验方向的。从大二开始,我就去实验室跟着师兄师姐一起做课题,学习各种生物学实验技术。但是,在大四选择博士专业方向的时候,我还是选择了生物信息。”

主要原因在于,出于对计算机编程的兴趣,大学四年,他在计算机编程上积累了比较好的基础。

而生物信息学的专业方向,刚好结合了赵永兵在编程和生物上的优势。事实证明这个选择是正确的。在中科院基因组所两位导师的指导下,整个读博五年时间,他也算是比较得心应手。

慢慢地,他体会到生物学本质上是一门实验性科学。所以,来美国做博士后的时候,他选择了具备做实验条件的实验室。

在这样的环境中,无论是实验原理还是实验操作上,赵永兵都学到了很多前沿的实验技术譬如 CRISPR,反过来也助推了他的研究课题。

“一些朋友戏称,我是一支手 coding 一支手 pipetting,左右开弓。”他说。而对于后续打算,他说:“回国内发展一直是我的计划,我打算近期开始联系国内科研机构。”


参考资料:

1.Zhao, Y. (2022). TFSyntax: a database of transcription factors binding syntax in mammalian genomes. Nucleic Acids Research.

2.Zhao, Y., Vartak, S. V., Conte, A., Wang, X., Garcia, D. A., Stevens, E., ... & Casellas, R. (2022).“Stripe”transcription factors provide accessibility to co-binding partners in mammalian genomes. Molecular cell, 82(18), 3398-3411.