科技的发展使得人与人之间的沟通越来越便捷,书信、电子邮件、社交聊天软件,构筑出人类社会的通讯网络。而在我们的细胞中,也存在一个沟通众多基因的、纷繁复杂的通讯网络——基因网络。

绘制基因网络,即不同基因之间相互作用的网络,对于理解关键的生物学和疾病过程,以及识别潜在的药物靶点十分重要。然而,基因网络作图需要大量的转录组学数据来了解基因之间的联系,这阻碍了在数据有限的环境中的发现,包括罕见病和临床上难以接近组织的疾病。

近日,美国丹娜-法伯癌症研究所的研究人员在 Nature 期刊发表了题为:Transfer learning enables predictions in network biology(迁移学习使网络生物学的预测成为可能)的研究论文。

这项研究生成了一个基因表达数据集——Genecorpus-30M,其中包括来自各种人体组织的约3000万个单细胞转录组数据。研究团队通过使用该数据集预训练了一个基于迁移学习的AI模型——Geneformer,以实现在有限的数据下预测基因网络动力学、绘制基因网络图谱、加快发现疾病治疗候选靶点。

如今,人工智能(Artificial Intelligence,AI)已经在多个领域大放异彩,并深入到我们的日常生活中。从围棋领域的AlphaGo到预测蛋白质构的AlphaFold,从去年的AI绘画到如今的ChatGPT,人工智能作为一种新兴的颠覆性技术,正在逐步释放科技革命和产业变革积蓄的巨大能量,并深刻改变了人类的生活和思维方式。

在生物学领域,人工智能的应用也越来越广泛,例如AI治疗、AI制药和AI蛋白质从头设计。最近,一种人工智能学习算法——迁移学习(Transfer Learning),已经深刻改变了自然语言理解和计算机视觉等领域。

迁移学习的工作原理是在大型通用数据集上预先训练出一个深度学习模型,以使用有限的特定任务数据执行广泛的任务。换句话说,迁移学习允许将预训练期间获得的基础知识转移到尚未训练模型的任务中。

迁移学习的基本核心是“预训练+微调”

在这项最新研究中,研究团队试图开发和预训练一个具有大型通用基因表达数据集的深度学习模型,以便它可以“理解”基因网络动力学,并且可以在缺乏数据的情况下在广泛的应用中提供有关基因相互作用和细胞状态的预测。

为了达到这个目的,研究团队首先利用公开的数据生成了一个基因表达数据集——Genecorpus-30M,其中包括来自广泛的人体组织的大约3000万个单细胞转录组数据。然后,研究团队使用该数据集预训练基于迁移学习开发的深度学习模型——Geneformer,以实现对基因网络动力学的基本预测。

基于“迁移学习”开发的、可预测基因网络动力学的深度学习模型——Geneformer

Geneformer的预训练是自我监督的,这意味着它可以从未标记的数据中学习。作为一个“基于注意力”的模型,Geneformer可以学习哪些基因需要更多的机器学习形式的注意力。通过这种自我监督的预训练,Geneformer学会了更多地关注细胞中具有关键作用的基因,例如编码转录因子和基因网络中的中心调节节点的基因。

不仅如此,Geneformer还具有环境感知能力,使其能够根据每个细胞的环境做出特定的预测。这是至关重要的,因为基因的功能在不同的细胞类型、发育阶段和疾病状态中是不同的。研究团队表示,Geneformer的环境意识对于研究多种细胞类型受到影响的疾病和治疗靶点可能因疾病阶段而异的进行性疾病尤其有用。

Geneformer可以在有限的数据下提高了对基因网络动力学的预测

预训练允许Geneformer编码基因网络的层次结构,包括哪些基因影响哪些其他基因的表达。研究团队发现,当Geneformer针对与基因网络动态或DNA-蛋白质复合物染色质修饰相关的各种任务进行修饰时,与标准替代方法相比,它始终提高了预测准确性。

在这项研究中,当使用有限的特定于心肌疾病的基因表达数据进行微调时,Geneformer确定了候选的治疗靶点。在基于诱导多能干细胞(iPSC)的心肌疾病模型中靶向这两种候选细胞,能够导致由iPSCl再分化的心肌细胞收缩功能改善。

Geneformer编码基因网络层次

值得注意的是,使用更大、更多样化的数据集进行预训练,可以持续提高Geneformer在下游任务中的预测能力。这表明,随着公开可用的基因表达数据量的扩大,甚至可以在更复杂、更模糊的研究背景下做出精准的预测。例如,一些罕见病的研究数据往往十分稀缺,但Geneformer可能仅需少量的数据就能推测出这些罕见疾病的病理机制。

Geneformer揭示候选的治疗靶点

总而言之,这项研究基于迁移学习开发了一个可以绘制基因网络的深度学习模型——Geneformer,通过预训练、微调和转移其对基因网络动力学的“理解”,Geneformer可以应用于广泛的研究领域,在有限的数据中加速发现关键的网络调控因子和候选治疗靶点。

随着越来越多的多模态数据变得公开可用,未来可能会开发出能够联合处理多种数据类型的深度学习模型,例如绘制单个细胞的基因表达图谱和染色质动力学图谱。此外,未来的深度学习模型还可以提取Geneformer编码的网络层次结构,以明确推断特定细胞类型和疾病的网络连接。

论文链接:

1. https://www.nature.com/articles/s41586-023-06139-9

2. https://www.nature.com/articles/d41586-023-01504-0