DeepMind 表示,它已经训练出一种人工智能,可以预测我们基因组中的哪些 DNA 变异可能导致疾病。预测结果可以加快罕见疾病的诊断,并可能为药物开发提供线索。

DeepMind 成立于伦敦,10 年前被谷歌(Google)收购。DeepMind 此前最出名的人工智能程序以打游戏出名,征服了《星际争霸 2 》和围棋等复杂的游戏。

该公司此前曾宣布,其人工智能程序 AlphaFold 能够准确预测蛋白质的形状,这是生物学上的一个“重大挑战”。

最近,该公司表示,他们已经对 AlphaFold 模型进行了微调,以预测在人类 DNA 中发现的哪些“拼写错误”可以安全地忽略,哪些可能导致疾病。

在 Science 上发表的最新论文中,DeepMind 的研究人员介绍了这款名为 AlphaMissense 的新软件。

DeepMind 表示,作为其项目的一部分,它公开发布了数千万个这样的预测,但该公司不允许人们直接下载该模型。因为它认为,如果该技术应用于其他物种,可能会带来潜在的生物安全风险。

虽然不是为了直接诊断,但医生已经在使用计算机预测来帮助定位一些神秘的综合症的遗传原因。

在一篇博客文章中,DeepMind 表示,其研究结果是揭示“疾病根源”的努力的一部分,可能会帮助寻找“更快的诊断和开发挽救生命的治疗方法”。

这个为期三年的项目由 DeepMind 工程师 Jun Cheng 和泽佳·阿乌赛克(Žiga Avsec)领导,该公司表示,它将公开发布对 7100 万种可能变体的预测。

每一个都是所谓的“错义突变”,即一个 DNA 字母,如果它被改变,就会改变基因所产生的蛋白质。

“(这项工作)想要达成的目标是,如果看到了一个蛋白质的变化,我不需要预测蛋白质的形状,而是想知道,这个变化会对人有害吗?” 美国密歇根州立大学(Michigan State University)物理学家 Stephen Hsu 说道。他主要研究用人工智能技术解决遗传问题。

“大多数这样的基因改变,我们根本不知道它们是否会导致疾病。”

一些专家表示,DeepMind 的声明只是又一个新的光鲜亮丽的商业演示,其商业价值尚不明确。

“DeepMind 正在做 DeepMind 一直在做的事,”研发药物的人工智能公司 Insilico Medicine 的创始人亚历克斯·扎沃龙科夫(Alex Zhavoronkov)说。

“宣传工作很到位,人工智能工作也很棒。”

扎沃龙科夫认为,对现代人工智能的真正考验是,它是否能带来新的治疗方法,而这一点目前还没有展现出来。

但投资者表示,一些人工智能设计的药物正在测试中,研究和创造有用的新蛋白质是一个特别热门的领域。

据报道,一家名为 Generate Biomedicines 的公司刚刚筹集了 2.73 亿美元用于制造抗体,一群前 Meta 工程师创建了 EvolutionaryScale 公司,该公司认为人工智能可以制造出“寻找并摧毁癌症的可编程细胞”。


01

更好的模型

然而,DeepMind 的新努力与药物关系不大,更多的是与医生如何诊断罕见疾病有关,尤其是对那些有神秘症状的患者,比如不会消失的新生儿皮疹,或者成年人突然感到虚弱。

随着基因测序技术的兴起,医生现在可以解码人们的基因组,然后在 DNA 数据中寻找可能的罪魁祸首。

有时,病因是明确的,比如导致囊性纤维化的突变。

但美国马萨诸塞州剑桥市伯德研究所(Broad Institute)临床实验室主任海蒂•雷姆(Heidi Rehm)说,在进行了广泛基因测序的病例中,约有 25% 的病例会发现可疑的 DNA 变化,但其影响尚不完全清楚。

科学家们称这些神秘的突变为“意义不明的变异”,它们甚至可能出现在像 BRCA1 这样经过详尽研究的基因中。BRCA1 出现特定的遗传性变异,可导致一种遗传性的癌症风险。

雷姆说:“没有一个基因是不会出现这些变异的。”

DeepMind 表示,AlphaMissense 使用了人工智能来预测哪些 DNA 变化是良性的,哪些是“可能致病的”,从而帮助人们寻找答案。

该模型并不是唯一一个尝试此类预测的模型,另一个名为 PrimateAI 的程序,也旨在做出类似的预测。

雷姆说:“在这个领域已经有很多工作,总的来说,这些计算机预测器的质量已经提高了很多。”

然而,雷姆说,计算机预测只是“一个证据”,它本身并不能让她相信 DNA 的变化真的会让人生病。

通常情况下,专家们在获得来自患者的真实数据、家庭遗传规律的证据和实验室测试结果(这些信息通过 ClinVar 等公共网站共享)之前,是不会确认突变是致病的。

雷姆说:“这些模型正在改进,但没有一个是完美的,它们仍然不能让你知道某种变异是否致病。”她说,DeepMind 直接将变异描述为良性或致病,这种做法似乎夸大了其预测结果的医学确定性,让她感到“失望”。


02

微调

DeepMind 表示,新模型是基于此前预测蛋白质形状的 AlphaFold 模型的。

DeepMind 科研副总裁普什米特·科利(Pushmeet Kohli)表示,尽管 AlphaMissense 做了一些非常不同的事情,但该软件在某种程度上“利用了它从之前的任务中获得的”生物学直觉。

由于新模型是基于 AlphaFold 的,它只需要相对较少的运算时间来运行,比从头开始构建消耗的能量更少。

用技术术语来说,模型经过了预训练,随后进行了微调来适应新的任务。

出于这个原因,KdT Ventures 的医生和生物学家帕特里克·马龙(Patrick Malone)认为,AlphaMissense 是“一个很好的例子,展示了人工智能领域最近最重要的方法论发展”。

马龙说:“其背后的核心概念是,经过微调的人工智能能够利用先前学到的东西。”

“预训练框架在计算生物学中特别有用。在该领域中,我们经常受到数据规模的限制。”


03

生物安全风险

DeepMind 表示,它已经免费提供了对人类基因的所有预测,以及完全复制这项工作所需的所有细节,包括计算机代码。

然而,DeepMind 并没有发布整个模型供其他人下载和使用。因为它声称,如果应用于分析人类以外物种的基因会有生物安全风险。

作者在论文的中写道:“作为我们承诺的安全、负责任地发布研究突破的一部分,我们不会共享模型权重,以防止在潜在的不安全应用中使用。”

目前还不清楚这些不安全的应用具体指的是什么,也不清楚研究人员想到了哪些非人类物种。

DeepMind 没有详细说明这些风险,但风险可能包括使用人工智能设计更危险的细菌或生物武器。

然而,至少有一位外部专家(由于谷歌投资了他创办的公司,他要求匿名)表示,这些限制是为了阻止其他人和机构迅速部署该模型,以满足自己的用途。

DeepMind 否认它是出于安全以外的原因限制该模型。

DeepMind 的一位发言人表示,这项工作由研究负责任人工智能的 Google DeepMind Institute 和一位“外部生物安全专家”进行了评估。

DeepMind 在一份声明中表示,对该模型的限制“主要限制了对非人类蛋白质序列的预测”。

“不公开模型权重,可以防止其他人下载该模型,并在非人类物种中使用,从而减少了不良行为者滥用该模型的可能性。”


作者简介:

安东尼奥·尼加拉多(Antonio Regalado)是《麻省理工科技评论》生物医学的高级编辑。他致力于寻找技术如何改变医学和生物医学研究的故事。在 2011 年 7 月加入《麻省理工科技评论》之前,他住在巴西圣保罗,在那里他为《科学》和其他出版物撰写了关于拉丁美洲科学、技术和政治的文章。2000 年至 2009 年,他曾是《华尔街日报》的科学记者。