Sanger研究院的研究人员开发了一种新工具,使用一种称为prime editing的技术,可以预测成功将基因编辑的DNA序列插入细胞基因组的几率。

作为CRISPR-Cas9基因编辑技术的演化,prime editing编辑在治疗从癌症到囊性纤维化等人类遗传疾病方面具有巨大潜力。但到目前为止,决定编辑成功的因素还没有得到很好的解释。

这项研究2月16日发表在《自然生物技术》杂志上,评估了使用prime editors引入基因组的数千种不同的DNA序列。然后,这些数据被用于训练机器学习算法,帮助研究人员为特定的遗传缺陷设计最佳修复方案,这有望加快将主要编辑技术引入临床。

CRISPR-Cas9于2012年开发,是第一个易于编程的基因编辑技术。这些“分子剪刀”使研究人员能够在基因组的任何位置切割DNA,删除、添加或改变DNA序列的部分。这项技术已被用于研究哪些基因对各种疾病(从癌症到罕见疾病)很重要,并开发出修复或关闭有害突变或基因的治疗方法。

碱基编辑器是在CRISPR-Cas9基础上扩展的一项创新,因其能替代DNA单个碱基的能力而被称为“分子铅笔(molecular pencils,生物通注)”。2019年开发的最新基因编辑工具被称为prime editors(引导编辑,生物通注)。它们能够直接在基因组上进行搜索和替换操作,精度很高,因此被称为“分子文字处理器(molecular word processors,生物通注)”。

这些技术的最终目的是纠正人类基因中的有害突变。超过16000个小缺失变异(即从基因组中去除少量DNA碱基)与疾病有因果关系。这包括囊性纤维化,其中70%的病例是由仅三个DNA碱基的缺失引起的。2022年,碱基编辑的t细胞被成功用于治疗一名化疗和骨髓移植失败的白血病患者。

在这项新研究中,研究人员设计了3604个长度在1到69个DNA碱基之间的DNA序列。这些序列被插入到三种不同的人类细胞系中,在不同的DNA修复环境中使用不同的prime editor传递系统。一周后,对这些细胞进行基因组测序,观察编辑是否成功。

他们对每个序列的插入效率或成功率进行评估,确定每次编辑成功的共同因素。研究发现,序列的长度是一个关键因素,涉及的DNA修复机制的类型也是一个关键因素。

这项研究的第一作者、来自韦尔科姆桑格研究所的Jonas Koeppel说:“成功编辑基因组的主要因素有很多,但我们发现了哪些因素提高了成功编辑的几率。序列的长度是这些因素之一,但它不是那么简单,序列越长,插入就越困难。我们还发现,一种DNA修复阻止了短序列的插入,而另一种修复阻止了长序列的插入。”

为了帮助理解这些数据,研究人员转向机器学习来检测决定插入成功的模式,例如长度和所涉及的DNA修复类型。在现有数据上进行训练后,该算法就会在新数据上进行测试,研究人员发现这种算法可以准确预测插入的成功率。

这项研究的第一作者Juliane Weller说:“简单地说,三个DNA密码的几种不同组合可以编码蛋白质中的同一种氨基酸。这就是为什么有数百种方法来编辑一个基因,最终在蛋白质水平上达到相同的结果。通过将这些潜在的基因编辑输入机器学习算法,我们创建了一个模型,根据它们起作用的可能性对它们进行排名。我们希望这将消除prime editing过程中的大量试验和错误,大大加快进程。”

该团队的下一步将是为所有已知的人类遗传疾病建立模型,更好地了解是否以及如何使用prime editing来修复这些疾病。

这项研究的资深作者、威康桑格研究所的Leopold Parts博士说:“prime editing在改善人类健康方面的潜力是巨大的,但首先我们需要了解进行这些编辑的最简单、最有效和最安全的方法。这一切都是与游戏规则有关,这项研究得出的数据和工具将帮助我们做到这一点。”

参考文献

Sequence and DNA repair determinants of writing short sequences into the genome using prime editing