科学家开发基于深度学习的预测模型,有望在基因疗法领域获得应用
“人工智能和基因编辑是当下两个比较热门的研究领域,而我们这项研究正是这两者之间的有效结合。在我看来,生物学与人工智能的结合是一个非常有发展潜力的方向。我们的研究只是一个开始,相信今后一定会有更多优秀的成果诞生。”美国国家儿童医院和乔治·华盛顿大学助理教授李炜表示。
图丨李炜(来源:李炜)
据介绍,作为原核生物的一种保护机制,规律间隔成簇短回文重复序列和其关联(Clustered Regularly Interspaced Short Palindromic Repeats and CRISPR-associated,CRISPR/Cas)系统能够有效地抵抗外来遗传物质的入侵。基于其开发出的基因编辑技术,近年来也在基因治疗、生物医学等领域应用广泛。
在这些基因编辑技术中,用于 DNA 编辑的 CRISPR-Cas9 较为常见,而 CRISPR-Cas13(包括 Cas13a、Cas13b、Cas13c、Cas13d 等),则属于专门靶向单链 RNA 的系统。
在应用 CRISPR-Cas13d 的过程中,相关领域内的科研人员们发现了一个重要问题,即如何才能准确地预测 CRISPR-Cas13d 导向依赖的靶内(on-target)和靶外 (off-target) 效应。
为了解决该问题,李炜课题组与中国东北大学的费腾教授课题组合作,进行了 CRISPR-Cas13d 的高通量筛选,并设计了一个名为“DeepCas13”的深度学习模型,用于预测 CRISPR-Cas13d 的靶向活性。
简单来说,该研究攻克了 Cas13d 这种基因编辑工具的“导航”问题,也就是如何设计特定的向导 RNA(single guide RNA,sgRNA),使其能够帮助核酸酶找到指定靶标 RNA 的位置。
“我们针对多个靶标 RNA,先设计了大量的 sgRNA,相当于为 CRISPR-Cas13d 系统设计了许多条前往终点的道路,再通过高通量的筛选体系评价每条道路的效果,继而通过机器学习模型,高效精准地总结出达到目标位置的合适路径的规律,即找出 sgRNA 的合理设计原则。”费腾表示。
图丨费腾(来源:费腾)
实验结果显示,DeepCas13 模型的性能优于现有的其他同类工具和传统的机器学习方法,并在环状 RNA、长链非编码 RNA 等非编码 RNA 导向的预测上表现出良好的性能。
除此之外,该团队还对 CRISPR-Cas13d 的靶外效应进行了系统评估,发现决定靶外效应的特征,与靶内效率相关的特征非常相似。
目前,该模型已经能够通过相关网站(http://deepcas13.weililab.org/)进行免费访问。
图丨 DeepCas13 与最先进工具的性能比较(来源:Nature Communications)
2023 年 2 月 10 日,相关论文以《使用机器学习方法建模 CRISPR-Cas13d 靶内和靶外效应》(Modeling CRISPR-Cas13d on-target and off-target effects using machine learning approaches)为题在 Nature Communications 上发表 [1]。
图丨相关论文(来源:Nature Communications)
乔治·华盛顿大学博士后研究员程孝龙和中国东北大学李泽旭博士为该论文的共同第一作者,李炜教授和费腾教授为论文的共同通讯作者。
据介绍,这项研究是两个课题组的深度合作。“费腾老师实验室负责生成很多高通量筛选的数据,我们会基于这些数据构建深度神经网络模型,再将模型预测的结果交由他们进行实验验证。”李炜说。
在研究过程中,他们遇到了包括计算和实验在内的诸多困难,也面临与其他研究团队在同一时期开展相似研究的情况。“这对我们来说是一个比较紧张的信号,如果我们不能加快速度,论文有可能会被同行抢先发表。幸运的是,在两个课题组和其他合作者的通力合作下,论文最终得以成功发表。”李炜说。
图丨预测靶向非编码 sgRNA 的 sgRNA 活性(来源:Nature Communications)
在人的细胞里,RNA 系统比 DNA 系统要复杂得多,且很多疾病都与 RNA 相关。因此,DeepCas13 的出现,给基础研究和临床提供了一种全新的预测工具。其不仅可以用于研究一系列科学问题,还有望在未来直接通过靶向 RNA 的方式治疗诸多人类疾病。
“我觉得未来 5 至 10 年应该是基因疗法的黄金时期。作为一种有效的预测方法,DeepCas13 能够帮助科学家设计基于 CRISPR-Cas13 的高效的基因疗法系统。”李炜表示。
图丨 DeepCas13 能够有效预测 Cas13d 靶向活性(来源:Nature Communications)
未来,该团队希望能够生成更多的数据,不断地提高深度学习模型的预测效率和准确性。
由于该模型主要基于深度学习的卷积神经网络和递归神经网络构建,因此他们还想尝试采用一些更新的架构,比如 Transformer 模型,在不断迭代中提升 DeepCas13 的性能。同时,他们也将致力于推动该模型在动物实验或临床实验上的应用。
此外,目前 DeepCas13 仅适用于 CRISPR-Cas13d 系统,接下来他们计划将该研究拓展至整个 RNA 编辑领域,以形成更加完整全面的工具包。
“我们不仅聚焦 RNA 编辑,对其它的一些工具也非常感兴趣。所以我们还想顺着这个研究思路继续前进,为基因编辑领域的工具优化提供更多潜在的解决方案。”费腾表示。
参考资料:
1. Cheng, X., Li, Z., Shan, R. et al. Modeling CRISPR-Cas13d on-target and off-target effects using machine learning approaches. Nature Communications 14, 752 (2023). https://doi.org/10.1038/s41467-023-36316-3
声明:本站所有文章资源内容,如无特殊说明或标注,均为采集网络资源。如若本站内容侵犯了原著者的合法权益,可联系本站删除。