CRISPR基因编辑技术在生物医学等领域有着很多应用,从治疗遗传疾病、癌症,到农业育种、核酸检测等等。CRISPR基因编辑依赖于其两种组分,向导RNA(guide RNA,gRNA)负责识别和靶向目标位点,Cas酶负责对目标位点的切割。CRISPR-Cas9是应用最为广泛的CRISPR系统,但越来越多研究显示,其对DNA的直接切割具有潜在风险。

近年来,越来越多的CRISPR-Cas家族被相继发现,其中CRISPR-Cas13是新型CRISPR工具中的耀眼新星(尤其是Cas13d)。与Cas9不同的是,Cas13是靶向切割RNA。RNA靶向的CRISPR系统为开发新一代的基因编辑疗法带来了巨大希望。

2023年7月3日,纽约大学和哥伦比亚大学的研究人员在 Nature Biotechnology 期刊发表了题为:Prediction of on-target and off-target activity of CRISPR–Cas13d guide RNAs using deep learning 的研究论文。

研究团队将深度学习技术与CRISPR筛选相结合,开发了一种人工智能(AI)平台——TIGER,可以预测RNA靶向的CRISPR系统(CRISPR-Cas13d)的上靶和脱靶活性,还能实现对基因表达水平的精确调控。这项新技术为CRISPR基因编辑疗法中的精准基因调控铺平了道路,也进一步推动了RNA靶向的CRISPR系统在人类遗传学和药物发现方面的广泛适用性。

论文通讯作者 Neville Sanjana 表示,随着从CRISPR筛选中收集到更大的数据集,应用复杂机器学习模型的机会越来越快。有了TIGER模型,我们可以预测脱靶活性,还能实现对特定基因表达水平的精确调控,这使得RNA靶向的CRISPR在生物医学领域的许多令人兴奋的新应用成为可能。

RNA靶向的CRISPR系统有着广泛的应用前景,例如,RNA编辑、靶向敲低mRNA来抑制特定基因表达、进行药物的高通量筛选、识别非编码RNA的功能,还可以用来预防或治疗RNA病毒的感染。

高精度是治疗性RNA靶向的CRISPR技术安全性的关键,要想推进Cas13的临床应用,需要实现两个关键目标——最大化上靶活性(on-target)、最小化脱靶活性(off-target)。脱靶活性包括gRNA和目标RNA的错配(mismatches),以及产生的插入和缺失突变(indels)。

然而,早期针对RNA靶向的CRISPR系统的研究主要集中在上靶活性和错配上,而对脱靶活性的预测,特别是插入和缺失突变,还没有得到很好的研究。在人类中,大约五分之一的基因突变属于插入或缺失突变,所以这是CRISPR设计中需要考虑的重要的潜在脱靶类型。

在这篇最新论文中,Neville Sanjana 团队在人类细胞中进行了一系列RNA靶向CRISPR筛选实验,在多个人类细胞系中检测了20万个靶向必需基因的gRNA的活性,包括完美匹配的gRNA,以及导致错配、插入或缺失突变的脱靶gRNA。从而生成了一个大型Cas13d数据集,对Cas13d gRNA的上靶和脱靶活性进行了全面评估。

Neville Sanjana团队与机器学习专家、哥伦比亚大学计算机科学助理教授 David Knowles 合作,通过上述数据训练了一个深度学习模型,将其命名为TIGER(Targeted Inhibition of Gene Expression via gRNA design)。

将深度学习模型预测生成的结果与在人类细胞中进行的实验室测试相比较,TIGER能够准确预测上靶活性和脱靶活性,这也成为了第一个预测RNA靶向的CIRSPR系统的脱靶活性的工具。

论文共同通讯作者 David Knowles 表示,利用现代高通量实验产生的庞大数据集,机器学习和深度学习正在基因组学领域显示出巨大优势。更重要的是,我们还能够使用“可解释的机器学习”来理解为什么该模型能够很好地预测gRNA的效果。

Neville Sanjana 实验室之前的研究展示了如何设计能够敲低特定RNA的Cas13 gRNA,而现在有了TIGER,就可以进一步指导对Cas13 gRNA的设计,在靶向敲低和避免脱靶活性之间取得平衡。

通过将人工智能(AI)与RNA靶向的CRISPR筛选相结合,研究团队设想TIGER的预测将有助于避免不希望的脱靶活性,进一步促进新一代RNA靶向疗法的发展。

TIGER模型预测最佳Cas13d gRNAs

在这项最新研究中,研究团队还证明了,TIGER的脱靶预测可以用来精确地调控基因表达水平,通过错配gRNA实现对特定基因的部分表达抑制。这对于许多由于基因拷贝数增加导致的疾病具有重要意义,例如唐氏综合征、某些类型的精神分裂症、腓骨肌萎缩症,以及一些因为基因异常表达导致的癌症。

使用TIGER来设计gRNA,实现对基因表达水平精确调控

总的来说,该研究开发了的AI预测模型增强了我们对gRNA靶向特异性和避免脱靶的理解,还能在一定程度上实现对基因表达水平的精确调控。这项研究进一步推动了RNA靶向的CRISPR系统在人类遗传学和药物发现方面的广泛适用性。

论文链接:https://www.nature.com/articles/s41587-023-01830-8