基因组编辑领域发生了许多突破性的发展。

随着高通量测序的发展,人们对遗传信息与疾病之间的关联关系的认知达到了前所未有的高度。测序是“读”,核酸序列的修改是“写”,继完成了“读”的研究,随之而来的是对“写”的渴望。幸运的是,在过去的二十年中,基因组编辑领域发生了许多突破性的发展。

▲具有潜在临床应用的编辑工具汇总


01迭代中的基因编辑工具

● 首代基因编辑工具:蛋白-核酸结合识别

首代的编辑工具依赖于归巢核酸内切酶(homing endonucleases),是一类通过与20-30bp dsDNA的接触识别来发挥定位功能的蛋白酶。FokI是一种具有dsDNA切割活性的IIS型限制性酶,将两者合成融合蛋白便得到了以二聚体形式产生dsDNA切割效应的编辑工具ZFN和TALEN。然而由于其蛋白识别原理,ZFN和TALEN改变其靶标特异性需要相当耗费人力的蛋白质工程。

在设计方面,识别dsDNA的ZFN锌指结构域的设计挑战较大,且对富含鸟嘌呤的靶点更具偏好。TALEN在蛋白结构上具有氨基酸的重复序列,相比ZFN进一步提高了靶向特异性,但是在size上增大了递送难度(~6kb vs.~2kb)。同样地TALEN也有靶点偏好,在高度甲基化的区域编辑效率较低。

▲ZFN和TALEN编辑工具原理图

● 次世代基因编辑工具:RNA引导的核酸识别

次世代的编辑工具改变了靶向策略,利用引导核酸来靶向互补核酸,极大的提高了靶向不同序列的效率。第一个被证明可以使用引导核酸系统的是Argonaute蛋白,作为真核RNAi 途径的一部分,真核Argonaute(eAgo)采用短RNA-guided(gRNA)来寻找匹配的mRNA序列,后来被开发成靶向DNA用于基因编辑。DNA靶向pAgo的一个潜在优势是不受限于类似原型间隔区相邻基序(PAM)的序列,但相应的也导致Argonaute蛋白靶向dsDNA的能力相对较差,编辑通量低。


02 CRISPR系统的崛起

在自然界中,细菌和古细菌进化出了各种CRISPR-Cas作为适应性免疫系统,利用gRNA-内切酶来结合和切割外来核酸。这种机制使得CRISPR-Cas系统通过调整gRNA序列就可以很容易地实现重新编程,可以广泛地靶向PAM附近的DNA或RNA序列。

▲基于Cas核酸酶的编辑工具

天然存在的CRISPR-Cas系统分为两类,由于单蛋白效应域的优势,实际应用最多的也是Class2,其中II型Cas9变体和V型Cas12变体具有DNA内切酶活性,而VI型Cas13变体具有优先的RNA靶向和切割活性。由于其灵活性和高编辑效率,是目前各大实验室和Biotech公司的常用工具。

▲Cas蛋白的功能分类

自2013年首次作为编辑基因工具应用于哺乳动物细胞以来,CRISPR/Cas9技术已迅速成为主流。包括ex vivo应用的血液疾病、in vivo应用的感染类疾病和粘多糖贮积症等遗传性疾病,其临床都已经在如火如荼的开展。

▲三类编辑工具的对比


03 体内基因编辑治疗的临床进展

Sangamo Therapeutics是采用锌指核酸酶(ZFN)进行人体基因编辑的代表性公司,2022年10月团队在Molecular Therapy上披露其临床Ⅰ/Ⅱ期研究,使用AAV-锌指核酸酶靶向的人体基因组编辑技术递送α-L-艾杜糖苷酶来治疗粘多糖贮积症I(MPSI)(n=3),递送艾杜糖醛酸-2-硫酸酯酶(I2S)来治疗粘多糖贮积症Ⅱ(MPSⅡ)(n=9),递送凝血因子IX来治疗血友病B(n=1)。Sangamo使用杆状病毒昆虫(Sf9)细胞系统制备rAAV2/6,通过静脉给药靶向肝脏进行基因编辑。剂量分别为5e12、1e13和5e13 vg/kg。

ZFN体内编辑疗法在高剂量下(5e13 vg/kg)仍具有良好的耐受性,有7名(53.8%)患者报告了33项治疗相关不良事件(TRAE),均为轻度。通过对肝活检组织的NGS测序,均未显示白蛋白或脱靶SMCHD基因座中存在碱基对插入和/或缺失。但也仅MPSⅡ的3号患者和4号患者以及MPSⅠ的10号患者在注射后24周和48周能够在肝脏组织标本中检测到基因编辑,分子水平显示编辑成功率不高。

▲肝活检组织中的基因编辑情况

在功能层面检测了相关的酶活性,MPS Ⅱ受试者在最低剂量5e12 vg/kg下血浆I2S酶活性没有明显增加,MPS Ⅱ 受试者6(5e13 vg/kg)的血浆I2S活性短暂增加至接近正常范围,在第40天左右达到峰值49.18 nmol/h/mL,但在第100天后下降到接近基线。MPS I 受试者10的艾杜糖醛酸酶活性短暂增加至正常范围的下限内(1e13 vg/kg,18.98 nmol/h/mg),在第138天达到峰值后下降。结果显示无法在血清中维持目标蛋白的持续性表达。

▲SB-913-1602 (MPS Ⅱ)的酶、底物和ALT水平

Jennifer Doudna创立的Intellia利用LNP载体递送sgRNA-Cas9进行体内基因敲除,其治疗遗传性转甲状腺素蛋白淀粉样变性伴多发性神经病(ATTRv-PN)(NTLA-2001)和遗传性血管性水肿(HAE)(NTLA-2002)的管线均处于临床一期。

▲ATTR的CRISPR/Cas9疗法原理

2022年11月Intellia报告了12名患有ATTR淀粉样变性心肌病的成人患者在两种测试剂量下,单剂量NTLA-2001后平均血清TTR降低均超过90%,且随访现已达到四到六个月,总体耐受性良好。

▲第28天血清TTR的下降情况

2023年6月Intellia报告了10名遗传性血管水肿(HAE)患者,通过静脉输注给予单剂量 25 mg(n=3)、50 mg(n=4)和75 mg(n=3)的NTLA-2002, 所有患者的每月发病率平均降低了 95%,中位随访时间为9个月。在所有剂量水平上,NTLA-2002均具有良好的耐受性,并且大多数不良事件的严重程度较轻。

直接递送基因编辑工具开展体内编辑的临床数量并不多,但基于已有的信息可以发现Sangamo和Intellia处于临床阶段的体内基因编辑管线目前安全性尚可,但Sangamo的编辑效率较低,这可能是由于产生位点特异性双链断裂(DBS)后还需要将donor DNA片段插入的原因。而Intellia NTLA-2001仅产生DBS,破坏致病性蛋白即可,由此可见适应症的选择在开发中非常重要。

04  基因编辑工具的迭代方向

虽然目前已经有相对成熟的基因编辑工具,在体内和体外也已经有进入临床的管线。但面对复杂的疾病和给药方式,现有的编辑工具显得捉襟见肘。于是科学家们也在努力地进行优化,迭代的探索和工作大致在以下几个方向:

1 拓展靶向范围

Cas蛋白结合的主要条件是PAM序列的存在。许多Cas9和Cas12同源基因已经被发现可以识别各种PAM序列,如young等报道了SpCas9的突变体SpCas9-eqr、SpCas9-vqr和SpCas9-vrer,分别识别NGAG、NGA和NGCG PAM序列。但提高Cas效应剂的靶向范围,特别是识别不含嘌呤的PAM序列是一个重要的挑战。

2 提高保真度,降低脱靶

张锋团队报道了一种SpCas9变体eSpCas9(1.1),通过丙氨酸扫描发现了位于非目标链结合槽内的带正电残基,并假设中断这些残基与带负电的核酸主链之间的相互作用会降低结合亲和力,筛选突变体后得到的eSpCas9(1.1)变异在人细胞中表现出高效、精准的基因组编辑功能。

2022年UT Austin的David Taylo团队也报道了SuperFi-Cas9变体,是利用冷冻电镜观察发现了Cas9蛋白的线性双链构象以及与距离PAM序列18-20 bp的错配之间的相互作用。而后将蛋白的七个稳定残基都突变为天冬氨酸。结果SuperFi-Cas9切割目标DNA的速度与野生型Cas9相似,但脱靶率低4000倍。

3 拓展编辑形式

复杂的突变类型包括移码突变、缺失突变、插入突变和置换突变等。仅仅是小片段的插入和敲除并不足以满足临床需求,还需要更多种类的编辑工具。

a) 单碱基编辑器

基于Cas蛋白的基础上,融合了胞嘧啶脱氨酶或腺嘌呤脱氨酶形成了单碱基编辑器。可以有效地介导所有四种可能的过渡突变(C→T,A→G,T→C,G→A),约占目前注释的人类致病变异的30%。在临床应用中,不产生双链断裂的编辑避免了许多潜在风险也是巨大的优势。

▲单碱基编辑器原理

▲单碱基编辑公司概况(不完全统计)

b) Prime editing

对于多个位点突变,又需要修复还原的核酸片段,原有的编辑工具是无法实现的。而且由于当前的CBE和ABE系统仅涵盖12种可能的过渡突变中的4种,也进一步催生了新编辑系统的发展如Prime editing。Prime editing是David liu开发的Cas9 (失活的HNH核酸酶)和工程逆转录酶结构域之间的融合蛋白形成的新型编辑工具。通过逆转录酶将pegRNAs含有的逆转录模板逆转录并整合到基因片段上,可以实现最多50个核苷酸的小插入和最多80个核苷酸的删除。和单碱基编辑器一样,Prime editing可以在不诱导DSB的情况下产生所有可能的过渡突变、插入和缺失。2021年Jonathan等人开发了位点特异性靶向元件(PASTE),在Prime editing进一步增加了丝氨酸整合酶,实现约36 kb的片段整合,整合率可以达到10%~15%,而且不会产生双链断裂。

▲Prime editing原理图

▲Prime editing公司

c) Gene Writing

基于Cas蛋白的基础上还可以融合转座酶,可以实现大片段(>8kb)的插入和删除即gene writing,但到目前为止效率较低且目标序列有很大限制。

▲基于piggyBac的GFP插入系统

海外做Gene Writing的公司已经有好几家,均处于早期的研发阶段,其中高丰度转座子库的开发是该领域公司的核心竞争力之一。对于管线的选择和其他基因编辑公司不一样,更多针对于需要大片段基因替换的适应症如营养不良性大疱性表皮松解症。

▲ZGene Writing公司概况(不完全统计)

d) Epigenetic editing

为了实现可调控的、可逆的,避免DNA断裂以减少相关的细胞毒性,研究者们开发了可编程表观基因组编辑。表观遗传是真核细胞用来永久抑制基因表达的强大机制,可以在染色质中影响基因组功能而不改变其主要的DNA序列。2016年Luigi Naldini 和 Angelo Lombardo 在 Cell 上发表了表观遗传编辑靶向内源基因实现基因沉默的开创性工作。将 KRAB、DNMT3A或DNMT3L结构域融合到dCas9的C末端, 在高达 78% 的细胞中诱导稳定的基因沉默,尽管沉默效率较低。2021年Jonathan S.Weissman团队基于CRISPR系统开发出CRISPRon和CRISPRoff,是由ZNF10 KRAB,Dnmt3A(D3A)和Dnmt3L(D3L)蛋白结构域组成,融合到催化无活性的化脓性链球菌dCas9,该系统可以精确调控 DNA 甲基化修饰和基因转录,且不依赖于启动子CpG结构。在转染各种细胞系15个月或约450次细胞分裂后,39个克隆中有38个保持 CLTA 沉默。初步证明体外沉默的持久性,这意味着该策略有潜力实现单次给药,瞬时表达起效并维持长期的沉默。

▲CRISPRon和CRISPRoff示意图

Chroma Medicine即是基于上述研究成果成立的,同领域还有Tune Therapeutics、Epic Bio等公司。其中Epic Bio的靶向系统采用的CasMINI蛋白,仅有529个氨基酸(1587 bp),是Cas9长度的40%,可以解决由于尺寸过大带来递送效率与编辑效率的限制。

▲DNA表观遗传编辑公司概况(不完全统计)

4 拓展编辑对象-细胞器

2018年Michal Minczuk团队开发了线粒体靶向锌指核酸酶(mtZFN),对m.5024C>T tRNAAla突变型的小鼠进行编辑验证。2020年David R. Liu团队报道了能够进行线粒体DNA单碱基编辑的工具DdCBE。将DddA半体(一种具有双链DNA胞嘧啶脱氨活性的细菌毒素)与一个TALE序列相连接,在线粒体靶向信号(MTS)的介导下进入线粒体中,形成二聚体后完成mtDNA靶向位置的C·G→T·A碱基编辑。然而DdCBE在HEK239T细胞系中被发现会泄漏至细胞核导致的核基因组脱靶编辑,因此在双侧TALE序列的设计上仍需要进一步的优化。

▲靶向MT-ND6的线粒体单碱基编辑器

Michal Minczuk等人基于2018年的工作成立了治疗线粒体功能障碍相关疾病的公司 Pretzel Therapeutics,并于2022年9月完成由ARCH Venture和Mubadala Capital领投的7250万美元A轮融资,截至目前具体的管线仍未披露。

5 缩小编辑工具的尺寸

由于递送载体的限制,编辑工具的大小非常重要。其中SpCas9含有1368个氨基酸(aa),约4.1kb。这对于最常用的基因治疗载体AAV来说是无法有效包装的,同时受限于适应症,LNP等脂质体技术还无法实现高效肝外组织靶向的产业化。从下表可以发现,缩小编辑工具的尺寸也将是一个重要的迭代方向。

▲RNA编辑工具尺寸数据整理


05 不断突破的De novo蛋白设计技术

● De novo蛋白设计技术催生药物开发的新时代

随着近十年AI发展以及对蛋白质结构和折叠的了解不断加深,De novo的蛋白质设计技术愈发受到关注,并带来了新的机会。2020年David Baker团队报告了一种“deep network hallucination”的算法,针对天然序列和结构训练的深度神经网络可以创建新的蛋白质,其序列与天然蛋白质的序列无关并且可以折叠成稳定的单体结构。

▲protein hallucination的原理

通过可以预测所有残数对之间的距离和方向分布的trRosetta进行蛋白3D结构的重建,生成完全随机的100个氨基酸序列输入模型中,对于产生的每个序列空间执行Monte-Carlo迭代求解的模拟退火算法,形成了非常不同的序列和结构,最后使用trRosetta将最终的锐化距离图转换为蛋白质3D结构。David Baker团队在2023年基于上述模型,生成大量包含不同活性催化位点的理想蛋白质结构支架,并设计出编码他们的氨基酸序列。最终实现从头设计荧光素二苯四嗪 (DTZ) 为底物的LuxSit荧光酶素(13.9 kDa) 。这些荧光素酶体积小、高度稳定、在细胞中表达良好、对一种底物具有特异性并且不需要辅助因子即可发挥作用。

▲理想化支架的生成

基于以上成果,David Baker成立了Monod Bio并于2022年8月完成2500万美元种子轮融资,也是首个将蛋白质从头设计用于生物传感器和医疗诊断的公司,其核心技术包括LucCage生物传感器平台和LuxSit从头设计光素酶平台等。

David Baker团队于2023年还报道了新的模型,通过把去噪扩散概率模型(DDPMs)与RoseTTAFold结合而产生新的RFdiffusion模型可根据需要“定制化”设计出包含高阶对称结构等以往无法通过AI设计的蛋白质。RFdiffusion是本领域前进的一大步,但离开发有效疗法或者其它特殊功能蛋白方面仍然有距离。

● De novo蛋白设计在基因编辑工具开发上的挑战与机会

过往进行新的基因编辑工具的开发和迭代,都依赖于从自然界中大量的宏基因数据进行算法挖掘和湿实验的反复验证,是一件费时费力的工作。那我们是否可以同样地期待通过“Deep Network Hallucination”算法,结合RoseTTAfold或AlphaFold2高效产生的新蛋白支架,实现新型基因编辑蛋白的从头设计?

基于AI的基因编辑蛋白从头设计思路大致拆解为:

1、针对自然界中存在的Cas蛋白及对应的gRNA结构进行学习,提取gRNA以及endonuclease活性的关键结构特征;

2、基于大规模蛋白序列的语言模型进行单一序列的输入,保证精度并提升速度,结合3D结构折叠模型进行De novo设计;

3、通过高通量的数据训练,对编辑蛋白的免疫原性、活性等关键性质进行约束性优化;

4、候选蛋白进行高通量体外湿实验筛选。

诚然前景美好,但通用蛋白设计算法要应用于基因编辑蛋白的开发,需要根据不同编辑对象、编辑位点、编辑形式来开发实现不同编辑功能的蛋白,仍需要在数据端、模型端进行大量的摸索和创新,其主要的挑战在于:

1、基因编辑酶的大尺寸和多元件配合的复杂性远高于一般的蛋白,通用型蛋白模型的迭代无法直接转化为该领域的优化;

2、模型要摆脱传统直白的数据来源与简单“平均化”的处理思路,创新性的引入跨越量级的新数据,结合基因编辑酶不同位点的协同性和功能发挥原理,重新定义模型假设和优化目标以提升预测精度;

3、需要在通量、时间、成本的多重考量上,重新设计和搭建符合基因编辑蛋白验证要求的湿实验数据产生与反馈平台。

因此基因编辑工具De novo设计模型的“二次”开发需要AI模型、蛋白设计、RNA折叠、宏基因组学、靶向测序工具等跨学科跨领域的技能融合和工具掌握,具有极高的技术门槛。


06 基金总结

总的来说,基因编辑工具作为生命科学领域重要的底层技术和核心驱动力,早期开创性的工作已荣膺诺奖,如今呈现精细化迭代发展的趋势,诸多该领域的初创公司因为在某个方向上的突破性进展而备受资本青睐。根据Strategic Market Research的数据,目前整个基因编辑工具的年销售额为51亿美元,主要集中在Broad Institute、UC Berkeley,Mammoth Bio等少数几家拥有核心专利的研究所和公司。预计在2026年达到117亿美元,在2030年达到214亿美元(CAGR 17.33%)。主流的生物技术和制药企业都在此领域进行布局,模式主要为授权、共同开发和管线交易。

▲基因编辑工具或管线的交易案例

基于AI技术以更快速更低成本的方式,来开发小尺寸、高编辑效率、高稳定性、低脱靶率且在各方面性能全面提升的类Cas编辑工具(带有核酸结合域和/或核酸酶切活性),是基因编辑领域极具前景的探索方向。此外,De novo设计的蛋白具有与天然蛋白非同源的氨基酸序列,不受已有的专利限制。这有望实现对不同的靶点需求量身定制不同的编辑系统,极大地拓展了适应症和临床应用的可能性,也随之带来巨大的临床价值与商业机会。

注:本文经授权转载自上海生物医药基金公众号,参考文献详见公众号原文。

关于上海生物医药基金

上海生物医药基金是经上海市人民政府批准,总目标管理规模为人民币500亿元的市级产业基金,由上实集团发起设立。基金将利用上海市发展生物医药的综合优势,依托产业资源,打造一个“立足沪港、联动长三角、面向全球”的生物医药领域创新投资平台。基金以金融资本和产业资源相结合、境内和境外运作相结合的方式,重点投向符合上海生物医药产业发展战略的关键领域,包括高端生物制品、创新化药及制剂、高端医械及诊断、医疗健康领域的创新业态等各大主要项目领域。 

关于上海生物医药创新转化基金 

上海生物医药创新转化基金是上海生物医药基金旗下专注生物医药产业“从 0 到 1”阶段投资机会的早期基金,由上实集团、上海医药、国方资本及上海市天使投资引导基金共同发起设立,基金重点聚焦原创科学研究成果和前沿创新技术的成功转化和应用,以建设“聚焦上海、联动长三角及大湾区、面向全球”的创新转化平台为目标,投资并支持具有国际领先水平的原创技术,通过链接创新生态圈内各类型创新主体、服务主体,打造具有上海特色的“创新+产业+资本”平台。