2023年2月20日,国际顶刊《自然》杂志在一篇题为《Innovative technologies crowd the short-read sequencing market》的文章中介绍了当下国际基因测序设备行业的分布情况,其中被提及的唯一一家中国基因测序设备企业华大智造(MGI),是目前市场上全球唯二产品能够覆盖高中低不同通量的公司,具备全球竞争力。

一系列令人眼花缭乱的技术可用,各实验室必须权衡他们的选择,以找到最适合他们项目的平台。

科技领域有句老话:“谁都不会因为买IBM而被解雇”,意指该公司曾经无处不在的电脑。将IBM换成Illumina,一家位于加利福尼亚州圣地亚哥市的生物技术公司,同样可以用于描述当前DNA测序市场。

马萨诸塞州波士顿市Ginkgo Bioworks公司的计算生物学家Keith Robison在名为Omics!Omics!的博客中写道,对于大多数实验室来说,Illumina“是一个非常安全的选择”。然而,IBM在计算机市场的主导地位已经过去,作为当前的测序市场巨头,Illumina的地位现在同样面临着多个竞争对手的挑战和威胁。

自然而然地,研究人员正关注这个问题。Pedro Oliveira是位于埃夫里的法国国家测序中心(也称为Genoscope)的DNA测序实验室的负责人,该实验室最近参与了数个欧洲大型研究项目,包括欧洲参考基因组图谱(European Reference Genome Atlas),这将带来每周四个基因组的预期工作量。Genoscope的优先事项之一将是拓展其使用Illumina仪器的设备库,但购物清单并不受限于此,Oliveira有许多测序平台可以考虑。

一些仪器使用互补的方法生成跨越数千个核苷酸的长读长序列,与Illumina的“短读长(short reads)”形成对比,后者通常在100到200个碱基范围内。但是,过去一年同样见证了数家与之竞争的短读长系统的上市,每个系统都在宣传其自身的优势,包括质量、效率和最关键的成本。Oliveira说:“我们正在经历这些令人兴奋的时刻,因为这是平价测序的开始。”但是,目前较大的选择范围反而令人困惑,因为大多数科学家仍待看到实际数据去评估这些平台与其项目的匹配程度。


一个安全的选择

Illumina于2007年收购了一家名为Solexa的公司,并由此进入了测序市场。Solexa的“边合成边测序(SBS)”技术利用了生物细胞中制作DNA的相同机制,DNA聚合酶读取模板链并逐个添加与模板链互补的核苷酸。

四种DNA的基本构成要素——A、T、G和C——各自耦合一个特定颜色的荧光基团和一个“终止子”化学基团,使DNA合成可暂停,灵敏的光学设备通过检测产生的荧光信号识别新加入的核苷酸,随后荧光标签和终止子被移除,循环重复。整个过程发生在类似晶片的“流动池(flow cell)”中,大量的目标DNA同时被成像,每次运行可生成数百万甚至数十亿个短读。

这种方法非常成功,据估计,截至2022年,全球90%以上的测序数据是由Illumina的仪器产出(参见go.nature.com/3abj7ng)。多家竞争对手曾出现并挑战Illumina,但大多数都失败了,其中许多公司被纪念在“NGS墓园”(参见go.nature.com/3xwvmkt)中。瑞士苏黎世功能基因组中心的短读测序主管Catharine Aquino将Illumina的成功归因于其技术的专业,“仅仅是其他公司在文库制备或测序方面不够可靠”,她说。

Illumina的产品组合包括用于快速分析少量样本的紧凑型台式系统,例如价格为2万美元的iSeq测序系统,以及大型高端的NovaSeq 6000,其价格接近100万美元,每2天可以生产多达6万亿个碱基(6TB)的序列,约为人类基因组长度的2000倍。据Illumina的首席技术官Alex Aravanis称,Illumina的新一代NovaSeq X生产级测序仪使用重新设计的流动池,可以容纳更高密度的测序反应,并使用改进了的SBS化学和光学。该公司报告称,其今年出货的新系统每次运行至多可产出三倍于先前的NovaSeq 6000的数据量,将测序成本降至每个人类基因组200美元。


一系列的其他选择

除了人类基因组组装和突变分析之外,新的应用推动了对更多、更好、更低成本的短读数据的需求,这些应用包括从表观遗传学到染色质构象再到蛋白质组学等各个方面。Aquino估计,她所在机构60%的工作现在涉及单细胞RNA测序,这是一种需要大量测序的技术,可以分析数千个甚至数百万个单细胞的基因表达。为了满足这一激增的需求,创业公司和知名公司纷纷进入了这个领域。

一个发展完备的选手,中国基因测序设备行业龙头华大智造,提供了类似于Illumina的SBS方法的独特改变。华大智造和Illumina都使用生化反应在流动池表面产生模版DNA的多个拷贝,从而增强荧光信号,但华大智造的DNBSEQ平台使用一种更低成本的方法,将模板转化为“DNA纳米球”阵列。加拿大蒙特利尔麦吉尔基因组中心的基因组科学主管Ioannis Ragoussis曾在其机构中使用DNBSEQ仪器,并表示:“数据质量非常好,并比Illumina更具成本效益。”

在新来者中,圣地亚哥的Singular Genomics公司的G4台式系统可能是最像Illumina的,但G4还采用了一种流动池设计,可以更容易地同时运行多个测序实验。亚利桑那州菲尼克斯市转化基因组研究所的新兴技术副总裁Stephanie Pond对G4进行了beta测试,并指出:“它确实面向这些更小、更灵活的项目。”

Ultima Genomics的流动池则更具特色,该公司位于加利福尼亚州纽瓦克市,他们不使用密封的芯片来控制试剂的流动,而是将测序试剂应用于转盘的裸露表面,由此产生的离心力将这些材料均匀分布在盘面上,降低了流动池设计的复杂性和所需试剂量,从而降低了每次测序运行的成本。Ultima 还通过使用带标记和未标记的核苷酸混合物而非全部用昂贵的带标记核苷酸来降低成本[1]。在一项研究中,在马萨诸塞州剑桥市的麻省理工学院和哈佛大学布罗德研究所中的早期使用者,记载了Ultima Genomics在单细胞基因表达实验中的性能与 Illumina 相当[2]。

最后,Element Biosciences(位于圣地亚哥)和Pacific Biosciences(PacBio,位于加利福尼亚州门洛帕克市)开发的化学反应是新短读长测序仪的两种选择,两者都依赖于标准 SBS 方法的两阶段替代方法,其中荧光标记的核苷酸不是永久地添加到新合成的 DNA 中,而是暂时性地结合到正在延伸的链上,一旦成像完成,它们就会被洗掉并替换为未标记的核苷酸。

这导致了一个更自然的DNA合成过程,同时也允许对标记步骤进行精细优化,Element 和 PacBio (一个已在复杂长读长系统中知名的公司)都强调了它们方法的准确性。在纽约市威尔康奈尔医学院使用 Element 的 AVITI 系统研究太空飞行对人类生理的影响的基因组研究员 Christopher Mason 表示:“我们看到了极高质量的数据。”


权衡利弊

测序仪通常可以分为两类:包括Illumina NovaSeq在内的生产级仪器和例如Illumina NextSeq的较小的台式仪器,目前,只有Illumina和MGI是市场上全球唯二产品能够覆盖高中低不同通量的公司,其他短读长公司则专注于特定的通量级别。

生产级仪器庞大而昂贵,但对于许多大规模基因组学或单细胞RNA测序研究来说,这种通量是必不可少的,并且这些仪器往往是核心测序机构的支柱。布罗德研究所作为世界领先的基因组学研究机构之一,其首席基因组学官Stacey Gabriel表示,该机构几乎所有的测序都使用这类仪器。她说:“我们有32台NovaSeq,并充分使用它们。”并补充道她的团队将利用新的NovaSeq X仪器来增加测序能力。

Ultima的UG 100测序仪也在这个范围内运行,但旨在通过更便宜的测序成本来抵消其硬件高昂的费用。该公司声称有潜力以100美元的价格提供完整的人类基因组序列——比NovaSeq X的价格便宜一半。布罗德研究所是UG 100的早期用户之一,Gabriel表示,虽然该技术仍待成熟,但她看到了将其纳入全基因组分析和高通量测序(如单细胞转录组学)工作流程的明显机会。

“我们有32台NovaSeq,并充分使用它们。” 麻省理工学院和哈佛大学布罗德研究所的首席基因组学官Stacey Gabriel如是说。

在购买决策方面,设备和试剂只是计算的一部分,公开宣布的每个基因组的价格并未考虑劳动力、维护和其他支持成本。Ragoussis表示,机构每年需要支付仪器基础成本的10%作为服务合同费用,这可能会使许多实验室无法负担甚至中档台式仪器。最重要的是,只有当生产级仪器满负荷运行时,相对于台式仪器,它们才更具成本效益。Pond说:“有许多不够大或半工业规模的项目难以‘喂饱这些猛兽’。”这对于处理无法在单个流动池中同时运行的多个实验的实验室也可能是一个问题。

在这种情况下,台式仪器可能更合适,这是PacBio、Singular和Element目前竞争的领域。这些仪器通常的成本在20万到40万美元之间,并且在以最低每千兆碱基价格提供最多数据这一项目上有强有力的竞争。Mason说:“成本仍然是最大的驱动力(838275,诊股)之一,因为最终人们只能从拨款中获得这些钱。”并补充道,MGI一直在利用这个压力点推动其产品的采用,甚至向一些愿意花一定金额定期订购试剂的实验室免费提供仪器。

质量是另一个至关重要的考虑因素,在这方面, Illumina 也树立了一个高标准。对于大多数读取,Illumina的系统在 1000 次读取中可以正确读出999个碱基,这是一个称为 Q30 的精度标准,而其最新一代的“XLEAP-SBS”化学方法据称将该精度提高了三倍。PacBio 声称其新的仍处于测试阶段的Onso仪器具有10000 个碱基中一个或更低的错误率,即Q40,而 Mason表示,他用已验证的基因样本进行的测试结果证明了这一点。他说:“在读取的开始阶段,质量甚至更好”,报告的质量几乎比Q40好一个数量级。Mason认为,进一步优化用于分析Onso生成的数据的计算工具可能会带来更好的性能。

Element Biosciences 的科学家们在 2022 年的一篇预印本[3]中也强调了使用 AVITI 仪器对人类基因组大多数碱基实现Q40质量的能力,该公司的价格优势超过了PacBio,与 Illumina 的每个人类基因组 200 美元的价格相当,是Onso价格的大约七分之一。原则上,更高质量的读取减少了常规基因组研究所需的测序量,对于液态活检中的循环肿瘤源DNA的分析等应用可能提供决定性的优势。Gabriel解释说:“在正常DNA的海洋中,这些DNA的含量非常少,所以必须进行深度测序。”

在选择测序平台时的另一个考虑因素是与现有工作流程的兼容性。额外的处理步骤,这可能会对现有的流程产生阻碍。Mason表示:“这并不是不可逾越的,它只是需要更多的时间和劳动力。”对于流程化该过程,进一步的自动化也是必要的。

稳定性和可靠性也是必不可少的,因为即使短暂的停机也会干扰实验室的运作。Aquino表示,在这方面,Illumina拥有出色的声誉,她说:“有时,在我们知道出了什么问题之前,我们的工程师已经在那里了。所有这些公司还需要几年时间来建立支持系统和积累经验。”


追求长读长

并非所有的测序应用都适合短读长技术,因此,像PacBio和英国牛津纳米孔技术(ONT)这些公司也在努力改进其长读长技术。

这两家公司都提供可直接分析跨越数万甚至数十万个核苷酸的单个DNA分子的系统。对于 PacBio,这需要将模板DNA链送入锚定在固体表面上的聚合酶中,然后使用精密光学技术检测DNA合成过程中单个标记核苷酸的添加。ONT系统则根据DNA链经过微小蛋白孔时产生的电流变化来确定核苷酸序列。总体而言,这些系统提供了用短读长系统很难或不可能获得的洞察力,包括染色体DNA中的大型结构变异、mRNA转录本结构和完整的微生物基因组。这两个系统还可以直接识别和映射表观遗传修饰。

PacBio提供一些市场上最高精度的仪器,得益于一个叫做“HiFi”的过程,其中设备反复读取同一段DNA,消除途中的随机误差。然而,它们历史上一直被高成本和低通量所限制。Aquino说:“用PacBio处理100个样本需要一年时间,而用Illumina处理100个样本可能只需要两天时间。”但PacBio的新Revio仪器改变了这个等式,其售价为77.9万美元,计划于今年开始发货。PacBio报告说,Revio可以比当前系统实现高15倍的通量,且仅需1000美元即可产出高质量的人类基因组。

ONT提供一款独特的、多功能的便携平台,既可轻松应用于短读长,也可应用于超长读长。研究人员经常在野外使用ONT系统,Mason甚至将它们送到了国际空间站。他说:“我们可以看到它在许多偏远地区的应用。”ONT还提供市场上最低成本的测序硬件,包括1000美元的MinION,可以在标准笔记本电脑上运行,其新版本可在平板电脑上运行。

相比之下,ONT的高性能PromethION可以在3天内测序高达14 TB,并使用一种不寻常的商业模式,其中大部分预付成本与运行测序实验所需购买的消耗品相关。Ragoussis说:“你会得到一台仪器,花费与你想使用多少流动池有关,而不需要购买仪器。”这可能比在实验室拆开第一个流动池前就花费30万美元或更多更具有吸引力。去年10月,ONT推出了这一平台的最新版本P2 Solo系统,可在一个流动池运行中产出高达两个人类基因组的数据,并允许用户以略高于10000美元的价格开始使用。

在如此拥挤的市场中,变化是常态,投资新技术需要信心的跨越。Oliveira说:“每六个月适应一项新技术非常困难,它对测序和生信群体进行性能评估、测试有很多需求。”目前,他的团队正在仔细权衡这些新兴平台的优缺点以及它们如何补充或取代现有的硬件。但是,竞争总体来说是一件好事,可推动提高性能和降低成本。他说:“我们正在使测序普及大众。”

Nature 614, 798-800 (2023)

doi: https://doi.org/10.1038/d41586-023-00512-4


参考文献:

[1] Almogy, G. et al. Preprint at bioRxiv https://doi.org/10.1101/2022.05.29.493900 (2022).

[2] Simmons, S. K. et al. Nature Biotechnol. 41, 204–211 (2023).

[3] Arslan, S. et al. Preprint at bioRxiv https://doi.org/10.1101/2022.11.03.514117 (2022).