基因测序技术是一种用于确定DNA序列的方法,从最初的Sanger法测序,到后来的NGS,再到现在的单分子测序技术。

测序技术的发展推动了基因组学、生物医学研究和临床诊断的进展。


01

第一代基因测序技术

1 什么是基因测序技术?

基因测序技术,即测定核酸序列的技术。

基因测序能够分析测定基因组全序列,锁定个人病变基因,预测患多种疾病的可能性,提前预防和治疗。

基因测序技术是人类探索生命奥秘的重要手段之一,最早的时候,基因测序只是应用于科研,是遗传学及分子生物学一个重要的科研工具。

但随着测序技术的发展,通过测序技术对遗传信息的解码和基因组数据库的构建,人类不仅得以窥探生命的密码,更能从基因层面对人类疾病进行检测甚至干预。

相信在基因测序技术指导下的遗传病诊治、个性化精准医疗等能够更加高效的进行,未来基因测序技术将对人类健康产生重大影响。


2 测序技术的发展历程

1977年,Sanger和Gilbert分别提出双脱氧链终止法和化学降解法,标志着第一代测序技术的诞生。

第一代测序具有长读长和准确率高的优点。但其同时也具有测序成本高、耗时久、通量低等缺点,导致其不能满足大规模基因测序的需求。

于是人们开始探究新的更高效的测序技术。

1996年,Ronaghi和Uhlen建立了焦磷酸测序,其与第一代测序技术最大的不同是边合成边测序。其最显著的特点是高通量和自动化,因而第二代测序又称高通量测序。

2005年,454Life Sciences公司基于焦磷酸测序原理推出了Genome Sequencer 20测序系统,成为二代测序的先行者。

2006年-2007年,Illumina公司和Life Technologies公司相继推出Solexa高通量测序系统和SOLiD高通量测序系统。

2009年,出现了以分子实时测序和纳米孔技术为代表的第三代测序。

第三代测序具有长读长、单分子测序的特点,但由于目前第三代测序技术因高错率仍未找到很好的解决方法,所以离临床实际应用还仍有相当长的距离。

2010年至今,各种高通量测序技术均已快速发展并逐渐成熟,随着生物科学、物理学、材料学等学科的不断发展和融合,未来的测序技术一定会向着更精准、更微观、更高通量、更廉价的方向前进。


3 Sanger双脱氧链终止法的基本原理

Sanger双脱氧链终止法是第一代测序技术中最为经典的一种。

其巧妙的利用DNA复制原理,利用ddNTP来部分代替常规的dNTP作为底物进行DNA合成反应。

在DNA合成时,一旦ddNTP参入到合成DNA链中,由于ddNTP脱氧核糖的3’-位碳原子上缺少羟基,而不能与下一位核苷酸的5’-位磷酸基之间形成3’,5’-磷酸二酯键,从而使得正在延伸的DNA链在此ddNTP处终止。

实验步骤:

1.  将待测序测序的DNA片段进行PCR扩增,得到充足的DNA模版用于进行测序。

得到的DNA模板需要进行纯化,需要确保去除所有杂质,包括DNA片段、蛋白质、RNA等。

2.  根据待测序列的特点与实验要求,设计一些特定的引物。

一般来说,通用引物的长度以15~30bp为宜。

3.  合成标记物。标记物是指示测序反应是否成功的物质,通常是一种荧光染料或放射性同位素。

4.  将DNA模板、引物、DNA聚合酶和标记物等物质混合在一起,进行测序反应。

在反应过程中,DNA聚合酶将根据DNA模板中的碱基序列合成新的DNA链,同时将标记物结合到新合成的DNA链中。

5.  将反应产物进行电泳分离,根据标记物的不同荧光信号或放射性同位素的存在,确定DNA序列中的碱基排列顺序。

在Sanger测序法的基础上,将荧光信号接收器和计算机信号分析系统替代放射自显影技术,使用荧光素标记替代32P或35S单一放射性核素标记,打开了DNA测序技术自动化的大门。

Sanger测序法的优缺点:

优点:

1.sanger是直接对DNA分子进行测序,适用于已知序列的验证测序、文库筛选、克隆鉴定、pcr重测序等。

2.其最大优点在于读取速度很高、高精确度,而且成本相对很低。相较于化学降解测序法,对于富含G-C的区域也不会影响测序效果。

缺点:

1.必须有已经序列设计测序引物,对于未知序列必须构建克隆后才能测序,难以实现基因组水平的大规模测序。

2.测定碱基序列需要大量完全相同的DNA拷贝。


02

第二代基因测序技术(高通量测序)

1 NGS的发展综述

随着历时13年耗资近3亿美元的人类基因组计划的完成,生命科学划时代地进入功能基因组时代。

人们开始期待在基因图谱中找到疾病发生的确切机制,并实施精准的医疗计划。

第一代测序技术虽然具有长读长和准确率高等优势,但其测序成本高、耗时久、通量低等缺陷使其不能满足大规模测序的需求。

1996年Ronaghi 和Uhlen建立了焦磷酸测序。2005年454 Life Sciences公司推出了基于焦磷酸测序原理的Genome Sequencer 20系统。

这在测序史上是具有里程碑意义的大事件,其改变了测序的规模化进程,成为第二代高通量测序的先行者。

第二代测序技术的核心思想是边合成边测序,其最显著的特点就是高通量和自动化。

不同于Sanger测序技术对模板进行克隆后进行单独反应,第二代测序技术将模板DNA打断成小片段并通过桥式PCR(或乳液PCR)对文库进行扩增,同时对几十万到几百万DNA模板进行测序。

第二代测序技术的出现使得对一个物种的基因组和转录组进行深度测序变得不再遥远,其能够在保持高度准确性的同时,降低测序的成本,提高测序的速度。

以人类基因组为3Gb计算,使用第一代测序技术,大概需要测序62500次才能完成人类基因组测序,每个反应按2小时计算,假设每天测序10次,每周工作7天,整个过程大约需要17年,而使用高通量测序技术仅需1周即可完成人类基因组测序。


2 焦磷酸测序原理 & 454测序系统

焦磷酸测序是一种由DNA聚合酶(Polymersae)、ATP硫酸化酶(ATP Sulfurylase)、荧光素酶(Luciferase)和三磷酸腺苷双磷酸酶(Apyrase)催化的新型酶级联化学发光测序技术。

通过对DNA合成反应中释放的生物光信号完成实时检测,开创了边合成边测序的先河。

实验原理:

反应底物为5’-磷酰硫酸(APS)、荧光素。在每一轮测序反应中,反应体系中只加入一种脱氧核苷酸三磷酸(dNTP)。

如果它刚好能和DNA模板的下一个碱基配对,则会在DNA聚合酶的作用下,添加到测序引物的3’末端,同时释放出一个分子的焦磷酸(PPi)。

在ATP硫酸化酶的催化作用下,生成的PPi可以和APS结合形成ATP,在荧光素酶的催化下,生成的ATP又可以和荧光素结合形成氧化荧光素,同时产生可见光。

通过微弱光检测装置及处理软件可获得一个特异的检测峰,峰值的高低则和相匹配的碱基数成正比。

如果加入的dNTP不能和DNA模板的下一个碱基配对,则上述反应不会发生,也就没有检测峰。

ATP和未掺入的dNTP由三磷酸腺苷双磷酸酶降解,开始新一个循环。

2005年 454 Life Sciences公司基于将焦磷酸测序技术与乳液pcr及光纤芯片技术相结合,推出了Genome Sequencer 20高通量测序系统,发展大规模平行焦磷酸测序技术,实现了测序过程的高通量。

乳液pcr的实验原理

乳液PCR即油相包裹水相,利用油包水结构作为PCR反应的微反应器,进行PCR扩增,乳液PCR最大的特点是可以形成数目庞大的独立反应空间以进行PCR扩增。

“油包水”的基本过程:

1、在PCR反应前,将含模板、dNTP、引物和DNA聚合酶的水溶液注入到高速旋转的矿物油表面,水溶液瞬间形成无数个被矿物油包裹的小水滴。

2、这些“油包水”包被的磁珠表面含有与接头互补的DNA序列,单链DNA序列能够特异地结合在磁珠上。

3、  在磁珠内含有PCR反应所需试剂,保证每个与磁珠结合的小片段都能独立进行PCR扩增,并且扩增产物仍可以结合到磁珠上。

携带扩增DNA片段的磁珠被放入PTP板中进行测序。

PTP板是一个60mm✖️60mm的光纤板,包含约160万个微反应器小室,每个小室(直径29μm)只能容纳一个磁珠(直径28μm),每个小室中都载有焦磷酸测序所需的各种酶和底物。

随后4种dNTP依据T、A、C、G的顺序依次进入PTP板,开始测序反应,流程同焦磷酸测序一样。

2007年 454 Life Sciences公司被Roche公司收购后又推出性能更优的第二代测序系统——Genome Sequencer FLX System。

该系统读长超过400bp,10小时运行可获得100万条序列,4~6亿个碱基信息,且准确率达99%以上。

454 高通量测序系统在读长上具有明显的优势,使得后续的拼接工作更加高效和准确。是基因组从头测序、转录组分析、基因组结构分析等应用最理想的选择。

但是由于使用的是焦磷酸测序原理,对瞬时发光进行检测,因此限制了其更大的通量,并且对于同聚物(连续数个碱基相同的序列)的检测不够准确,同聚物越长,可能产生的误差越大。

除此之外,和其他高通量测序平台相比,共测序成本要高很多,在激烈的市场竞争中,并没有发挥出其先行优势。

2013年Roche 公司宣布正式关闭 454测序业务。


3 Ion torrent测序系统

2007年Rothberg离开LifeSciences公司后立即创立了Ion Torrent公司,并开发出基于半导体芯片的新一代革命性高通量测序平台。

Ion Torrent测序系统是第一个没有光学感应的高通量测序平台.

IonTorrent测序是以半导体芯片为载体,通过检测DNA链在合成时释放H+从而引发的pH变化,把化学信号转变成电信号从而获取碱基信息的边合成边测序技术。

测序过程:

1、  Ion Torrent测序系统同样运用了乳液pcr技术。测序反应发生在Ion Torrent芯片(一种布满小孔的高密度半导体芯片)上.

每个小孔只能容纳一个测序珠子,孔底端有pH敏感型晶体管传感器,可检测孔内pH变化并将化学信号转变为数字信息。

2、将准备好的测序珠子混悬液从芯片进口注入,对芯片离心以便更好地将单个测序珠子卡在单个小孔中。芯片上小孔数量越多,测序通量越大。

3、  将分别含有A、T、C、G四种dNTP溶液分别依次流过芯片,若加入的dNTP与DNA链上碱基成功配对,此时会释放一个H+离子,导致小孔内pH值发生变化,被芯片底部的传感器检测到并记录下来。

当连续相同的dNTP结合到DNA链上时,则会释放相同数目的H+,传感器上记录的信号也会相应加倍。

若加入的dNTP与DNA链上碱基不能配对,就不会发生反应,小孔内pH值不会发生变化,因此不会有碱基被记录。

未被结合的dNTP和剩余的引物、酶等被冲走,然后加入下一种dNTP溶液,依次循环测序。

4、  在测序初期先检测A、C、G、T,这四个碱基所测到的pH值变化强度来确定整个珠子的信号强度基线,有了标准信号强度后,随后测得的信号与这四个信号强度对比.

如果是1倍强度表明有一个碱基,如果是2倍强度表明有两个相同碱基,依次类推。由于传感器对电流的感应可能出现偏差,因此对连续碱基数量的判断存在偏差。

2010年 Life Technologies 在收购 Ion Torrent 后,迅速推出了 Ion PGM测序仪。

这个被命名为 “个人基因组测序仪”的设备是世界上第一台依靠硅晶体管的 DNA解码器,能够在2小时内淮确地读取 1000万个遗传代码。

由于无需标记、激光和成像等设备,价格较其他测序仪低很多,售价仅5万美元,在当时被认为是市场上最小,最廉价的基因解码器。

这种经济、快速的测序仪有利于测序技术的普及,也为临床基因快速检测带来了希塑。


4 Solexa测序系统

2006年 Solexa 公司推出了Genome Analyzer。2007年 Illumina 公司高价收购了Solexa,并使其商品化。

Solexa测序系统依然以边合成边测序作为基本设计理念,并使用桥式PCR和可逆性末端终结作为核心技术。

桥式PCR的基本原理:桥式PCR是将DNA片段固定在芯片上,然后进行PCR扩增。

首先,将DNA片段与引物混合,然后加入聚合酶和dNTPs,使其进行扩增。

在扩增过程中,DNA片段会与表面上的引物结合,形成一个桥式结构。这个桥式结构可以保持DNA片段的稳定性,并且可以在表面上进行高通量测序。

测序流程:

1. 将基因组 DNA 打成几百个碱基(或更短)的小片段,在片段的两个末端加上接头。

2.  芯片的表面连接有一层单链引物,DNA片段变成单链后通过与芯片表面的引物碱基互补被一端 “固定〞 在芯片上。

另外一端(5’或3’端)随机和附近的另外一个引物互补,也被“固定”住,形成“桥 “。

反复 30轮扩增,最终形成约1000拷贝的单克隆DNA簇。DNA 簇产生之后,扩增子被线性化,测序引物随后杂交在目标区域一侧的通用序列上,进行边合成边测序反应。

3.  Genome Analyzer 系统使用了边合成边测序原理。

加入改造过的DNA聚合酶和带有4种dNTP(每种dNTP结合一种荧光基团)。这些dNTP是“可逆终止子”,因为3’-OH末端带有可化学切割的部分,它只容许每个循环掺入单个dNTP。

此时,用激光扫描反应板表面,读取每条模板序列第一轮反应所聚合上去的dNTP种类。之后,移除剩余的dNTP、DNA聚合酶及荧光基团,恢复3’端的粘性,继续聚合第二个dNTP。

如此继续下去,直到每条模板序列都完全被聚合为双链。这样,统计每轮收集到的荧光信号结果,就可以得知每个模板 DNA 片段的序列。

由于Solexa 技术在合成过程中每次只能添加一个dNTP,因此很好地解决了同聚物(连续数个碱基相同的系列)测定的准确性问题。

Illumina平台已在第二代测序市场中占主导地位,Genome AnalyzerIIx和HiSeq高通量测序仪是全球使用量最大的第二代测序仪。

Illumina 2017年推出的NovaSeq系列运行速度大于现有仪器的70%,仅需1小时即可完成全基因组测序,被认为是Illumina迄今为止推出的最强大的测序仪,预示着100美元基因组时代的到来。


5 Complete Genomics测序系统

美国Complete Genomics(CG)公司成立于2005年,是全球首家提供人类基因组测序服务的生命科学公司。

CG公司独有DNA纳米球(DNA nanoball,DNB)芯片及组合探针锚定连接(combinatorial probe anchor ligetion,cPAL)这两种测序相关技术,测序准确度为99.9998%,市场价格低,具有相当大的竞争优势。

cPAL测序的建库称为DNB,利用RCA(Rolling circle replication)让DNA扩增成线性的螺旋结构。

这个建库方式优点是所有的扩增模板都是最初的插入片段,这样 PCR 产生的错误不会累积,只影响该扩增序列。

像Illumina的测序如果扩增发生错误,那么后续扩增会有该错误片段作为模板,从而导致错误累积。

RCA扩增:RCA是以一小段环状寡核苷酸为模板,以dNTPs为原料,在DNA/RNA聚合酶作用下扩增产生一条长重复单链DNA/RNA。

工作原理:

1.  滚环扩增的方法模板必须是环状的,如果针对线性基因进行扩增,就需要锁环探针,锁环探针的两端具有与靶基因的互补序列,通过锁环探针识别靶基因并结合形成不完全闭合环状寡核苷酸.

之后在连接酶作用下形成完全闭合环状寡核苷酸;如果本身是环状DNA,则无需此过程。

2.  线性扩增:正向引物识别环状模板的配对序列,在Phi29 DNA聚合酶的作用下合成重复线性单链DNA序列,这条单链DNA中包含成百上千个重复的模板互补片段。

通过 RCA 扩增的⽚段是一条连接在⼀起形成线性螺旋的单链DNA,这条线性螺旋的单链DNA就称为DNA纳米球。

⽂库构建后加⼊到测序芯⽚,测序芯⽚有 DNB 结合位点,⼀个位点结合⼀个 DNB。

然后接着就是 cPAL 测序cPAL(探针-锚组合测序)和SOLiD类似。

其过程为:

每轮测序先加⼊与接头匹配结合的寡核苷酸锚序列 ,随后引入含有不同已知碱基的寡核苷酸和荧光基团的探针.

每种探针只有一个碱基是带有荧光标记的(该荧光标记碱基在探针的位置由需要测序的位置决定,⽐如要测第⼀个碱基,那么就只标记探针第⼀个碱基,要测第五个碱基就荧光标记探针第五个碱基),每次只有一种探针能够和待测序列配对.

在和待测序列进行配对后,移除其它的未配对探针,然后检测应该荧光信号,得到序列信息。

接着除所有的结合探针和锚序列,开始下⼀轮测序。对⽐ Illumina的SBS 测序,优点是下⼀个碱基不依赖于上⼀碱基,这样测序错误更加随机。

cPAL 技术可大大减少探针和酶的浓度,而且与边合成边测序不同,cPAL 每个循环可一次性读取数个碱基.

这样消耗的测序试剂和成像时间都大大减少。目前,该高通量测序平台的读长为28~ 100bp,这使得基因组拼接的可操作性大大降低,限制了其在结构变异研究中的应用。


总结

总的来说,第二代测序技术在满足通量的同时,由于技术本身的局限性,读取的单一序列长度为 75~100bp。

这就形成现阶段高通量测序的技术瓶颈——通量高的读长短,读长长的通量低。通量决定了测序所需的时长和成本,而读长则决定了对获取的 DNA 片段进行拼接还原基因组真实情况的难度。

我们可以将拼接的过程想象成一个拼图游戏,将获取的每一个 DNA 序列信息想象成一块拼图。

每一块拼图越大,则越容易拼接成原图。这就很好的解释了为什么测序技术要在追求高通量的同时还要不断追求大片段、长读长。

现有的第二代测序技术是通过采集荧光信号进行识别的,因此需要进行扩增建库,进行扩增反应。

这一部分是第二代测序技术中最容易产生人为干扰的部分,由于探作人员水平不同,即使是相同的仪器在不同实验室中的性能表现也参差不齐。

此外,将扩增产物作为测序模板,扩增的过程可能产生错误、信息缺失(如甲基化) 和序列偏向性,导致原始样本中拷贝数很少的片段在扩增反应之后被湮灭,原始序列中的某些修饰信息也可能在扩增过程中被抹杀。

虽然研究人员在软件和算法的研发方面做了很多努力,但第二代测序数据分析的局限性依然存在。


03

第三代基因测序技术

理想的测序技术是对原始的DNA模板进行直接、准确测序且不受读长的限制。

早在20世纪80年代,研究人员就开始在为实现这个目标而努力。虽然其中很多尝试都失败了,但是单分子实时测序技术和纳米孔测序技术最终实现了长读长、单分子测序,再次颠覆了测序领域。

以不经扩增的单分子测序和长读长为标志的测序技术称为第三代测序技术。

这些技术一次可读取长达数万碱基的片段,大大降低了拼接难度,更重要的是大大减少了过去无法定位的漏洞。

但目前的第三代测序技术因高错率仍未找到很好的解决方法,离临床实际应用仍有相当长的距离。


Pacific Biosciences SMRT 测序技术

SMRT测序技术由Webb和Craighead提出,Korlach、Turner和Pacific Biosciences(PacBio)将其进一步发展,并于2009年作为PacBio测序平台推出。

SMRT 测序技术,是基于纳米小孔的单分子读取技术,无需扩增即可快速完成序列读取。

SMRT 测序技术使用了一个特制的流动单元(SMRT cell),其中包含了成千上万底部透明的测序微孔(picolitre wells)——零模波导 (zero-mode waveguide, ZMW)孔,这是 SMRT技术的关键点之一。

它可以将反应信号从周围游离的 dNTP 的强大荧光背最中区别出来。其基本原理也是边合成边测序,与 Illumina 的测序原理大致一样。

测序流程:

1 将样本中的DNA或RNA分子提取后,构建如下的哑铃状分子结构:

将样本中所有的DNA片段都构建哑铃状分子结构,组成的集合就叫文库(SMRTbell Library),随后,它们会被放到测序芯片中。


2 以 RSII 测序平台为例,测序仪芯片(SMRT Cell)长这样:

放大后:

上面整齐排列着15万个直径为70纳米的测序微孔(Zero-Model Waveguides,ZMWs)。

3 构建测序复合物:聚合酶,测序模板,测序引物。

4 将复合物撒入测序小孔内:

5 由于聚合酶加了生物素,在芯片玻璃底板有链酶亲和素。利用生物素和链酶亲和素的亲和力,包含聚合酶的测序复合物会被固定在玻璃底板。

6 在芯片溶液中含有许多游离dNTP,所谓游离dNTP就是随机飘在溶液中的dNTP。A、T、G、C四种碱基的dNTP,在磷酸基团上分别带有四种对应颜色的荧光基团。

7 在合成时,游离的dNTP被固定在底板上的酶捕获,激光会从玻璃板底部发出。

由于测序小孔的直径很小,而激光的穿透能力会逐渐衰减,只能在小孔中传输很短的距离,所以只有当dNTP足够靠近底部,荧光基团才会被激光照到,发出荧光。

当然,其他的游离dNTP,虽然也有可能飘到小孔底部被激发光照到,但这种情况极少。因此每次只会测取一个碱基。

在一个碱基合成结束后,带有荧光基团的磷酸基团会从dNTP上掉落,发生猝灭,不影响其他碱基的信号检测。

8 在发生测序的小孔有各自的DNA片段和测序复合物,同一时间发出不同颜色的激发光,机器会检测到如下的光信号,实际同时会得到多达几万个光点。

9 重复上述步骤,经过计算机分析光谱,最终我们拿到样本的测序文件。SMRT测序过程中,每秒读取约10个碱基,通量可达7GB/一天。

有意思的是,利用SMRT测序技术在测序过程中,可以直接测到碱基被修饰的状态。

例如当聚合酶遇到碱基上带有甲基化的碱基,合成速度会明显变慢,而且光谱也会发生改变。因此,SMRT测序技术可以检测到碱基的甲基化修饰情况。

尽管SMRT测序技术的测序速度很快,但其由于是单分子测序,反应中产生的每个错误都会被忠实地记录下来,难以分辨,测序准确率仅为85%。

好在碱基读取错误是随机的,如果重新读一遍同样位置的碱基,不一定会发生同样的错误。

如果对同一个序列,多测几遍,那么这些读错的碱基就能矫正过来。但相较于第二代测序技术99.5%以上的准确率,这确实其最大的短板。


Oxford Nanopore Technologies Nanopore测序技术

Nanopore测序概念于20世纪80年代被首次提出。

它基于物理电学,利用单链DNA分子通过纳米孔时对局部电流的改变来完成碱基序列的测定。

2005年Bayley成立了Oxford Nanopore Technologies(ONT)公司,2014年,第一个消费级别的纳米孔测序仪的原机——MinION在ONT诞生,一经推出就引起科学界的极大关注,并被认为是最有前景的单分子测序仪。

测序流程:

DNA双链解螺旋,解开成为单链DNA。

同时DNA解旋酶也作为马达蛋白促使DNA单链分子通过一个以α-溶血素来构建的生物纳米孔,孔道内表面覆盖有一种合成的环糊精作为转换器。

DNA单链停留在孔道中,与孔内的环糊精短暂地相互作用,影响了流过纳米孔原本的电流,带来了电流变化。而不同的碱基带来的电流变化不同,例如A与T的电信号大小很接近,但T在环糊精停留的时间是其他核苷酸的2~3倍,因此每个碱基都因其产生电流干扰振幅是特有的而被区分开来。

根据电流变化的频谱,应用模式识别算法得到碱基序列。

主要特点:

1 、超长读长:在纳米孔测序中,读长长度不受限于测序设备,可以通过所使用的文库制备实验方案来控制片段长度。目前DNA片段长度最高记录为900kb。

2、读取速度快:MinION流动单元每秒可读取500bp。

3 、直接测序:纳米孔技术基于电子学原理,允许直接测序原始DNA和RNA。

不需要通过DNA拷贝、进行链合成,节省了时间和成本。由于纳米孔技术支持无需PCR的直接测序,也就没有了扩增偏好性,并且文库制备工作流程也更简单。

4、通量高:PromethION包含48个独立流动单元,最多可以在2天内输出2~4TB的数据量

5、便携:ONT MinION只有USB设备大小,又称为掌上测序仪,在电脑上即可对数据进行读取。

但同时由于该技术拥有超过 1000 种独立的信号,其错误率也较高(主要表现为对 Indel 的检测)。

由于修饰的碱基会改变原有设定的电压变化,所以碱基的修饰对 ONT 而言同样是一大挑战。


补充知识:什么是Indel

在基因组测序中,"Indel"(插入/缺失)是指基因组中发生的插入或缺失碱基的变异。

插入指的是在DNA序列中添加一个或多个额外的碱基,而缺失则是指从DNA序列中删除一个或多个碱基。

这些插入或缺失的碱基可以导致基因组中的序列长度发生变化,进而影响基因的功能。

Indel是基因组中最常见的变异类型之一,与单个碱基的替换(称为SNP)相比,它通常会对基因功能产生更大的影响。

Indel可以导致读框架移位,从而改变蛋白质编码序列的翻译,或者导致非编码区域的功能变化。

因此,对于基因组测序和遗传研究来说,检测和分析Indel变异非常重要,可以帮助我们理解基因组的变异和其与疾病之间的关联。


参考资料:

《基因测序技术》:https://apollo-institute.org/sanger-sequencing/