基因科普：基因到底是什么，它们是如何工作的？

编辑:中国基因网发布于:基因科普2023-01-193091

1944年，纽约的一小群科学家在微生物学家奥斯瓦尔德·埃弗里（Oswald Avery）的领导下进行了一项实验，确定了基因的物质成分。当时，埃弗里和他的同事们正在研究引起肺炎的细菌。他们已经知道，如果把这些细菌的无害菌株与其已失去活性的毒株的细胞残余物混合时，它们会转变为危险的毒株。更要命的是，这种变化是会遗传的：只要这些细菌变为毒株，就会把这种特性传递给所有后代。埃弗里由此推断，作为一个化学实体，一个或多个基因被从失去活性的有害细菌中传递到了无害的活细菌中，并且永远改变了后者的性质。他明白了，如果他能发现失去活性的细菌中负责这种基因转变的部分，就能向世界展示基因是由什么物质组成的。

结果表明，事实上，具有关键性的转化特性的是一种叫作脱氧核糖核酸（deoxyribonucleic acid）的物质——你可能对它的缩写，也就是大名鼎鼎的DNA更为熟悉。细胞内携带基因的染色体含有DNA，这个观点到这个时期已被广泛接受，但大多数生物学家认为，DNA太简单、太枯燥了，这么一个小分子承担不了遗传这样复杂的现象。他们错了。

你的每条染色体的核心都是一个完整的DNA分子。这些染色体可以非常长，每一条都能包含数百个，甚或数千个基因，一个接一个排列成链状。比如，人类的2号染色体包含一条有1300多个基因的长链，如果你把这一DNA片段拉出来，总长度将达到8厘米。如此算来，总体数量就极其惊人了，你的每个微小细胞里的46条染色体都有总长超过2米的DNA。经过神奇地打包，它们能全部被纳入一个直径不超过千分之几毫米的细胞里。更惊人的是，假如你能把自己体内数万亿个细胞里盘成螺旋状的DNA一一拉开，排成一条细线，其总长度将达到200亿公里。这个距离，足够从地球到太阳往返65次！

埃弗里是个相当谦虚的人，他没有大张旗鼓地宣传自己的新发现，另一方面，有些生物学家对他的结论持有异议。但他是对的：基因是由DNA构成的。当这个真理最终被世人领悟，就标志着遗传学乃至整个生物学的新纪元的到来。基因终于可以被理解为化学实体：遵守物理和化学定律的稳定的原子集合体。

然而，直到1953年，DNA的结构被阐明后，这个美好的新纪元才被真正开启。生物学中的大多数重要发现都有赖于科学家们数年乃至数十年的努力工作，他们要不断摸索现实的本质，才能慢慢地揭示出某个重要的真理。不过有时也不用太久，犹如神兵天降，惊人的发现会横空出世。DNA的结构就是这样问世的。在短短几个月内，三位科学家——罗莎琳德·富兰克林（Rosalind Franklin）、雷蒙德·戈斯林（Raymond Gosling）和莫里斯·威尔金斯（Maurice Wilkins）——在伦敦完成了突破性的实验，之后，剑桥大学的弗朗西斯·克里克（Francis Crick）和詹姆斯·沃森（James Watson）解读了实验数据，并正确推导出了DNA的结构。而且，他们很快便领悟到了对生命体来说，这种结构意味着什么。

他们推导出的DNA双螺旋结构非常美妙，但真正的美妙之处并不在于螺旋结构本身的优雅，而在于这个结构能完美地解释遗传物质必须做到的、用以确保生命生存和延续的两大关键任务。第一，DNA必须能够对细胞和整个生物体生长、存续和繁殖所需的信息进行编码。第二，DNA必须能够精确、可靠地自我复制，确保每个新细胞和每个新生命体都能继承一整套遗传指令。

DNA的螺旋结构可以解释这两大关键任务，你可以把螺旋结构看作一架扭曲的梯子。现在，让我们来看看DNA是如何携带信息的。每个梯级都由成对的化学分子链接起来，这些化学分子被称为核苷酸碱基。碱基有四种不同的类型，我们可以将其简写为A、T、G和C，分别指代腺嘌呤（adenine）、胸腺嘧啶（thymine）、鸟嘌呤（guanine）和胞嘧啶（cytosine），这四种碱基沿着DNA阶梯的两条轨道或者链排列，起到储备信息代码的作用。这就好比一串有序排列的字母传达出了特定的语义，组成了你正在阅读的这句话。每个基因都是一条含有细胞信息的DNA编码。而所谓的信息则可能产生某种色素的指令，以此确定眼睛的颜色，让豌豆花的细胞变成紫色，又或是让肺炎细菌变得更具毒性。细胞“阅读”了基因编码，从DNA中获取信息，并将这些信息付诸应用。

接下来，DNA需要进行精确的复制，以便把基因中的所有信息忠实地传递给下一代细胞或生物体。组成梯级的两个核苷酸碱基的形状和化学性质确保了碱基只能以单一的、精准的方式配对。A只能与T配对，G只能与C配对。也就是说，如果知道DNA一条链上的碱基排列顺序，你就能立刻判断出另一条链上的碱基排列顺序。因此，如果你把双螺旋的两条链拆开，每一条都可以作为模板，完美地复制出原来那条成对的链。克里克和沃森发现DNA的构建方式后，立刻就意识到：细胞肯定就是这样复制DNA，并构建出携带基因的染色体的。

基因通过指导细胞制造特定的蛋白质，来对细胞的运作，乃至最终对整个生物体的运作产生重大影响。这个信息堪称生命的基点，因为在细胞中，蛋白质完成了大部分工作——细胞里的大部分酶、细胞结构和操作系统都是由蛋白质构成的。为了做到这一点，细胞要在两种文字间进行翻译：由A、T、G和C组成的“DNA文字”，以及由20种基本组成部分——氨基酸——有序链接而成的、更复杂的“蛋白质文字”。时值20世纪60年代初，基因和蛋白质之间的这种基本关系已广为人知，但还没有人知道细胞是如何将DNA文字转化为蛋白质文字的。

这种被称作“遗传密码”的关联给生物学家摆了一道真正的加密难题。20世纪60年代末至70年代初，许多研究者前仆后继，终于破解了这个密码。

他们和其他破译者的研究表明，由四个字母组成的DNA文字沿着DNA梯级边的两条链排列，每三个字母组成一个“单词”，这些短单词大部分都对应蛋白质的一个特定氨基酸。比如，DNA“单词”GCT告诉细胞在新蛋白质中添加一种叫作丙氨酸的氨基酸，另一个“单词”TGT则要求添加名为半胱氨酸的氨基酸。你可以把基因视为制造某种特定蛋白质所需的DNA单词序列。比如，人类基因中的β-球蛋白的基本信息包含在由441个DNA“字母”（核苷酸碱基）拼出的147个由3个字母组成的DNA“单词”里，细胞读懂后，将其转化为由147个氨基酸组成的蛋白质分子。β-球蛋白有助于形成红细胞中运载氧气的色素，即血红蛋白，使你的身体保持活力，并让血液看起来是红色的。

理解了遗传密码，就能解决生物学核心领域中最重要的难题，解释储存在基因中的静态指令是如何转化为活跃的蛋白质分子，从而构建和运作活细胞的。破解基因密码为当代生物学家们描述、解读和修改基因序列铺平了道路。当时，这一突破性进展显得极其重要，以至于有些生物学家暂停了研究，认为细胞生物学和遗传学的最基本问题已得到解决。

生物学家们很快就掌握了一些技能：如何找出特定基因在染色体上的位置，如何提取它们并在染色体之间移位；甚至将其插入不同物种的染色体中。举例来说，20世纪70年代末，大肠杆菌的染色体被重组拼接，使其含有可以调节血糖的胰岛素蛋白的人类基因编码。这些转基因细菌可以自行产生足量的胰岛素蛋白质，和人类胰腺产生的胰岛素蛋白质完全一样。自那时起，这种转基因技术已帮助了世界各地数百万糖尿病患者控制血糖。

20世纪70年代，英国生物化学家弗雷德里克·桑格（Fred Sanger）研发了一种读取基因信息的方法，这是一次重大的技术创新。他独树一帜地结合了化学反应和物理方法，能够鉴定出基因的所有核苷酸碱基的特性和序列（DNA测序）。不同基因中，DNA字母的数量跨度极大，有的包含几百个碱基，有的则多达数千个碱基，能够读取它们并预测它们将产生什么样的蛋白质无疑是一次巨大的进步。弗雷德里克是个特别谦逊的人，又格外有成就，最终两度荣获诺贝尔奖！