遗传机理的阐明,无疑是过去千年中生物学的最伟大成就。遗传原是一种最奇妙的生理过程:生物的配子中含有创造某一物种所需要的指令,这些指令传给受精卵,然后就会自动展开,产生后代。对于这种现象,古希腊人曾经为之而苦苦思索过。希波克拉底猜想带指令的粒子是从成年人的全身各部分聚集拢来,并靠经验而被塑造成形的;而亚里士多德则相信这些指令一直是配子所固有。但在此后2000年中,哲学家们所做的只能止于猜测,因为那时缺乏探索这些指令的真实性质的方法。

遗传的性质是如何在过去的200年中被认识的,这是一部非同寻常的科学进步史。通过接连不断的努力,科学家们发现遗传指令是遵循一定的传递规则的,指令存在于细胞核的染色体中,编排在DNA分子内,被书写成为遗传密码,并且可以将其完整地读出,以确切地说明生物的形态和功能。

这样,遗传问题的答案就变成具有惊人的精确性和规律性的了。形成地球上每一种生物——不论是蛞蝓或红杉、孔雀或寄生虫、鲸或黄蜂——的指令,都可在DNA序列中得到说明,这种序列可翻译成数字信息,储存在计算机中进行分析。作为这样一种革命性进展的结果,21世纪的生物学正在变成一种信息科学。我们这篇文章,就是要描述这一切是怎么来的。


孟德尔定律:遗传指令的传递

在17世纪列文虎克发明简单的显微镜以前,遗传学一直是哲学家们的领城。出人意外的是,早期的显微镜研究使研究的阵地发生了转移:显微镜观察者们相信他们看到了隐藏在精子中的预先形成的小人。

预先形成排除了储存和传递指令的必要性,但由此又引起了令人困惑的哲学问题,例如,是不是人的后代全都像俄罗斯玩偶那样储存在亚当的精子里的,那么夏娃还有什么作用呢。

关于遗传的科学研究终于由于一个更加实际的原因——驱使农业改良的经济动力——而开始进行了。在15世纪初至18世纪末的“发现时代”,有几千个植物新种被带到欧洲,其中很多得到了传播,进行了杂交,改良的栽培作物获得了重奖。国际贸易的迅速扩展给农产品提供了更多的经济收益。

摩拉维亚的布吕恩(现在的布尔诺)是19世纪奥匈帝国纺织工业的中心,也是包括畜牧业在内的农业改良热的一个温床,进口西班牙羊毛的高价激发了改良绵羊品种的巨大兴趣,但那时的育种计划大多是盲目的试验,缺乏理论依据。十分具有远见的布吕恩市政当局组织社会力量来促进科学研究,举出哥白尼和牛顿等人为例来说明科学发现的重要性,希望有朝一日布吕恩人的儿子也会受到全世界的感激。

10

这个奢望真的实现了。布吕恩果树和葡萄酒工艺研究会主席兼奥古斯汀隐修院院长C · F ·奈帕十分注意吸收受过科学训练的年轻人到他的修道院中来。这些新来者中的佼佼者是格里戈尔·孟德尔,他来院前学过物理学。以后随之而来的遗传学革命并非是由这位孤独工作的修道士碰巧发现了遗传定律而被激发的。相反,孟德尔是工作在一个提倡科学进步的大环境中,这种科学,今天我们称之为农业生物技术。

孟德尔的豌豆育种试验使他观察到了遗传显性以及性状分离。这些现象其实早在几十年前就已有了定性的描述。但孟德尔采取的却是定量方法,他应用他的物理学知识和育种数据构成了一种学说,首次对遗传定律作出了机械论的描述。

孟德尔提出,遗传的信息是在他称之为“因子”的互相分离的小包中由亲代传给子代的。不同的因子负责豌豆植物不同的外形,如种子的形状、花的颜色等等。他的一个重要见解是认为因子都成对出现,其中一个来自双亲之一。决定一种性状的两个因子可能携带相互对立的指令,这时一个因子可能对决定植物的外形具有优势。但另一个因子仍会以隐藏的形式继续存在,其效应可在以后几代中以可预测的比例重现。

孟德尔1865年的报告发表在《布吕恩自然科学学报》上,未受重视。因为他是科学圈外之人,发表他文章的是一份不知名的刊物。但真正的问题是在于他的描述是数学的,而他所说的因子是抽象的。孟德尔定律只是到了他死后很久才受到广泛重视,那时这些定律已可同生物学的实体——细胞结构联系起来。


染色体:遗传指令的细胞学基础

到19世纪中期,生物学家开始承认遗传的物质基础一定存在于细胞核内。显微镜观察者发现刚受精的卵具有两个同样大小的“原核",以后它们才融合起来。这两个原核来自精子和未受精的卵,二者对遗传具有同样的作用。通过对精子的仔细观测,他们还发现它是一个很小的细胞,几乎只有一个核和一条尾巴。

细胞核中最明显的成分是它的染色体,其行为现在已可应用大大改进了的着色和显微技术来进行精确研究。染色体随每一细胞分裂周期而复制,有点像寄存遗传指令的实体。但研究人员仍无法确定染色体与遗传之间的关系,有的学说认为每一根染色体携带全套遗传指令。随后,通过育种试验来弄清楚遗传定律的兴趣又再度高涨起来了。

1900年初,3位科学家——H ·德弗里斯、切尔马克·封·赛塞内格和K ·科伦斯分别报告发现了孟德尔的工作及其定律。他们的报告并未提供比孟德尔35年前的发现更多的东西,但这时科学界却开始重视了。报告点燃了遗传学革命之火,其势历经20世纪而久久不衰。

最初的问题是如何证明基因与染色体之间的联系。最重要的进展来自于哥伦比亚大学T · H ·摩尔根实验室对果蝇的研究。在摩尔根实验室工作的大学生A · H ·斯特蒂文特的观察可说是最为重要的。他通过对大量实验结果的分析,描述了成对基因从亲代传给子代时一同传递的频率。认为这些数据可以用一个简单的模型来解释,这一模型显示基因是沿着线状的“连锁图”排列的,图上相近的基因一同传递的机会大于相距较远的基因;他还认为连锁图表明基因的位置一定与线状的染色体相符合。这样,描绘基因图就很快成为遗传学研究的重要手段,虽然确切证明连锁图与染色体之间的联系,要到20世纪30年代由B ·麦克琳托克研究了玉米的染色体之后才得以实现。


DNA:遗传指令的生化基础

20世纪初,又一门实验科学——生物 化学诞生了。这是生物学与化学的联姻,它致力于在来自细胞的无生命提取物中,通过分离其分子而再重现生命过程的方法来认识生命。生化学家们的一个明确的任务是要摧毁活力论,这种理论认为活的细胞和组织的复杂性状是由难以言谕的“生命力”决定的。到1925年,他们已能成功地显示许多生化反应可以在试管内用被称为酶的有机催化剂重复产生。但遗传科学却并未能跟上生物化学的飞速发展。基因似乎仍难以捉摸:怎么可能在试管中提纯遗传呢?遗传,难道真的是能通过生物化学以及从活细胞中发现的日益增多的分子种类来理解的吗?最初接触到基因的分子具象的是当时在得克萨斯州工作的H ·米勒,他表明X射线可使果蝇的基因发生突变。这为遗传学家们提供了一种重要的研究手段。他们从此不再需要依靠自然界的自发随机过程来产生常见于蝇类中的“野”基因了。在理论上,米勒的发现还具有更大的意义,它表明基因同细胞中的其他分子一样,也是易于受损的物质实体。然而,最关键的问题依然存在:哪一种分子能解释遗传呢?一年以后的发展向答案走近了几步。英国人F ·格里菲思意外地发现有毒的肺炎球菌提取物可将其毒性传给无毒的菌株;而一旦无毒菌株获得了这些指令,其后代就会呈现毒性。这种致病性指令,即使有毒细菌被高温杀死后仍会在菌体内长期存在。

到20世纪30年代中期,纽约洛克菲勒研究所的O ·艾弗里、C ·麦克里奥特和M ·麦克卡蒂承担了一项令人望而生畏的任务来提纯那难以捉摸的致毒物质。

1944年他们有了答案:从有毒细菌提取的脱氧核糖核酸(DNA)分子能胜任传递毒性的指令。破坏DNA可导致指令的丧失,而破坏细菌的蛋白质似乎对信息传递没有影响。

他们的结论是有争议的。DNA分子一般被认为是由4种核苷酸组成的单调乏味的链,像是构成染色体的支架;而蛋白质分子则要有趣得多。蛋白质分子的生化特性和结构都更为复杂,因此似乎更有可能储存遗传信息。但DNA毕竟使人对这种看法产生了怀疑。当蛋白质中的毒素被清除到仅剩0. 02%的含量时,DNA仍能继续有效地传递遗传信息。1952年,A· 赫希和M ·蔡斯的试验尤其令人信服,他们表明,当病毒将它们的遗传信息注入寄主细胞时,DNA进入了细胞,而其蛋白质外壳则留在细胞外面。

但DNA——或任何其他分子——如何储存并编码遗传指令,仍不得而知。这个难题引起了包括N ·玻尔及其学生M ·德尔布吕克在内的几位电子物理学家的兴趣。他们努力设法用存在于潜在深井中的分子来解释基因的长期稳定性,甚至设想可能要有新的物理学定律才能解释生命。他们的这些见解后来被浓缩到E ·薛定谔1945年出版的一本辉煌的普及性著作中,书名《生命是什么?》。

薛定谔认为,基因一定是由一串少数几个同分异构元素构成的“非周期性”晶体,这些元素编排的精确序列构成遗传密码,就像莫尔斯电码那样。虽然这些见解未能使人弄清楚与基因有关的分子结构,但它们确实吸引了许多新人到这个领域中来——其中包括J ·沃森,他决定到英国剑桥去从事有关基因性质的研究工作。在那里,他与物理学家F克里克结成了合作伙伴。

沃森和克里克对DNA双螺旋结构的揭示,如同发生在1953年4月间的一声巨雷,震惊世界。正如薛定谔所预测的那样,DNA是一种非周期性晶体,由4种核苷酸碱基成串地组成。在双螺旋的两股上,A与T、C与C相互配对,从而解释遗传信息是如何复制的(核苷酸的互补性意味着螺旋的每一股可以成为组成一个完整的双螺旋的模板),以及突变是如何发生的(复制过程有时会出错)。这样,沃森和克里克就一下子把遗传的关键性问题给阐明了。


DNA重组技术:破译密码指令

沃森和克里克模型揭示了遗传指令一定是由DNA双螺旋股中的碱基序列编码的。但这些指令怎样才能被明确地读出,以便构建生物体的各种组成成分呢?1964年,答案有了轮廓。相当于每一个基因的DNA片段先是被复制入信使RNA分子,然后,RNA分子的碱基序列被用来指导氨基酸合成特定的蛋白质。M ·尼伦伯格用合成RNA来分解遗传密码,得出由碱基(核苷酸)三联体构成基因“单词”,来指定特定的氨基酸。这样,生命的奥秘就基本上被揭示了。

实际上,这里还存在着意想不到的困难。虽然生物学家们破译了可将DNA信息翻译成蛋白质的密码,他们还是不能读出任何天然DNA的序列,甚至不能读出一个细胞内几千个基因中一个基因的DNA序列。

他们缺乏可供他们操作新发现的破译技术的文本。为此又用了15年,这个问题才由于有了克隆和测序这两种基因重组技术而得以解决。

克隆技术克服了传统生物化学的局限,即必须根据分子的化学特性才能从复杂的混合物中分离分子。

由于每一个基因都只是一段伸展的DNA碱基,它们的化学特性其实是等同的,因此生化方法不能用于提纯单个基因。克隆技术却引进了一种新窍门:大的基因组被切割成小片段,每一片段被连接到“导向”分子上,然后被导入细菌细胞,这些细胞生长时就能忠实地重新生产出外来的DNA。每一个细菌细胞接受一个DNA分子,随着其子细胞就集合构成一个“克隆”,全都储存着这一特定DNA片段的完全等同的复制品。这样,科学家们就通过将DNA片段传播到不同克隆中的方法,来提纯单个DNA片段,不同的克隆集合成“基因文库”。后来科学家又设计出巧妙的方法来对一个完整基因文库中的几百万个克隆分别进:行筛选,从中挑选出感兴趣的DNA片段即基因。

能指导细菌细胞再生单个DNA片段的技术,对创造基因文库是具有关键作用的。正是应用这种技术,生物学家们又成功地进行了探明病毒和质粒性质的试验,已知这两种细胞寄生物都能强使细胞制造成百或成千个病毒和质粒DNA分子的复制品。

DNA测序技术构成了20世纪70年代DNA重组革命的另半边天地。分别由F桑格和W ·吉尔伯特开创的两种方法使测序技术能以较高的准确性测定几百个碱基长的DNA片段的序列。不久,由大的细胞基因组克隆得到的单个基因又成为研究的目标。

获知序列信息的殷切期望推动了测序技术的迅速发展。70年代末,专家们已开发成功每天能拼出50万个碱基的自动化测序机械。


基因组革命

DNA测序技术由于揭示了原先并不了解的基因之间的相互联系而立即震惊世界。两个较早的例子是致癌基因sis 和erbB。一个研究组克隆了这些基因并测定了它们的DNA序列。同时,另一个主要从事生化研究的小组分离了两种蛋白质——血小板生长因子(PDGF)和表皮生长因子(EGF)——并测定了两者的氨基酸序列。令这两个研究组人员惊讶的是,致癌基因的DNA序列与这两种控制生长的蛋白质的氨基酸序列几乎完全一致。这就立刻表明,是致癌基因sis和erbB使正常细胞转变成癌细胞的。

发现这样的联系还只是开始。对基因序列所做的比较显示,如酵母菌和哺乳动物这样的远缘生物的基因组都编码了十分相似的蛋白质。控制酵母菌细胞通过其周期性生长和分裂而不断增长的蛋白质,也发现以相似的形态存在于人类细胞中。不久,这种交叉联系发现了几千个,后来又发现了几万个。这就清楚地表明,地球上生命的进化是异常保守的。一旦真核细胞在15余亿年前演化产生,那时产生的蛋白质绝大部分都会在其无数后代细胞中持续存在——只偶有微小的变化。通常,编码这些早期蛋白质的基因在10亿年后会增殖、分化,造成许多相关基因以及具有不同以至全新功能蛋白质的大家族。

由于一个基因家族的功能常可从其已知的亲属中推导得知,鉴别基因家族就产生了巨大的研究效用。

例如当引起膀胱纤维化的基因被克隆以后,序列分析就可立即告诉我们它属于一个负责运送离子通过细胞膜的蛋白质家族——实验室测试很快证实了这一结论。

种系遥远的基因联系还促使生物学家们对他们的研究工作进行重新思考。从事蠕虫类、蝇类研究的人不再只是着眼于这些生物的特性,而是把他们的工作看作探索地球上生命普遍规律的窗口了。从事海胆和蛙类发育研究的人发现他们自己来到了肿瘤研讨会之中,与肿瘤研究工作者们使用共同的语汇来对蛋白质进行描述,这些蛋白质在早期胚胎发生中和人类恶性肿瘤发育中具有同样重要的作用。

序列分析还由于可以依据基因的相似性而不是依据生物的性状来描绘种系树,使进化研究发生了革命。到20世纪80年代,由于获得了大量序列数据和有了成熟的计算机分析工具,完整的生命树的枝叉重新画出来了。

单个基因研究的收获是惊人的,但这方面的成功不久又激发了更宏伟的想象力:对全部基因组系统进行研究,后被称为基因组学。开基因组学先声的是一个建议,主张用DNA技术来将斯特蒂文特原来关于基因图的设想扩展用于人类。1980年,D · 博茨坦及其同事提出,可以通过追踪共同DNA序列变异的遗传,来构成一幅完整的人类染色体的基因图,这种DNA序列变异称为DNA多态性。每一多态可用作染色体基因图上某一特定位置的序列标志。这样,人们就可通过对比基因图上有标志DNA序列的遗传方式,来为导致人类疾病的特定基因定位。

这一战略最早成功于1983年,这时导致亨廷顿氏舞蹈病的基因在人类第4染色体的短臂尖端被标出。具有400个指示标志的人类总体基因图构成于1987年;具有1万个以上指示标志的更详细的基因图于10年后获得。随着导致1000种以上人类疾病的基因在染色体上的特定位置被标出,医学遗传学发生了革命。

1985年,有人甚至提出了更大的奢望:弄清楚全部人类基因组的序列,从而提供一份包括每一个人类基因的完整目录。初看起来,这个建议是不切实际的,逻辑上不可能的。人类基因组含有30亿个DNA碱基;那时的测序技术一次分析只能读出约300个碱基的长度。要完成这—任务显然需要大批专家几十年的工作。

再者,还有人认为,人类基因组排序也是一项吃力不讨好的工作,因为大部分基因组——可能达95%——并不编码蛋 白质或调控信息。这些序列被贬称为“废基因”。他们问道,花费很大的力气去求得生物学意义甚小的DNA的详细序列又何必呢?

然而,上述建议还是得到了广 泛的响应。经过几年争论,原先的计划被修改成为若干个阶段性规划。在着手人类基因组以前,先攻克几种重要实验生物细菌、酵母菌、蝇类和蠕虫类的较小的基因组。这可以成为一种先导性工作,用以完善对基因组信息进行自动化测序和计算机分析的工具。1990年,有关力量在国际《人类基因组计划》中组织起来了,这是生物学为研究生命而创造一个大规模的基础结构的第一次尝试。

首先实施的计划是完成对酵母菌cerevisiae 的1200万个碱基(Mb)的基因组的测序,一条条染色体的基因组序列在几十个实验室的通力合作下于1992至1996年间获得。1995 年产生了第一个完整的细菌基因组——1. 8个Mb的流感嗜血菌。这是由单独一个实验室用“鸟枪”技术产生的,即将整个基因组任意地予以粉碎,再将其片段测序,重新组合成一个协调一致的具有基因组长度的序列。

这一实验结果使细胞生物学为之改观。生物学家们第一次能列举出一个活细胞所需要的全套基因和蛋白质了。这里包括真核细胞和原核细胞所需要的基本装备部件。

到1998年,第一个多细胞生物基因组——线虫caenorhabdifis的97个Mb的DNA序列详图发表了。20世纪行将过去的时候,芥菜arabidopsis thaliana 和黑腹果蝇的基因组测序工作也近完成。一个长期被怀疑的结论,终因这些工作的成功而得到了确切的证实:形成如果蝇这样的复杂生物(有13000 个基因)所需要:的模板基因数目不会比单细胞的酵母菌基因组中的6000个基因超过多少。

测序工作的步伐加快了。人类基因组的序列有望在今年获得其粗略轮廓,不久可全部完成。生物学家们已开始考虑把一个生物基因组的完整序列,作为研究工作必不可少的起点了。


未来:生物学的整体观

获得生物体全部构件清单,或者说获得它们的全部基因以及蛋白质目录的可能性,使生物学家们转向于生命过程的整体观察一研究全部基因和全部蛋白质的共同作用。20 世纪生物学因专注于分析复杂生物学系统的单个成分而取胜; 21 世纪生物学则将日益把研究的焦点集中到整个生物学系统,试图了解系统的组成部件如何协同成为一个整体。100 年来第一次,还原论者们向试图获得细胞和组织的整体景观的人们让出了阵地。

新的思路展示了十分广阔的前景;同时,这也造成了有可能使科学家们淹没在数据之中,并为解释数据而搞得筋疲力尽的危险。各种基因组研究产生的数据无疑需要有效的新的生物信息科学来进行消化和解释。以下,我们描述几种已经眉目清楚的整体景观。

人类基因组序列一旦获得以后,接着应做的工作是弄清楚人类基因库中基因变异的频谱及其与疾病的关系。令人惊异的是,由于人种出现的年代较近,这个问题并不难以解决。现有的60亿世界人口是由大约20万至15万年前生存在非洲的几万个祖先传下来的。这样少的人口只能产生有限的基因变异——基因组中每——基因的编码序列一般只会有少数共同变异体。而且,随后发生的几千代人口的指数增长,在进化的时间尺度上也为数过小,不足以改变共同变异的频谱。因此,现代人类人口的种内基因变异要比黑猩猩少。最近的实验结果已证实主要基因只有有限数目的共同变异体,这就展示了这样一种前景,即有可能编出全部人类基因的全部共同变异体(等位基因)的目录。

这种共同变异体引起了广泛的兴趣,因为它们可能对某些疾病的先天易感性具有决定作用。已知的例子有阿朴蛋白质E基因的共同变异体与早老性痴呆病、凝血因子V基因的共同变异体与血栓的易感性的关系等。有的人类遗传学家相信,这些例子还只是冰山之一角,今后的任务是鉴定全套变异体然后测定其与疾病的关系。

正如人种内所作的比较那样,种与种间所作的比较也会揭示很多东西。进化是基因中巨大数量的序列变异在选择的熔炉中经受考验的一项伟大试验。不同生物之间在进化上的比较可以揭示那些对蛋白质结构或基因调控具有重要作用,因而能在进化的发展过程中保持不变的序列。这样就能弄清楚重要基因和蛋白质的功能特性,避免长年累月的实验室辛劳。

对序列作进化上的比较,应能使我们识别对创造新物种具有决定意义的基因;这些基因可能已经过了严格的选择和更迅速的序列进化。发现促成我们祖先和黑猩猩之间的物种特化的基因和基因变化,将是十分诱人的。

整体研究对了解细胞和生物的生理机制也非常重要。这里的关键是我们要有能力来测定一个细胞中哪些基因可被读出(表达),而哪些则是不能表达的。

如能成功地监测细胞和不同组织中每个能表达的RNA和蛋白质水平及其在应答不同生理信号或各种疾病状态时所产生的变化,研究工作将登上一个新的台阶。现在,研究人员已能测量约1万个已知基因(总数的10%)中的每一个基因相关的RNA水平;对于已表达的蛋白质混合物也有了多种研究方法。

由于一个细胞内已表达的蛋白质的频谱对细胞生物学起决定作用,这方面的全面描述将为精确了解为什么脑细胞有别于肾细胞等等提供基础,这样就可对疾病状态的生物学标志进行识别。这样就可以帮助我们对肿瘤进行分类,从而了解肿瘤的家系,了解导致其显现的基因突变的性质,并在长时期中了解它是否会对特定的治疗手段作出反应。这样还能揭示病原体是怎样攻击寄主,以及寄主是如何对入侵的病原体进行防御的。

经常不变地相互作用的蛋白质是彼此沟通的,因此又开发了多种可用于识别这些相互作用的技术。由此获得的显示这些相互联系的图像,可使人看清楚活细胞内传送和加工信号的通道设计。

长期目标是应用这种知识去重构细胞内复杂的分子电路系统一绘出相互作用的蛋白质网络,这种网络决定各种细胞功能,包括细胞增殖、生理应激反应,以及获得和维持特定组织的分化功能等基本原理。更长远的目标是创造这些生物学电路系统的数学模型,从而对细胞的生物学行为作出预测。

实现这些目标需要更有效的手段,既能进行高度仪表化的检测,又能进行有效的生物学信息计算机处理,后者现已成为一种家庭工业。生物学家们将需要专一的基因试剂来阻断细胞内每一种 成分的功能,并研究每一阻断对其他细胞和蛋白质的影响。现在正在寻找一种通用的技术以便能以专一的、高度有的放矢的方式阻断细胞间的电路。要阻断人体细胞内每一个基因的电路是困难的,但不是难以逾越的——毕竟,人体基因只有约10万个,随着时间的推移,这个数目似乎并非不可战胜。

生物学有史以来第一次持着最初由希波克拉底和亚里士多德所作的神秘教导之书进入了本世纪,这将使我们在解释生物世界的巨大复杂性时走得多远?我们难道能凭着已知的DNA顺序来绘出一只原生动物或一只孔雀吗?在世纪之交,我们要回答这些问题是颇感困难的。但我们将满怀乐观地前进:许多长期不能攻克的难题都已攻克了,21 世纪生物学的前景无疑会是令人鼓舞的。

同时,我们又必须清醒而又怀着某种不安地来面对即将到来的世纪。基因诊断使病人有可能寻求个性化医疗,也可能引起基因歧视。了解人体基因电路系统可为无数疾病提供医治方法,也能使某些人认为人类不过是摆弄与生俱来的DNA磁带的机器——人的精神和人的潜能是被束缚在双螺旋链之中的。因此,基因组学将对我们选择何种观点来观察我们自己和观察你我彼此,产生深刻影响。面对这些挑战,我们需要经常保持警惕,以免我们会有朝一日不再知道我们为什么会在这里,我们是谁,以及我们希望变成什么。