基因,也称为遗传因子,支持着生命的基本构造和性能。直到今天,人类对自身功能基因的数量都是一个估值——2万至2.5万个,且大量基因的功能没有被发现,尤其是在一些非功能基因区(过去称为“垃圾基因”区)中,仍然存在着许多未知基因等待人类去发现和开掘。

希腊和爱尔兰的一项研究发现了155个来自独特DNA区域的基因,这些新基因不是按“惯例”从已知基因复制事件中产生的,而是从零开始,这表明,现代人类仍在继续进化。今天,我们请知名科普作者张田勘来说说基因解密为何困难重重,以及新基因的发现与人类继续进化的关系。


解密人类基因为何难

人类从非洲南方古猿演化而来,这是目前国际科学界的主流认知。南方古猿是人科动物一个已灭绝的属,被认为是从猿到人转变的第一阶段。因此,人类的基因最早溯源应当是南方古猿。

不过,南方古猿也有很多分支,如阿法种、非洲种(纤细种)、粗壮种以及鲍氏种。研究人员对这4个种系如何演化、谁与谁有着祖先和子孙的关系、谁又直接演化为现代人,有不同的见解。比较一致的意见是,最早的阿法种经过演化分为两支,一支经过非洲种发展成粗壮种,最后在大约距今150万年前绝灭了;另一支则向着现代人类的方向演化,经过能人、直立人,直到现代人。

人类基因的演化是随着人的行为发展的,其中既有共性,也有很大的差异。由于远古时期,人们获得的食物较少,需要在体内积蓄更多的能量,因此演化出了节俭基因,这是所有人共有的基因。其中,中国人通过演化拥有了苦味基因,与传说中的“神农尝百草”处于同一时代,而其他民族并没有这样的基因。这说明了基因既有共性也有个性,且与环境密切相关。

为了搞清楚人类基因的奥秘,1990年,人类基因组计划正式启动,我国科学家与美国、英国、法国、德国、日本科学家共同参与其中。科学家认为,人类基因组计划可比肩阿波罗计划,是人类科学史上的一个伟大工程,也被誉为生命科学的“登月计划”。

2003年4月14日,人类基因组计划的测序基本完成。当时的计划是,到2005年要把人体内约2.5万个基因的密码全部解开,同时绘制出人类基因的图谱。简单来说,该计划的目标是要揭开组成人体约2.5万个基因的30亿个碱基对的秘密。然而直到现在,这个目标也未能实现。

其实,研究人员在2003年时已经绘制出大约92%的基因组图谱,随后用了近20年时间追踪剩下的8%。这部分基因被称为人类基因组中缺失的“暗物质”,很可能为人类如何演化,或对各种疾病的易感性提供新线索。2022年4月,美国《科学》杂志同时发表了6篇文章,并以封面形式介绍了人类基因组计划的最新成果——“一份更完整的人类基因组图谱”,约100名科学家组成的团队首次完成了对整个人类基因组的完整测序,补齐了遗漏的8%的DNA序列。

然而,对人类基因组的完整测序并不能确定所有的功能基因。比如,人类面对的很多疾病都不是简单的遗传疾病,而是基因、行为、暴露在环境中的组合。也就是说,并不是每个功能基因都会体现出来,它们蜷缩在基因组中,而且一些功能是多个基因共同作用的,比如决定人类身高的基因就至少有几十个。有时,确定功能基因还需要通过敲除基因来进行比较和确认,这只能借助于动物研究,因此人类基因组计划的研究进展比较缓慢,与当初预估的情况不太一样。


“垃圾基因”可能很有用

生物学有一个中心法则,遗传信息一般由脱氧核糖核酸(DNA)转录到核糖核酸(RNA),再由后者翻译产生人体所需要的蛋白质,蛋白质会显示出生物体的一切遗传性状。人类基因组计划表明,人类基因组有3/4的基因能够被转录,但只有约1.5%的基因具有编码蛋白的能力,也就是有2万至2.5万个功能基因。

但是,根据“如无必要,勿增实体”的原则,人类基因组中大量的非蛋白编码基因也应当包含着大量的遗传信息,否则它们就没有存在的必要。因此,科学家一直在深入研究这些非蛋白编码基因,逐渐取得了一些进展。

人们在很长一段时间都认为,可以编码蛋白的基因位于人类基因组中的“开放阅读框(ORF)”。“开放阅读框”是从初始密码子到终止密码子的连续碱基序列,也是DNA序列中具有编码蛋白质潜能的序列(密码子是指信使核糖核酸上决定1个氨基酸的3个相邻碱基的排列顺序,代表某一种氨基酸的规律)。

但是,人类基因组中还存在大量的“小开放阅读框(sORF)”,它们在序列长度上与“开放阅读框”有明显区别,其大小可以从最低2个密码子到100个密码子,即通常所说的“微基因”。

“小开放阅读框”也是以前科学家口中的“垃圾基因”。这个概念是日本遗传学家大野干于1972年提出的,用来指称基因组中不编码任何蛋白质或酶的基因。但事实上,垃圾基因的概念并不准确,因为这些基因中有不少具有协助编码功能,还有一些基因具有编码功能,例如“小开放阅读框”的基因。

总之,“小开放阅读框”的基因极小且不具有编码功能,因为大部分基因处于非蛋白质编码区域——这种说法被后来的大量研究推翻了。科学家发现,一些“小开放阅读框”基因具有编码并翻译产生蛋白的能力,所产生的微小蛋白被称为微肽,是长度小于100个氨基酸的蛋白质,而且,这些微肽可通过与其他蛋白相互作用而发挥其生理或病理的作用,包括代谢、肌肉发育、胚胎发育、物质降解、癌症等。


新基因与演化的关系

在科学家眼中,人类的基因富矿有两类,一种是原本存在于基因组中但以前没被发现的,一种是从零开始的,也就是新演化出的基因。前者证明,人类的基因非常富有,后者证明人类还在演化。

希腊瓦里生物医学科学研究中心和爱尔兰都柏林大学的研究人员几个月前在《细胞报告》杂志上发表论文称,他们发现的155个新基因来自DNA非编码区,即是从“小开放阅读框”发现的,这些微基因可以编码产生微蛋白(微肽),从而参与生命过程、生理功能和疾病发生等。其中一些基因可以追溯到哺乳动物的远古起源,还有一些基因被预测与人类特有的疾病有关。

特别值得一提的是,研究人员在“小开放阅读框”发现了人类独有的与心脏功能有关的新基因——一种增强子RNA(lncRNA)基因,它在小鼠、狗、大鼠或鸡的任何组织中均未检测到直系同源转录。而且,这种基因是在现代人类与黑猩猩谱系分离后出现的。如果在进一步的研究中证明,这种微基因是在最近几百万年内出现的,那么这将成为人类基因不断演化并适应人体的重要证据。

研究人员介绍,该基因与心脏组织密切相关,相关性最强的靶器官是心室腔,其次是心脏瓣膜、心房、黑色素细胞、房室瓣和色素细胞。在黑猩猩体内,只发现心脏组织中该基因的转录位点具有活性;在有数据可查的大猩猩、猩猩或猕猴中,没有发现该基因的心脏表达。种种迹象表明,该基因独属于人类。

这种与人类心脏发育相关的增强子RNA(lncRNA)基因的明显作用可能涉及先天性心脏病,比较典型的是法洛四联症,主要表现为4种先天性心脏缺陷:心室之间的间隔壁上有一个孔洞、右心室和肺动脉之间的通道变窄、主动脉与心脏的连接移位、右心室肌增厚。当然,如果演化向好的方面发展,那么人类以后可能通过良好的心脏成形和发育来减少先天性心脏病的种类和数量。

此外,在这155个新基因中,研究人员通过试验还发现有44个基因与生长缺陷有关,证明它们在维持人体健康的生命系统中具有重要性。同时,有3个新基因被发现与人类某些特异性疾病相关,如肌肉营养不良、视网膜色素变性和阿拉善综合征(也称为先天性肝内胆管发育不良和肝动脉发育不良综合征)。

其实,包括人在内的大多数高级动物都是由两性生殖细胞结合形成胚胎,并由胚胎发育为成体的。在此过程中,某一基因的变化、在胚胎不同时间的表达都有可能影响物种的发育。对个体而言,可能涉及某一胚胎是否发育正常或有畸形,而对群体来说,无数个体出现基因突变,哪怕是同一基因产生变化,都可能影响物种的进化方向。现在,研究人员从一些动物的“小开放阅读框”中同样发现了影响演化方向的基因,这说明其他物种也像人类一样在继续演化。


人类基因选择受环境影响

基因从来都不是一成不变的,有新增也有减少。随着环境变化和时间推移,人类的基因演化会出现适应环境和此消彼长的情况。

一个突出的例子是乳糖不耐受。为什么有些人喝牛奶会发生腹痛、腹胀、腹泻及呕吐?这就是乳糖不耐受的表现,原因是小肠中的乳糖酶不足,无法将乳糖分解成葡萄糖和半乳糖。乳糖不耐受有4种类型:原发性、继发性、发育性和先天性。其中,原发性乳糖不耐症是指乳糖酶的量随着人年龄增长而下降;先天性乳糖不耐症是一种遗传性疾病,患者乳糖酶很少或根本没有乳糖酶。这两种情形都源于缺乏一种产生乳糖酶持久性的等位基因——人类第2号染色体上负责乳糖酶合成的LCT基因。该基因是人类在约1万年前演化出来的,主要是世界各地的游牧民族食用奶和奶制品而适应环境产生的。

各个地区人们缺乏LCT基因的比例不同。研究人员在上世纪80年代就发现,乳糖不耐症患者的比例因地区而异,当时大约5%的斯堪的纳维亚人患有乳糖不耐症,而在亚洲有的地区这一比例高达80%,只是乳糖不耐受的症状轻重不一。比如,中国有很多人都是因为缺少这个基因而出现乳糖不耐受。其实,大多数亚洲人的祖先都生活在不利于奶牛养殖的条件下,因此他们成年后不需要乳糖酶来消化乳糖,结果就没有演化出乳糖酶耐受基因。不过,人的演化提供了一种解决方案,不同种族人的通婚可以解决这个问题。比如,智利科金博地区的牧民与新来的欧洲人通婚,后代获得了乳糖酶耐受能力,且这种特性现正在族群间传播。

人类的基因也可随着环境的变化而减少。早在2009年就有研究人员指出,男性独有的Y染色体十分脆弱,无法自行修复基因变异造成的损伤,情况不太乐观。原因是在300万年之前,男性的Y染色体大约有1400个基因,可如今只剩下45个基因。如果按照这种速度丢失基因的话,Y染色体大约会在500万年后失去全部基因。

当然,男性基因的丢失除了DNA修复能力弱外,也有环境和生活方式的原因,如化学污染、气候变暖、生活方式不健康(如抽烟、喝酒)等。也有研究人员认为,预言男性Y染色体基因全部消失是危言耸听。但无论如何,如果男性遵循较为健康的生活方式,以及人类生存的环境能够持续得到改善,Y染色体基因的丢失会乐观许多。

总之,虽然目前在非编码区域内自发产生新基因的确切机制尚不清楚,但随着研究的不断深入,未来我们将有可能找到人类基因组中更多的隐藏功能。研究人员指出,无论是原本存在于基因组中但以前没有发现的功能基因,还是人体从零开始新演化出的基因,都证明人类还在通过与环境的交流和适应来改变和维持基因,并持续演化,以适应环境并获得更好的未来。