不少人对基因作用的理解还停留在某特定基因是某种疾病的“开关”的印象中。这种印象不只是普通人才会陷入误区。其实人类大多数受遗传影响的特征,都无法与单一基因建立直接而排他的关联。

1990年,美国率先启动了人类基因组计划,英、日、法、德、中五国后来相继加入,共有两千多位科研人员参与其中,历时十三年,耗资38亿美元,方才完成人类基因组图谱的绘制。此后,基因测序技术的进步使其时间和资金成本都逐步下降。2007年,有机构为DNA双螺旋结构的发现者之一,当时仍健在的詹姆斯·沃森,提供世界首份完全个人化的全基因组测序作为生日礼物,耗时三个月,花费逾百万美元。到了近两年,基因测序的用时已缩减至一天,花销最低不到一百美元。

基因测序愈发便捷和廉价,DNA数据自然越来越多,遗传学研究也就在本世纪迎来了黄金年代。主流科学新闻网站上每天都会更新遗传学的研究动态。某些基因与某种体征或先天性疾病有关的报道,也不时会出现在大众媒体上。

那么很多人认为并非像瞳孔颜色或肢体畸形那样与生俱来,而是后天发展出的心理、行为特征,以及人与人之间在教育、社会、经济等方面的差异,与基因有无关系,关系多大?这些问题属于心理学与遗传学交叉而成的行为遗传学的研究范畴。美国得克萨斯大学奥斯汀分校的"80后"教授凯瑟琳·佩奇·哈登(Kathryn Paige Harden)是该学科近年来在学术研究一线与公共传播领域都相当活跃的一位学者。2021年她出版了《基因彩票:运气、平等与补偿性公正》(The Genetic Lottery)一书,向大众普及这一学科的基本知识、研究趋势,及其对很多人关心的社会平等问题的启示。本书推出后被《经济学人》等媒体列入当年最佳图书榜单,今年被翻译引进国内,让中文读者现在也可借此一窥近年来行为遗传学在基因组研究推动下的诸多进展。


多基因指数与双生子研究

不少人对基因作用的理解可能还停留在某个特定的基因是某种疾病"开关"的印象中。的确有疾病是由单个基因的突变引起,如镰状细胞性贫血症。但人类大多数受遗传影响的特征,其实都无法与单一基因建立直接而排他的关联。这种印象不只是普通人才会陷入的误区。世纪初,科学家们试图根据脱胎于这一思路的"候选基因"方法,找到"抑郁症基因",甚至都大致定位到了某个具体基因段。但十几年的研究之后,学界已基本形成共识:抑郁症的遗传因素不能归结到单个基因上,而是与成千上万个基因的变异有联系。身高、代表体型的BMI指数、常用于衡量受教育程度的大学毕业率等特征指标同样如此。与这些特征相关的每一个基因,其影响从统计上来说都极其微弱,但将它们加权汇总为一个综合性指数后,与指标的相关性就不再小到可以忽略了。就受教育年限、标准化考试成绩、智力测试得分等指标而言,人们之间受教育程度的多基因指数的差距,以统计学中常用的R平方系数来衡量,能够解释这些指标中10%到15%的差异。

这个比例初看上去并不引人注目。但这等程度的解释效力究竟是强是弱,应该与其他变量相比。哈登指出,家庭经济状况对大学毕业率的解释效力也只有11%,并不比教育多基因指数强。如果经济不平等影响下一代受教育程度继而再生产不平等是值得担忧的问题,那么基因至少应当获得同样多的关注。

事实上,有研究表明,各种可以想到的成长环境指标及其组合,都只能捕捉到青少年教育结果差异的一小部分,多达八成的差异无法用环境变量解释。显然,每个人的人生之路,不是遗传天赋、家庭背景和社会环境可以锁定的。但这样的研究远非没有意义。把人群按照多基因指数或家庭收入分组之后,组间的教育水平差距总是很明显。美国两位经济学家同时考察多基因指数和父亲收入两个维度,在每个维度上从低到高划分四组,计算不同组别中人们获得大学学位的概率,结果不仅不出意料地表明,多基因指数或父亲收入越高,大学毕业率就越高,而且在按父亲收入划分的每个组别内部,多基因指数与大学毕业率的正相关关系也依然存在,父辈收入最低的一组内这一正相关关系还格外强烈,多基因指数最高的1/4者的大学毕业率大约是最低1/4者的三倍。

当然,就像科普文章和著作中经常强调的那样,相关不等于因果。基因差异与某一结果相关,不能直接理解为前者的高低"导致"了后者的差异,也许是与两者都相关的另一变量起了实际作用。一种常见的应对方法是在统计中添加其他可能影响结果的变量,观察控制住这些因素之后多基因指数仍然存在的解释力。另一条路径是借鉴其他社会科学及生物医学中常被称作因果关系识别"金标准"的随机对照试验的思想,寻找处于相同环境中的人们随机获得的基因差别,以衡量基因对结果的影响。

这就引出了多基因指数之外,行为遗传学的其他研究方法。兄弟姐妹的家庭背景和成年前的社会环境高度相似,但由于精子、卵子的生成机制,随机继承了略有不同的基因。测量他们的基因差异,并考察他们后来在各方面的发展状况,就可以有效隔离环境作用,更准确地估计出基因对结果的影响大小。如果考察对象是异卵双胞胎,那就近乎理想了。人们的生理特征或教育、社会、经济结果的差异中,由遗传因素造成的差异所占的比例,被称为遗传率。双生子研究就是将异卵双胞胎与可以认为基因完全相同的同卵双胞胎做对比,也是最常见的遗传率估计方法。此类研究针对受教育程度估计出的遗传率,比起多基因指数对相同指标的解释效力,往往还要高出不少。两种方法的估计值为何有明显距离,学界尚无定论。不过无论如何,基因差异会导致教育水平不同这一结论,经过两种方法的多次检验,已经无可辩驳。人们在经济、福祉和健康等方面的结果与此类似,遗传因素多多少少都会有影响。


基因与环境的交织

关于基因的影响,有几点需要辨析清楚。首先,上文已经提到过,基因的作用不是决定性的。我们只能说,基因差异使得人们按此分组之后,各组在某方面(如收入)的平均结果会有差别,或实现某种目标(如大学毕业)的概率不同。对于任一个体,遗传和环境因素都不是决定性的,于是也就不可能基于这些信息对其生活前景做出准确预测。

第二,基因与环境有交互作用。双生子研究发现,遗传不仅对儿童的认知能力有影响,其中有些特质的遗传率甚至接近100%,如自主调节注意力、保存短期记忆等。这些特质被心理学家们汇总称为综合执行能力,能力强的儿童很自然地从小学开始就在课程测试中得到更好的成绩。另一方面,好奇心、对新知的开放心态,以及延迟满足的意愿等非认知能力,也有不小的遗传率。在当代社会,因为遗传而具备更强的认知和非认知能力的孩子,在家中会得到父母更多的认可,得享更积极的亲子互动,在学校则会因为测试表现出色,被鼓励或安排参加难度和强度更大的课程,升入更好的学校。这样的正反馈和路径依赖机制会在儿童成长历程中放大基因的影响。这导致了行为遗传学的一大反直觉发现:遗传对教育结果的影响非但没有随着时间推移被环境因素逐渐洗刷掉,反而愈发深化。

第三,基因对生活的影响程度并非亘古不变。正是因为基因的影响往往是生理特性与家庭、社会环境互动形成的结果,改变环境也就可能调节基因作用的大小。如果制度不允许人们充分发挥自己的天赋以获得更好的教育机会,基因与教育成就的关系就不会那么紧密。以爱沙尼亚为例,该国基因组中心建成了全球最好的国民健康和基因数据库之一,其中的样本既有在苏联加盟共和国时期成年的个体,也有国家恢复独立后长大成人者。前者在计划体制下,八年级结束时被分配至三种教育轨道中的一种,毕业后又是被分配工作而非自由择业;后者在新时期则面对正常的学校录取竞争和就业市场选择。研究者以该国的基因数据库构建教育多基因指数后发现,后者的指数与教育结果的关联,明显强于前者。美国女性的经历与此相似。在二十世纪下半叶得到与男性平等的受教育机会之前,她们的教育多基因指数与受教育程度的关系要弱于男性。而随着女性权利的扩展,两性的差距也在缩小。1975年后出生的一代女性在这一点上与男性已无法区分。

另一个不可忽略的问题是,用于计算多基因指数的全基因组关联分析(GWAS),直到本世纪第二个十年末仍有接近八成的样本来自于通常被认为属于白人的欧洲血统人群,而他们只能代表全世界16%的人口。不能简单推断,由此估计出的基因影响程度,在其他群体中必然等同。这一方面是因为,科学上有意义的血统(ancestry),与并不怎么科学但有历史和社会涵义的种族,有一定的关系。根据遗传学的分类标准,美国白人基本没有欧洲以外的血统,绝大多数美国黑人则结合了部分非洲血统和部分欧洲血统。而不同种族在历史上又长期受到社会制度的不平等对待,如今的社会经济状况总体而言也有落差。白人以外部分族裔的基因与生活结果之间的相关性,可能要小一些。已有研究在美国黑人样本中初步证实了这一判断。另一方面,其他血统群体内人与人之间的基因差异与欧洲血统人群内部的差异也不尽相同。约有四分之三的基因变异只在一个大陆血统群体中存在。非洲是人类的发源地,其他大洲的人群都只是远古非洲人的分支。非洲人的基因多样性因此在各大洲之中最为丰富,不同地区人群间的基因差异可以比欧洲人和东亚人之间的差异还要大。可以想见,非洲血统人群中与教育或其他方面结果相关的基因,与欧洲血统人群不会完全重合,多基因指数的构成因而也会不同。哈登坦诚而直率地说,对欧洲血统以外人群的研究不足,是本学科亟待解决的一个大问题。


从科学到政策

哈登在导言中就明白无误地告知读者,她写书是出于自己作为美国的左翼进步派对社会不平等的忧思。不过她在本书上半部分基本上还是恪守科学家传播"是什么"的本分,解释了行为遗传学视角下,基因如何参与形成人们之间的不平等,尤其注意澄清种种流行的谬见和可能的误解。在下半部分,她一只脚仍然牢牢地立在科学的疆界里,没有因为戴上了进步主义的帽子就牺牲科学信息的准确性或者做过度简化,但另一只脚已经踩进了"怎么做"的世界,对自己的专长何以能够促进社会平等展开了思考。

为什么要在乎不平等?哈登在书中多处征引了她热爱的约翰·罗尔斯,甚至还以书名向《正义论》中用以讨论人们出于运气而拥有不同禀赋的"自然抽彩"(natural lottery)概念致敬。罗尔斯提出的两条正义原则中关于社会和经济平等问题的第二原则要求,人们的社会、经济状况不必平等,但不平等的安排应当让受惠最少的群体预期能得到的利益最大化。哈登把罗尔斯的第二原则应用于遗传天赋,改写为"社会的结构应该有利于那些在基因抽彩中最不占优势的人"。

哈登抱怨说,现在政策和舆论界的辩论还基本没有触及如何使用基因数据改进政策的层面,仍然停留在反复无谓地争论要不要考虑遗传因素的阶段。行为遗传学家们研讨基因对人们生活状况的影响,在一些知识分子眼里已然接近种族主义。若要进一步将基因信息纳入公共政策研究,在这些人看来无异于优生学死灰复燃。本来从常理出发,了解更多信息,可以更精准地定位弱势群体,为资源有效集中于需要帮助的人创造更好的条件,或者至少,在研究社会问题时排除错误归因,避免出台浪费公帑的无效政策。但在美国现今觉醒(woke)文化横行,大讲政治正确,少讲乃至不讲道理、常识的有毒舆论环境里,谈论基因俨然成了禁忌。

回到问题本身,首先不难理解的是基因信息用于筛查社会问题成因的潜力。在社会科学的统计分析中,研究者们需要担心的一大问题是遗漏变量。刻意将基因数据排除在外,轻则会夸大其他因素的影响,重则会将问题的症结归结到无关的事情上。哈登家乡得克萨斯的州议会了解到,数据表明青少年初次性行为年龄与心理、行为异常有相关性,便立法要求性教育课程必须向学生强调禁欲保护心理健康的"科学"结论。这一举措隐含的假设是,青少年性行为与精神健康问题之间不仅有相关关系,而且有因果关系,前者会导致后者。但另一种应该考虑的合理假说是,促使青少年性早熟的基因,可能既使得性行为时间提前,也让他们更容易出现心理问题。正如每个合格的社会科学家早早就明白的那样,如果因素A既导致问题B又导致问题C,而问题B并不会引起问题C,那么对问题B下功夫就无助于化解问题C。显然,不可能开展随机对照试验来检验两个假说中哪一个该被排除掉。哈登与导师埃里克·特克海默及其他几位学者合作的一系列研究,使用同卵双胞胎数据在统计中控制住基因的影响,结果发现初次性行为年龄与药物滥用、抑郁症、行为障碍、犯罪等心理和行为问题之间都不再相关。也就是说,得州立法者们所相信的因果关系,是个应当被拒绝的假说。这一政策的理论基础既然不牢固,也就不能指望对青少年的身心健康有什么成效。

至于如何使用遗传信息来帮助抽到了最差基因彩票的人们,书中有些语焉不详。在可预见的将来,恐怕没有哪个社会在制定教育补助等社会政策时,会使用多基因指数而不是诸如区域发展水平、家庭收入等指标,来界定需要倾斜资源的群体。更容易想象的情景是,对于一些有遗传基础但不是天生即得的罕见病,如果在发病前使用生物医药技术手段预防或控制并不困难,而儿童基因筛查又能提前发现患病风险,公共医疗体系就可以为贫穷家庭提供指导和帮助。

但遗传病完全不是本书关注的重点,讨论最多的是人们之间受教育程度的不平等。书里倒是简短地提到了三个促进公平的实际例子,其中前两个与身心健康有关。在第三个涉及教育的例子中,研究发现,在自身就有大学学历的学生家长足够多的美国优势高中里,哪怕是教育多基因指数低的孩子,也能较好地完成有难度的数学课程而不掉队。换句话说,环境对基因影响的放大效应被抑制了。这一效果的作用机制目前尚不明确,或许是学校的辅导,或许是有高等教育背景的那些家庭能让他们的孩子给学校里带去浓厚的学习氛围,最终惠及全体。前两个例子与此类似,多基因指数所预测的高风险者在干预措施实施后,问题被大大缓解。

可是在这几个事后用基因数据来衡量都效果良好的例子中,相应的社会政策、干预项目或分配机制与迄今为止所有同类措施一样,在事前规划时都不曾考虑遗传因素,甚至都很难说专门针对的是以任何其他标准筛选出的最弱势群体,而是对所涉及的学校内的孩子们一视同仁。当然,从前如此,不意味着以后的举措不能把基因纳入考量。但前面我们已经看到,基因的作用大小,在不同血统的人群和有差别的社会环境中并不一致。那么与之挂钩的多基因指数是否适合直接拿来作为划定弱势群体的一种标尺,就不好说了。在基因-家庭-社会这条长长的因果链上,哪个节点的状况在政策意义上更为关键,也没有成熟的答案。书中论证后天干预对先天问题也可有效时借用了一位经济学家打的比方:视力不佳可能是遗传而来,也可能是环境所致,无论是哪种情况,眼镜都有用。这恰恰可以作为政策未必要以基因为圭臬的一个隐喻。哈登只是往"利用遗传信息来改善机会"的方向挥了挥手。真要在社会政策工具包中加入基因信息,就像很多社会科学文献最后会写到的那样,"尚需进一步研究"。

哈登还批评了保险业有人希望使用基因预测来为产品定价的畅想,称此为"歧视",并赞许美国国会2008年通过的《遗传信息不歧视法》和2010年的《平价医疗法案》(奥巴马医改)禁止保险公司使用基因信息或基于既往症(pre-existing conditions)对客户在准入和保费上区别对待的规定。然而"歧视"是个道德概念,区别对待未必都有道德意味。医院里ICU的费用比普通病房贵得多,并不构成对危重病人的歧视。即使是被某些国家立法禁止的区别对待,原本也可能只是正常的商业逻辑。众所周知,同一种成人医疗保险,保费随被保险人的年龄而增加,超过一定年龄便不再能够投保。这自然是由于年纪越大,很多重大疾病的风险越高,保费理当反映这一点。女性的保费往往低于同年龄男性,也是因为患病概率不等,并非歧视男性。假如所有年龄的保费必须拉平,年轻人的保费就得提高,对他们来说不公平;若再取消投保年龄上限,保险公司的经营可持续性也会成问题。与此同理,有既往症者罹患某些疾病的风险高于健康人,险企用更多的保费覆盖更高的赔付概率,并无不妥。既往症带来的风险高到一定程度后被拒保,也与耄耋之人买不到商业医保没有本质差别,无非是因为保险公司不做慈善。中国目前就允许在承保条件和免责条款中规定既往症内容。

核定保费时使用基因信息进行精算,是高龄、既往症定价逻辑的延伸。被保险人总是可以做基因检测而不透露检测结果中于己不利之处。法律在双方自愿的前提下也不允许被保险人向保险公司提供基因信息,和强行要求险企无视既往症一样,会加剧信息不对称导致的逆向选择问题。在法无禁止的国家,或许有些险企原先的同一种保险会分为两种版本,提供基因信息的投保人得以享受更优惠的保费。当然,允许这种做法,不等于险企可以随意使用客户信息。监管当局应当确保险企像如今保护客户的体检报告等隐私信息那样,不滥用或泄露基因信息。在这样的社会里,如果有经济状况不佳者因为基因缺陷买不到低价保险,同时社会主流价值观又认为这不可接受,可以民主决策由财政资金为其提供购险补贴,或直接为此类缺陷相关疾病的医疗费用买单。通过转移支付而不是扭曲价格信号来帮助弱势群体,从经济学角度来看更加合理。

不过本书毕竟不是专门的公共政策研究,具体政策问题上可商榷之处,遮盖不住其作为面向大众的社科佳作的光彩。哈登在讲解行为遗传学知识时格外耐心、严谨,同时还展现了自己广博的哲学阅读积淀。除了引述罗尔斯和他的学生伊丽莎白·安德森的论著,书中讨论因果关系的意义时引用了二十世纪哲学巨人大卫·刘易斯和图灵奖得主朱迪亚·珀尔,辨析自由意志概念时又准确地阐释了哲学家丹尼尔·丹尼特的思想,如此的旁征博引让人惊喜不断。既有科学的密度又有哲学的深度,一流的社科普及著作就是这样。