中国科学家领衔Science最新特刊！医学基因组学研究将进入AI时代

编辑:中国基因网发布于:基因研究2023-06-193884

今年6月1日，著名学术期刊Science 发布了最新一期专题特刊 —— primate genomes灵长类动物基因组。其中收录8篇论文，均来自中国科学家组织并主导的灵长类基因组计划，因此特刊甫一出版，便引起国内广泛关注和讨论。

灵长类基因组计划，由中国科学院昆明动物研究所率先提出，最终由中国、美国、德国、英国等多个国家的科研院所、学校以及基因测序公司因美纳（Illumina）等机构，总计100多位科学家共同参与。

可能有人会想说，这个Science特刊是灵长类动物专题，这跟人类医学有什么关系，更不要提它还能对临床医学研究能有所助益？

但，请不要忘了，人类也是一种灵长类动物。当我们在研究这些灵长类“亲戚”时，我们也是在研究我们自己。

接下来就让我们一起从头通读一遍这本Science特刊，看看它究竟讲了些什么，另外值得注意的是，Illumina 研发的基因组学AI算法—— PrimateAI-3D，在这次的特刊中起到了非常关键的作用，这是否意味着，医学基因组学研究已进入AI时代？

Science特刊全本速通

首先看下目录。8篇文章分别为：

A global catalog of whole-genome diversity from 233 primate species

来自233种灵长类动物基因组多样性的全球目录

Phylogenomic analyses provide insights into primate evolution

系统基因组学分析提供了灵长类动物进化的见解

Pervasive incomplete lineage sorting illuminates speciation and selection in primates

不完全谱系分流在灵长类动物演化过程中的影响以及其和选择作用的关系

Hybrid origin of a primate, the gray snub-nosed monkey

一种灵长类动物——黔金丝猴的杂交起源

Adaptations to a cold climate promoted social evolution in Asian colobine primates

对寒冷气候的适应促进了亚洲叶猴类灵长类动物的社会进化

Genome-wide coancestry reveals details of ancient and recent male-driven reticulation in baboons

全基因组共祖分析揭示了狒狒中古代和近代雄性驱动的网状交叉的细节

The landscape of tolerated genetic variation in humans and primates

人类和灵长类动物耐受的基因变异景观

Rare penetrant mutations confer severe risk of common diseases

罕见的渗透性突变给常见疾病带来严重风险

从标题上我们就可以看出整本特刊是在研究内容的排布上呈现总分总、循序递进的格局。先是对灵长类动物基因组的一个整体的检测与研究，接下来针对不同的物种，比如金丝猴、狒狒等进行专项研究，最后两篇则是灵长类动物基因组和人类基因组的关系，以及如何将从灵长类动物基因组中获取的信息应用于医学研究。

Science 研究执行主编Sacha Vignieri也在特刊前言中表示：

“人类是灵长类动物。如果我们无法做像写诗和开车这样的事情，我们很可能会像我们最亲密的表亲黑猩猩、倭黑猩猩、大猩猩和红毛猩猩一样被归类为另一种类人猿。因此，理解现代灵长类动物的基因组、进化历史、社会性，甚至生态学，可以极大地帮助我们了解自己。”

接下来就让我们浏览一下这8篇文章具体都讲了些什么。

Universitat Pompeu Fabra（西班牙庞培法布拉大学）的Tomàs Marquès-Bonet教授带领的多国合作团队，对来自211种灵长类动物的703个个体基因组进行了测序，综合先前发表的自大猿基因组计划（the Great Ape Genome project）的测序样本，涵盖了灵长类动物全部的科、86%的属和47%的物种。完成了迄今为止最丰富的灵长类物种基因组数据集，也是这一次灵长类基因组计划的数据基础。

作为本次灵长类基因组计划，由中国科学家主导完成的旗舰论文，此研究利用基因测序技术，通过分析基因组数据和化石时间数据，推断灵长类动物各主要类群的演化时间。研究人员认为所有现存的灵长类动物最后的共同祖先生活在大约6829万至6495万年前，且灵长类的相对脑容量在类人猿亚目的祖先节点上发生了许多关键的基因组创新。此外，文章中还报告了跨灵长类动物谱系的详细基因组重排，并确定了数千个候选基因。

本论文使用先前研究中获得的全基因组数据对29个灵长类祖先节点的不完全谱系分流现象进行了系统性的研究。研究发现，不完全谱系分流（ILS），由于祖先多态性在后代中随机保留而造成的根据单个基因建立的基因树和实际物种树不同的现象，在灵长类动物的所有 29 个主要祖先节点中频繁发生，有5%-64%的基因组在个体节点受到ILS的影响，研究人员还观察到，ILS在X染色体上的减少程度比常染色体上的更大，表明在灵长类进化过程中，X染色体受到了更高程度的自然选择影响。

研究人员通过基因组学还原了金丝猴的进化过程。在比较基因组学分析结果后，研究人员发现，黔金丝猴是川金丝猴和滇金丝猴/怒江金丝猴共同祖先杂交后形成的新物种，并且由于来自父母的不同等位基因的交替遗传，可能导致杂交物种与父母双方的交配前生殖隔离，使其成为独立的新物种。杂交事件比较普遍，但杂交成种现象在灵长类中是首次发现。

此研究从系统发育、生物地理等多角度还原了亚洲叶猴社会组织的逐步进化情景，并提出亚洲叶猴从喜马拉雅山南麓到达东亚、东南亚地区的历史扩散路线。根据这些发现，研究者推断寒冷环境推动能量代谢和神经激素调节的基因选择，亚洲叶猴出现了更高效的多巴胺和催产素途径，这提高了在寒冷环境中婴儿的存活率。这些适应性变化似乎加强了个体之间的亲和关系，增加了雄性之间的宽容度，并促进了从独立的雄性群体逐步演化成为大型的多层级社会。

科学家对19个代表性地区的225只野生狒狒进行了高通量基因组测序。通过对比这225只狒狒和另外2只狮尾狒的基因组，证实了非洲大陆狒狒属的灵长类动物中存在的复杂种间杂交和“网状”演化史。研究人员通过基因证据发现狒狒属物种存在群体遗传和跨物种遗传交流。人类祖先的出现、分化和混杂的时间跨度与狒狒的演化历史十分相似，因此该研究发现的狒狒遗传结构模式很可能可以作为研究人类演化历史的重要参考。

Illumina人工智能实验室联合多个课题组，使用233种灵长类物种共809个样本的全基因组测序数据训练PrimateAI-3D这一深度神经网络。PrimateAI-3D通过这种方式学习如何准确预测人类的致病变异，准确度高于任何目前已有的人类预测。

Illumina人工智能实验室的科研人员联合多国团队利用AI可以实现“用最罕见的变异找到最容易患病的个体”的思路，使用PrimateAI-3D算法对高致病性的罕见突变进行患病风险预测。并证实该算法在临床评估具有重要意义。

影响未来医学科研的AI算法

A global catalog of whole-genome diversity from 233 primate species、The landscape of tolerated genetic variation in humans and primates 和 Rare penetrant mutations confer severe risk of common diseases 这三篇文章，是整本特刊中信息量最大的。我们可以通过这三篇文章清楚地看到PrimateAI-3D在医学科研上的应用潜力。

在233种灵长类动物基因组多样性的全球目录的构建中，研究人员使用Illumina NovaSeqTM 6000 平台对211 种灵长类动物的 703 个个体进行高覆盖度基因组测序。合并大猿基因组计划（the Great Ape Genome Project）的29种灵长类动物的106个测序样本，构建了一个包含233种灵长类动物809个个体数据的基因组目录。美洲、非洲大陆、马达加斯加和亚洲是这项研究样本的来源地。在此研究中，不同灵长类动物间的基因多样性区别是分析重点，此外，通过该研究，科研人员对于人类血统特有的氨基酸变体有了更深的了解。虽然不足以解释全部的人类独特性变体，但其包含了某些主要致病变体的分子基础。

这为Illumina开发并使用相关数据训练PrimateAI-3D算法提供了研究基础。PrimateAI-3D算法是一种 3D 卷积神经网络，尽管其底层逻辑和ChatGPT有所区别，但其和ChatGPT一样是一种基于深度学习语言架构的算法。旨在帮助人们摆脱无望的大海捞针，实现从几百万个变异中找到那个真正的致病变异。

人类和灵长类动物耐受的基因变异全景图一文，是由美国威斯康星国家灵长类动物研究中心的Jeffrey Rogers教授和西班牙加泰罗尼亚古生物学研究所Tomàs Marquès-Bonet教授以及Illumina人工智能副总裁Kyle Kai-How Farh领导的科研团队共同合作完成的。在此项研究中，科研人员使用灵长类动物种群测序信息对PrimateAI-3D算法完成了数据灌输与训练。

之所以选择灵长类动物基因组数据对3D AI算法进行训练，这是因为人类基因组并不适用于对PrimateAI-3D进行良性变体训练。科研人员发现对常见人类变异（> 0.1% 等位基因频率）进行分析，将会在处理仅数百个体后就达到约 100,000 个错义变异，且如果将分析数量级提升至百万，分析发现的主要罕见变异并不能排除危害性。因此科研人员提出，灵长类动物种群测序和大规模人类测序可能在推进对人类遗传变异的临床理解方面发挥互补作用，并以此为假说进行科学验证。

根据目录中的809个基因组数据，将这些样本通过质量评估、映射、体素化等处理，科研人员编目了 430 万个可能良性的常见错义变异。此外，研究人员还在训练用数据集中加入了已知的人类疾病基因数据，并让 PrimateAI-3D 算法通过对这些数据的分析、学习，掌握灵长类动物基因中代表良性变异的位置，并使该算法可通过自然淘汰过程判断基因的哪些区域如果发生了突变则可能致病。之后对完成训练的PrimateAI-3D模型与其他十五种已发布的机器学习方法在六个（DMS 检测、UKBB、ClinVar、DDD、ASD 和 CHD）不同临床测试数据集中区分良性和致病性变异的能力进行测评。

与目前已发布其他算法相比，PrimateAI-3D在分辨6个临床测试数据集中良性和致病性变异的能力最佳。

既然我们对灵长类动物的研究在理论上可以用于对自身致病性基因变异的查找，那么它的实际使用潜质又如何呢？

罕见的渗透性突变给常见疾病带来严重风险，这一研究是由来自Illumina和美国麻省总医院基因组医学中心等机构的科研人员们共同完成的。普通人群中有97%的健康人群携带临床相关疾病的高度可干预变异，故，人群中每个健康个体的基因组中都存在极具影响力的变异，这些变异具有临床相关性，且至关重要。基于这一事实，在这个利用AI实现对罕见变异导致的最高风险异常个体识别的研究中，科研人员使用经由233 种灵长类动物种群测序的常见遗传变异训练过的PrimateAI-3D检查了 454,712 个UK Biobank（英国生物样本库）的人类外显子组，并对来自 MGB Biobank 的 20,708位个人样本进行了验证实验。

结果发现PrimateAI-3D 对错义变异识别有着显著提高，73% 的基因表型关联（错误发现率 <0.05）。在确认PrimateAI-3D对可致病的错义变异有着更高的灵敏度后，研究人员又以此为基础建立了稀有变异多基因风险评分 (PRS) 模型，并对模型进行了测试。证实PrimateAI-3D有助于研究人员优先考虑一小部分最有可能影响人类健康的变异，提高识别高风险患病个体的能力。此外，研究人员还发现几乎所有被分析个体都携带至少一种与实验检查表型相关的罕见渗透变体，表明个人基因组测序对一般人群中其他个体的健康研究同样具有重要意义，将会是未来个体化精准医学的发展方向。

总的来说，在这本Science特刊中，研究人员通过对灵长类动物全基因组测序结果的研究，不仅对物种演化有了更深的了解，还发现了未来精准医学和药物靶点研究的可行方向和方法。以PrimateAI-3D为代表的人工智能技术与基因组学的深度结合，将加速揭示糖尿病、心脏病和自身免疫性疾病等复杂遗传疾病的关键信息，助力个体化精准医疗的发展。

最后，对全基因组测序和致病基因筛选相关课题感兴趣的读者，强烈推荐你们前往Science仔细阅读原文。

注：目前Illumina已于6月1号官宣推出该算法，PrimateAI-3D将在不久后集成在因美纳的互联软件中，供大家使用。