发现一个新的水稻基因,上网翻开一本水稻基因“近义词典”,就能知道它的“前世今生”。

日前,华中农业大学作物遗传改良全国重点实验室、湖北洪山实验室张建伟教授课题组发表最新研究成果,他们建成世界上首个基于同源基因的水稻泛基因组综合数据库——水稻基因索引数据库(RGI)。如同一本近义词词典,在这个数据库里,亚洲稻的每一个基因都能轻松找到同源或相近的基因,以及追踪其演变历史。目前,数据库储存于华中农业大学,向全球开放免费使用。

亚洲栽培稻是世界一半人口的主食。据记载,全球共有多达78万份水稻种质材料,其中国际水稻研究所种质资源库里收藏的亚洲稻种质及其野生近缘种就达13万多份。张建伟教授课题组所建成的水稻基因索引数据库,是从13万多份亚洲稻种质中选取具有遗传多样性代表的3000份核心种植资源,再从3000份中选取最具代表性的16份,完成全基因组测序及基因注释,作为其基本数据信息。“13万个水稻种质,经过调查、分析、筛选,得到3000份再进行简易的系统测序,完成一次普查,分成了16组。相当于从13万人中遴选出3000人有序地分16支代表队,而我们收录的完全测序的16个种质,则是每个代表队的领队,最具有代表性,很大程度上把亚洲稻种群的基本信息都囊括了。”张建伟教授对记者说。

16个水稻种质有16套基因组,每一个都有3万到4万个基因;每一套基因组都好比一本“天书”,每个水稻基因又像是研究者对“天书”进行的标点断句、写下的注释。张建伟形容数据库里收录的信息就像一套基因集收录大全,全集里的16本书有很多相似的,却也有不同的。“从本源说,最开始它们是同一本书,在不断传播和抄写过程中,某些局部有差异了。越到后面这种差异越大。”张建伟说。

“水稻基因索引数据库”为用户提供丰富的模块和工具,方便研究人员对不同种质基因以及基因同源关系进行查询、分析和可视化,该平台为每个水稻基因建立一张“综合图文信息卡片”记录了包括同源基因索引、基因通用名、序列、功能、表达等基本信息,并以可交互示意图展示该基因转录本结构、可变剪接事件、同源关系网络图和系统发育树等。查询者可以通过关键词、序列、同源关系等三种方式在数据库中进行搜索,并在微观和宏观尺度对种质间基因组共线性进行分析和可视化,实现了不同功能和常用数据库之间的快速链接。“比如,我在某份材料里发现了一个基因片段,但之前没办法判断它是该材料所独有的,还是同样存在于别的材料里。现在,翻开水稻基因‘近义词典’,到数据库里一查,亚洲稻的核心基因有2万多个,如果这个基因落在2万多个之内,说明它很可能是所有材料所共有的;如果不在核心基因范围内,至少说明它是不常见的可变基因。”张建伟将这样的检索称为“本体内基因与基因之间的关系检索”,就像语言里的找近义词,“通过索引,所有的同源基因就形成一个簇。如同每一词语都不是孤立的,每个基因也不是孤立的。”

不光有利于水稻基因追本溯源,它也方便其他作物来“串门”。一个基因或一条序列,在玉米、小麦或者番茄里看到了,想在水稻里面看看它是不是也有,在数据库里一查,也能确定它有没有跨作物的同源基因。

该数据库的建设,是张建伟教授自2019年11月从美国亚利桑那大学植物科学系全职回国以来,依托华中农业大学水稻研究团队,为全球水稻泛基因组合作研究计划创下的新里程碑。这也是张教授继2021年发布和解析全球首例水稻无缺口参考基因组后,立足该校生物信息技术平台,仅隔一年,对水稻泛基因组研究作出的最新成果之一,展现了华中农大在国际水稻研究中扮演的重要角色。

同时,张建伟将它看作水稻泛基因组计划国际合作的新起点,“我们希望有朝一日能把所有13万亚洲稻甚至全球78万份水稻种质都进行全基因测序,囊括到数据库里,这样就能编撰成亚洲稻和全球稻的‘大百科全书’。资源信息越多,科研工作者用起来就会更方便,但这需要全球科学家团体共同来做。在这个领域,我们国家是最开始启动的地方,它不是中国独有,但代表中国参与世界合作做出的独一份贡献。”张建伟表示,“这是一件纯粹服务性的、不盈利且需要持续投入的事情,考验耐心。”