近日,饶毅连发两篇文章,支持公开和共享中国人基因序列,称这样做有助于解决国内疾病。看到评论区说什么的都有,感觉有人在搞混水,今天我就来和大家聊聊有关我国目前基因信息公开状况,以正视听。


01,中国人是有公开数据的

看到有人污蔑中国闭关锁国没公开过数据,大谬!

无论是NCBI、ENSEMBL还是1000GENOME这些大型公开数据库,都有中国人的基因信息样本的。事实上,作为一个参与了人类基因组计划的六个国家之一,中国怎么可能没公开过数据呢?

比如1000GENOME里,按照族群(population),大概有210个族群,中国人就贡献了50个左右,相当于数据库里四分之一的族群种类样本是中国人。


02,各国对公开数据是有限制的

我国事实上对基因数据管理是非常晚的,在这之前,那数据传的,各种中外合作就是任君采撷,上世纪有过国外大量采集少数民族样本的事情。甚至在我们出台政策之后,依然有公司向国外传递中国人遗传信息,甚至采用作假的办法(比如说是动物样本,其实是人样本),why?

而国际上要规范很多,我曾经想用一个美国特定人群数据,但是无法获取。事实上,很多国外的数据提供的也是处理过的数据,这一点也恼火!(这一点,非生物信息学的人,哪怕是做生物医学相关的,都不一定知道,他们以为看到变异就行了,其实更原始的数据才有意义,但是不好意思,很多时候你拿不到)。


03,我国是在建立自己的生物信息学数据库

正是因为各国都在各自为政,自己搞自己的数据,导致想使用这些数据很多时候都没办法,所以我国也建立自己的数据库。

比如前段时间我们申请了一个项目,里面的硬性要求就是数据必须上传到国家这个数据库里。

反正现在全世界都在朝着各自搞事情的方向努力,那大家就都别指责谁了。


04,数据是要钱的

以现在的NGS价格,illumina大概40一个G,华大大概20多一个G,加上建库之类的费用,一个人按照30x的话,基本上一个基因组大概是3000左右了。

这样才能完成最基础的数据生成,但是接下来数据处理还需要服务器运行、人员处理以及管理。所以这东西,不是说你动动嘴就行。

事实上,说句不好听点,很多课题组要不是国家要求上传数据,大家更愿意数据在自己手上。


05,饶毅的问题,完全可以国内自己解决,出钱就行

国内并没有禁止对基因进行研究啊,事实上,饶毅要是对某个遗传病有兴趣,他完全可以去针对性的去采样,然后自己花钱测序,最后完成对该遗传病的解读。

目前大家都这么干的。想白嫖别人课题组花了好多钱做的内容,不现实啊(如果愿意合作,相信你要的数据都有)。而且,由于不同人采样标准、收集标准都不大相同,事实上用他人数据的时候都是个问题。

不过随着我国对遗传资源的规范化,以后这些数据都会上传到国家数据库里。


06,说点基因组的小常识

基因组序列,包含全部信息,这种数据其实在所有数据库都比较少。

因为基因组至少包括了CNV、SNV、SV这些数据,更别提还有一些很特殊的存在,随着大家对基因组的了解,过去很多没发现的信息现在都成了新的宝贝。

目前很多数据库提供的是在基因组数据中提取的一部分数据,比如所谓的犹太人基因组数据,其实不是犹太人基因组全数据(基因全序列),而是采用array法获取的一些位点。大概相当于,一本字典 vs 3000常用字的差别。

下图是一代测序的一个示例。最完整的数据是那18个碱基,但是很多数据库只提供下面的那个红色标记的A。

当然, 在基因组基础上的转录组、蛋白组之类的因为和组织、细胞、环境、行为相关,所以反而很多。

最后,机遇和风险同在。关于这件事,说没风险那是没常识,过度强调风险又谨慎过度了。

但是这东西,大家都意识到是非常宝贵的。当年HGP完成,有人曾经想把人类基因组申请专利,然后被驳回了。