27个基因被重命名,原来基因命名也有大学问

【字体: 时间:2020年08月20日 来源:生物通

编辑推荐:

  在过去的一年中,有27个基因被重新命名,因为它们在输入Excel电子表格后会导致错误,这也凸显了基因命名的复杂性。

  

为了方便研究和沟通,每个基因都要有一个独特的名字。我们首先想到的也许是P53或BRCA1等基因,包括一堆字母和数字的组合。不过,有些基因的名称却相当有(qi)趣(pa)。

在为新发现的基因命名时,遗传界内部几乎没有关于命名规则的共识。一些基因名称暗示了它们的功能,而另一些似乎是随机的。而且,遗传学领域的各个专业都有各自的命名方式。生物化学家倾向于用蛋白质来命名基因,而果蝇遗传学家则倾向于使用描述性的基因名称。

有时候,研究人员也许只是想要标新立异吧,比如给基因取个名字叫Sonic hedgehog(刺猬索尼克)或POKEMON(宠物小精灵)。这样的名字是相当好记,但是当媒体上出现“Pokemon致癌”这样的标题时,人家游戏公司可不乐意。于是,POKEMON基因被重命名为ZBTB7基因。

这些基因还只是让人发笑,另一些基因则可能让人生气。比如,编码HECA蛋白质的基因曾经按照果蝇中的同类基因被命名为“headcase(疯子) homolog”。试想一下,当医生向父母解释,孩子的这个基因发生突变时,他的父母会怎么想。为了避免误会,研究人员将其重命名为“hdc homolog”。

随着互联网搜索引擎的兴起,一些名称与其他名词重叠的基因也进行了修改,以避免搜索结果中出现太多无关的信息。例如,CARS基因被重命名为CARS1,MARS更改为MARS1,而WARS更改为WARS1。这样,人们在搜索相关基因时就会更加方便。

2016年,遗传学家发现基因名称又面临另一个问题。许多基于Microsoft Excel的补充材料在基因名称上都有错误,这是因为Excel软件将输入的数据自动转换成日期和数字。这个问题我们也会遇到,比如在输入证件号时会自动变成科学计数法。作为默认设置,Excel总是将可能是日期的所有内容转换为标准的日期格式。

例如,在Excel中输入MARCH1(膜相关环指蛋白1)基因时,它就会自动变更为3月1日(1-Mar),同样,DEC1也会变成12月1日(1-Dec)。照理说,人们可以通过更改数据类型来避免此问题。不过,如果将数据导出为CSV文件或者由其他人打开,则这种更改可能会丢失。

考虑到Excel格式引起的错误广泛传播,以及基因命名缺乏标准,国际人类基因组组织(HUGO)基因命名委员会于2020年8月在《Nature Genetics》杂志上发布了新基因命名的最新指南。

这份指南不仅适用于蛋白编码基因,也同样适用于RNA基因和假基因。它特别提到了“影响数据处理和检索的符号”。这意味着从现在开始,在命名基因时,电子表格的自动格式化将成为一个考虑因素。

最新的指南概括了基因命名的五条基本原则,包括每个基因的符号都应当是唯一的,名称应当简短而具体。它们只能包含大写拉丁字母和阿拉伯数字,而且不能与常用的缩写相同。此外,基因命名不能带有冒犯性或贬义。

尽管基因命名的指南是最近才更改的,但目前已有27个基因有了新名字,以避免Excel格式的问题。有了这份指南,相信人们以后在处理数据或搜索信息时会更加方便。(生物通 薄荷)

原文检索

Bruford, E.A., Braschi, B., Denny, P. et al. Guidelines for human gene nomenclature. Nat Genet 52, 754–758 (2020). https://doi.org/10.1038/s41588-020-0669-3

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

热搜:基因|命名|

  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号