《mSystems 5.0》:deep-Sep: a deep learning-based method for fast and accurate prediction of selenoprotein genes in bacteria
编辑推荐:
本研究开发了一种基于深度学习的算法deep-Sep,用于快速、准确地识别细菌基因组中的硒蛋白基因(selenoprotein genes),为理解硒在细菌中的作用提供了新工具。
研究背景
硒(selenium,Se)是一种必需的微量元素,以硒代半胱氨酸(selenocysteine,Sec)的形式存在于硒蛋白(selenoproteins)中。Sec是第21种天然氨基酸,在多种生物体的酶和蛋白质中被发现,从细菌到人类均有分布。硒蛋白在生物体内发挥着关键作用,涉及氧化还原平衡、免疫反应、炎症和激素代谢等多个生物学过程。然而,在细菌中,由于缺乏有效的策略来区分Sec编码的UGA密码子和正常的终止信号,识别硒蛋白基因一直是一个挑战。
研究方法
本研究开发了一种基于深度学习的算法——deep-Sep,用于快速、准确地识别细菌基因组中的硒蛋白基因。该算法采用基于Transformer的神经网络架构,构建了一个用于检测Sec编码UGA密码子的最优模型,并采用基于同源搜索的策略去除额外的假阳性结果。在训练和测试阶段,deep-Sep展现出了卓越的性能,其F1分数达到0.939,接收者操作特征曲线下面积(AUROC)为0.987。此外,当应用于20个细菌基因组作为独立测试数据集时,deep-Sep在识别已知和新的硒蛋白基因方面表现出色,显著优于现有的最先进的方法。
实验结果
deep-Sep的整体性能
deep-Sep算法包括两个部分:基于BERT的深度神经网络模块和基于同源搜索的模块。在深度神经网络模块中,模型基于大量已知细菌硒蛋白基因(阳性)和非硒蛋白基因(阴性)下游TGA密码子的序列特征进行预训练。通过评估不同序列长度(100、200和300核苷酸)和k-mer值(3、4、5)的组合,发现300核苷酸/3-mer模型在准确性(0.940)、召回率(0.922)、F1分数(0.939)和AUROC(0.987)等指标上表现最佳,因此被选为Sec-TGA识别的最优模型。
在独立测试的Sec利用细菌中识别已知硒蛋白基因
研究者分析了20个不同类群的Sec利用细菌的基因组序列,这些细菌未参与神经网络模型的训练。通过与已报道的原核硒蛋白家族进行同源性搜索,共鉴定出298个属于56个硒蛋白家族的硒蛋白序列。其中,只有195个硒蛋白基因在NCBI发布的基因组注释中被正确标注。deep-Sep算法通过深度神经网络模块和同源搜索模块的联合应用,成功识别出297个已知硒蛋白基因,并发现了12个新的硒蛋白基因。该算法的平均运行时间低于10分钟,而现有的最先进的方法bSECISearch需要超过24小时来筛选每个细菌基因组,且至少有40个已知硒蛋白基因(13.0%)未能被识别。这表明deep-Sep在预测已知硒蛋白基因的速度和准确性方面均优于bSECISearch。
在细菌中预测新的硒蛋白
除了已知的硒蛋白外,deep-Sep还在一些测试的Sec利用细菌中发现了12个新的硒蛋白基因,这些基因属于9个家族。大多数新硒蛋白含有已知功能的保守结构域,如依赖TonB的受体(COG1629,CirA)、谷氨酰胺转氨酶(COG0504,PyrG)和依赖NAD(P)/FAD的氧化还原酶(COG1252,Ndh)。此外,还发现了三种没有保守结构域的假想蛋白,并根据所含生物体的名称分别命名为假想蛋白DG、假想蛋白DW和假想蛋白DF。这些新硒蛋白在多种生物中都有Cys含量的同源物。除DUF523结构域蛋白、甲酸脱氢酶FDH3亚基β和假想蛋白DF外,所有硒蛋白在其他Sec利用生物中都有TGA含量的同源物。多序列比对显示,这些新硒蛋白及其Sec-/Cys-含同源物的Sec/Cys对及其侧翼区域具有序列保守性。进一步检查这些硒蛋白基因的细菌SECIS元件,发现它们在预测的Sec-TGA密码子下游具有细菌SECIS样结构。
研究意义
本研究开发的deep-Sep算法为细菌硒蛋白基因的识别提供了一种快速、准确且不依赖于预定义SECIS元件或昂贵计算的方法。该算法不仅有助于提高细菌基因组中硒蛋白基因注释的准确性,还为深入理解硒在细菌中的作用提供了新的视角。通过系统地鉴定硒蛋白基因和硒基因组,可以更好地理解硒在自然中的生物学功能。
结论
本研究成功开发了一种基于Transformer的深度学习模型,用于识别细菌中的Sec-TGA密码子,并构建了一个自动化工具,用于预测细菌基因组数据集中的硒蛋白基因。该方法有望在各种细菌基因组和宏基因组测序项目中准确注释硒蛋白基因。系统地鉴定硒蛋白基因和硒基因组可能有助于更好地理解硒在自然中的生物学功能。
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》