
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于NLP类深度学习技术鉴定多种细菌中硫代亚磺酸盐耐受基因簇的结构与功能研究
【字体: 大 中 小 】 时间:2025年06月18日 来源:mSphere 3.7
编辑推荐:
本研究创新性地应用自然语言处理(NLP)类深度学习技术,克服传统方法在鉴定硫代亚磺酸盐耐受基因簇(alt )时面临的序列多样性和水平转移难题。通过训练DeepBGC模型,从238,362个细菌基因组中挖掘出47个新型alt 样簇,结合基因共线性分析和蛋白结构预测,揭示了altC /altE 基因对的表型功能,为植物-微生物互作机制研究提供了新范式。
硫代亚磺酸盐(如大蒜素)是葱属植物产生的强效抗菌物质,对植物病原菌构成挑战。传统方法因基因簇(alt
)结构多样性和水平转移特性难以有效鉴定。研究采用自然语言处理(NLP)类深度学习技术(如DeepBGC),将基因簇视为“语言序列”,通过模式识别挖掘潜在alt
簇。实验验证了Pantoea ananatis
、Burkholderia gladioli
和Pseudomonas syringae
中的alt
样簇,并通过比较基因组学、蛋白结构预测和异源表达证实其功能。
植物通过硫代亚磺酸盐等小分子抵御病原体。大蒜素通过消耗谷胱甘肽(glutathione)和修饰蛋白巯基发挥抗菌作用。此前仅在洋葱病原菌中发现alt
基因簇,其通过氧化还原反应赋予宿主耐受性。但传统BLAST方法因序列低相似性(如altI
基因仅18.1%-52.1%)和共线性差异失效,亟需新方法突破。
基因与蛋白序列低相似性
比较三个验证簇发现,共享基因altB
蛋白相似性最高(78.5%-82.1%),而altI
最低(18.1%-48.2%)。基因共线性分析显示,Pantoea
与Burkholderia
的altA
和altC
顺序倒置,凸显结构多样性。
DeepBGC挖掘与验证
使用3个训练簇对DeepBGC进行15次训练,平均AUC-ROC达0.82。从RefSeq中筛选12,280个候选簇,经去冗余和手动过滤获得47个代表性簇,其中Duffyella gerundensis
簇与Pantoea
簇序列相似性达94%。
蛋白结构保守性
I-TASSER预测显示,altR
(TetR家族调控因子)的3D结构高度保守(Zeal评分0.88-0.98),但无法区分功能簇与非功能簇。AI-Bind结合硫化合物库预测结合亲和力,成功将altR
按表型分组,为分类提供新思路。
表型验证
异源表达14个altC
/altE
基因对证实其耐受功能。来自Erwinia persicina
的基因对恢复力最强,而Gluconobacter kondonii
表现异常,提示宿主因子影响。欧氏距离聚类显示,Pseudomonas
与Rahnella
簇表型相似。
NLP类技术通过Pfam标签和基因邻近性分析,突破了序列相似性限制。尽管训练集仅含3个簇,模型仍成功识别跨属alt
样簇。蛋白结构预测和结合亲和力分析为功能注释提供补充,但需结合实验验证。该研究为挖掘其他复杂基因簇(如次级代谢产物)提供了范式。
研究使用Clustal Omega进行多序列比对,DeepBGC(v0.1.27)训练参数包括最小蛋白数4和得分阈值0.9。MMseqs2聚类(序列相似性75%)压缩数据量。表型实验采用洋葱汁(OJ)生长测定,通过BioScreen C系统监测48小时吸光度。
首次将NLP类技术应用于非经典生物合成基因簇鉴定,但模型需更大训练集优化。未来可整合注意力机制提升可解释性,或探索无监督聚类发现新亚类。
生物通微信公众号
知名企业招聘