编辑推荐:
在细菌效应蛋白预测面临挑战之际,研究人员开展 “Contrastive-learning of Language Embedding and Biological Features(CLEF)” 模型研究。结果显示,该模型能整合多模态特征,在 T3SE、T4SE 和 T6SE 预测中表现优异,有助于深入探究细菌致病机制。
在微观的细菌世界里,革兰氏阴性菌就像一群隐藏在暗处的 “敌人”,它们通过分泌特殊的蛋白质 —— 效应蛋白,来攻击宿主细胞,引发各种疾病。准确识别和了解这些效应蛋白,对于破解微生物的致病机制、开发新的治疗策略至关重要。然而,目前的研究在这方面却面临着诸多难题。一方面,传统的实验筛选方法既耗时又费力,而且受到蛋白质表达和分泌水平的限制,难以大规模地发现效应蛋白。另一方面,虽然机器学习技术和预训练蛋白质语言模型(PLMs)为效应蛋白的预测带来了新的希望,但现有的预测模型在准确性和敏感性上仍不尽人意。为了解决这些问题,来自华东理工大学生物反应器工程国家重点实验室等机构的研究人员开展了一项重要研究,相关成果发表在《Nature Communications》上。
研究人员提出了一种名为 Contrastive-learning of Language Embedding and Biological Features(CLEF)的模型,旨在通过对比学习将 PLM 的表征与补充的生物学特征相结合。该模型利用了对比学习这一强大的技术,将蛋白质的氨基酸序列信息、结构信息、功能注释以及相关实验数据等不同模态的特征整合在一起,从而生成更具信息量和判别力的表征,以提高效应蛋白预测的准确性。
在研究中,研究人员用到了多种关键技术方法。首先是数据集的构建,从多个数据库收集了大量蛋白质数据,并进行去冗余处理,构建了用于模型训练和测试的数据集。其次,采用对比学习和分类预测分别训练的方式,使用 InfoNCE 损失函数和二元交叉熵损失函数,在不同数据集上对模型进行优化。此外,利用多种评估指标,如调整兰德指数(ARI)、归一化互信息(NMI)、平均轮廓宽度(ASW)、准确率(ACC)、召回率(REC)、精确率(PR)、F1 分数和马修斯相关系数(MCC)等,对模型性能进行全面评估 。
下面来看看具体的研究结果:
- CLEF 模型架构与原理:CLEF 是一种基于对比学习的深度学习框架,它定义了两个专门的编码器模块,Encoder A 和 Encoder B。Encoder A 基于 Transformer 架构,将预训练的 ESM2 模型生成的蛋白质表征转化为与其他蛋白质模态相关的复杂表征;Encoder B 则通过多层感知器(MLP)将输入的生物学模态特征向量投影到潜在空间,进行对比训练。在细菌效应蛋白预测任务中,CLEF 的训练分为预训练和分类训练两个阶段 。
- 有效整合不同模态特征信息:研究人员引入了三种不同类型的蛋白质模态特征进行对比训练,包括分泌嵌入(Secretion Embedding)、注释文本特征(Annotation Text features)和反映蛋白质三维结构的 3Di 特征。结果表明,对比训练显著增强了 CLEF 输出表征的聚类能力,能更准确地反映蛋白质在特定模态下的差异和相似性,生成更具信息量的交叉模态表征 。
- 提升效应蛋白预测任务的模型性能:研究人员用 4 种输入特征与 ESM2 表征相结合训练 CLEF,得到的表征输入下游网络训练分类器。结果显示,CLEF 的双交叉模态表征在 T3SE、T4SE 和 T6SE 预测任务中表现优于 ESM2 和单个模态特征。在独立测试中,部分 CLEF 表征在 T6SE 预测上达到了完美的准确率 1.000 。
- 达到最先进的预测性能:将 CLEF 模型与现有最先进(SOTA)的效应蛋白预测模型进行基准测试,结果表明,CLEF 模型在 T3SE、T4SE 和 T6SE 预测任务中均取得了优异的成绩,在准确率、F1 分数和马修斯相关系数等指标上超过了许多现有模型,且在遇到多种类型的效应蛋白时保持较低的假阳性率 。
- 协助发现肠道致病菌中的效应蛋白:利用 CLEF 模型,研究人员对几种重要的肠道致病菌,如肠出血性大肠杆菌、鼠伤寒沙门氏菌和杀鱼爱德华氏菌进行了潜在分泌毒力因子的预测。在杀鱼爱德华氏菌中,通过实验验证了 15 种潜在的效应蛋白,包括 9 种 T3SE 和 6 种 T6SE 。
- 增强效应蛋白预测能力:研究人员利用杀鱼爱德华氏菌的实验数据,如基于转座子插入测序(Tn-seq)的宿主定植适应性谱、EsrB 调控的转录组数据(RNA-seq)和细胞外蛋白质组(ECP)数据,生成特征并输入 CLEF 模型。结果发现,利用这些实验特征的交叉模态表征能有效揭示更多的效应蛋白 。
- 揭示潜在的效应蛋白 - 效应蛋白相互作用:研究人员使用名为 CLEF-EEI 的模型来预测效应蛋白之间的相互作用。结果显示,该模型能够区分蛋白质之间的相互作用和非相互作用,预测的一些蛋白质对的相互作用得到了 AlphaFold 3 的验证 。
- 确定体内毒力决定因素:研究人员将 CLEF 与条件必需性模式分析(PACE)相结合,开发了一种少样本学习方法,用于确定杀鱼爱德华氏菌体内的毒力决定因素。通过该方法,确定了 387 个潜在的毒力因子,其中包括许多与细菌分泌系统、细胞壁生物合成、鞭毛组装和转录调控等毒力相关途径富集的基因 。
在讨论部分,研究人员指出,CLEF 框架通过对比学习有效整合了特定蛋白质信息和通用的 PLM 表征,在效应蛋白预测任务中表现出色,能够准确揭示效应蛋白 - 效应蛋白相互作用和定植必需基因。在杀鱼爱德华氏菌的研究中,验证了 23 种潜在的 T3/T6SE,发现了一些具有潜在转录调节作用的效应蛋白,以及一些在分泌和转运机制上有待进一步研究的蛋白。与传统的特征融合技术相比,CLEF 仅在预训练阶段利用多模态特征,避免了预测阶段重复的特征提取过程,并且能够利用更多未标记的蛋白质样本进行特征增强。此外,CLEF 还扩展了语言模型在其他毒力因子预测任务中的应用,为确定体内定植必需基因提供了新的方法。
总的来说,这项研究具有重要的意义。CLEF 模型为解决细菌效应蛋白预测难题提供了新的思路和方法,在生命科学和健康医学领域有着广泛的应用前景。它不仅有助于深入理解细菌的致病机制,还为开发新的抗菌药物和治疗策略提供了有力的支持。未来,研究人员将进一步优化 CLEF 模型,并探索其在效应蛋白靶点预测和效应蛋白 - 效应蛋白相互作用网络建模等更深入任务中的应用 。