PlantAMP:基于蛋白质大语言模型微调的植物抗菌肽预测新方法
《Plant Communications》:PlantAMP: A fine-tuned protein large language model for plant antimicrobial peptide prediction
【字体:
大
中
小
】
时间:2025年11月30日
来源:Plant Communications 11.6
编辑推荐:
本研究针对植物抗菌肽(PAMP)发现过程中存在的实验验证繁琐、现有计算预测工具精度不足等问题,开发了名为PlantAMP的预测模型。该研究通过提示引导微调蛋白质大语言模型ProteinBERT,结合蒙特卡洛丢弃(MC Dropout)集成策略,实现了对PAMP的高精度识别。在独立测试集上,PlantAMP的AUC达到0.9766,准确率(ACC)达0.9235,显著优于现有主流方法。该工作为植物源抗菌肽的快速发现提供了高效计算工具,对可持续农业和转化医学具有重要意义。
在可持续农业和新型抗菌药物研发领域,植物抗菌肽(Plant Antimicrobial Peptides, PAMPs)因其广谱抗菌活性、低毒性以及参与植物生长发育等多重功能而备受关注。然而,传统的PAMP发现严重依赖费时费力的湿实验验证,而现有的计算预测工具往往受限于手工特征提取、浅层嵌入表示、固定长度序列处理或高昂的计算成本,导致其准确性和在实际应用中的泛化能力不尽如人意。
尽管近年来出现了TriStack、LMPred、PAMPred、Diff-AMP和AMPpred-MFA等预测模型,但专门为植物抗菌肽预测设计、基于大语言模型(Large Language Model, LLM)的策略仍然稀缺。一些基于Transformer的模型(如PCLPAMP)提示蛋白质序列蕴含着类似自然语言的上下文模式,然而,直接将通用预训练模型迁移到特定任务时,常常会引入偏差和目标不匹配的问题,从而影响下游任务的性能。
为了解决这些挑战,研究人员在《Plant Communications》上发表了题为“PlantAMP: A fine-tuned protein large language model for plant antimicrobial peptide prediction”的研究论文。该研究提出了PlantAMP,一个通过提示引导微调ProteinBERT而构建的PAMP分类器。这种方法能够实现任务特定的表示学习,而无需对整个模型进行重新训练。研究策略整合了分层交叉验证、基于蒙特卡洛丢弃(Monte Carlo Dropout)的测试时增强以及加权集成学习,以增强模型的鲁棒性和泛化能力。
为开发PlantAMP,研究人员从APD3、DBAASP、DRAMP、PlantPepDB、dbAMP和NCBI六个公共资源中收集并整理了2,497条经实验验证的植物抗菌肽(正样本)和2,677条长度匹配的非PAMP序列(负样本),构建了非冗余数据集。模型构建基于ProteinBERT,采用分阶段微调策略:先冻结骨干网络仅训练分类头,再解冻全部层进行精细微调。训练过程中应用了Dropout和早停法(Early Stopping)。在推理阶段,采用5折交叉验证框架,结合MC Dropout进行50次随机前向传播,并对各折预测结果根据其验证集马修斯相关系数(MCC)进行加权集成,最后通过阈值扫描优化分类性能。
为确保模型学习到的是功能相关信号而非数据集特异性伪影,研究人员首先分析了序列特征。PAMP与非PAMP序列的长度分布相似,主要集中在30-150个氨基酸之间,表明区分信号并非由长度驱动。进一步分析显示,PAMP序列富含半胱氨酸(Cys)残基(支持二硫键稳定的环状基序)和碱性残基簇,这与已知的抗菌活性相关的静电特征相符。而非PAMP则显示出普通蛋白质或跨膜/信号肽段的典型模式。这些一致的差异强化了物理化学偏好(而非简单的长度差异)是类别可分性的基础,支持了监督建模的有效性。
研究人员使用六项指标评估了PlantAMP的性能:AUC(曲线下面积)、ACC(准确率)、精确度(Precision)、召回率(Recall)、F1分数和马修斯相关系数(MCC)。在保留的测试集上,PlantAMP达到了0.9766的AUC和0.9758的AUPRC(精确率-召回率曲线下面积),表明其在类别不平衡情况下具有很强的区分能力。混淆矩阵分析证实了其高保真度的PAMP识别能力且错误均衡。五折交叉验证显示出稳定的每折性能,突出了强大的泛化能力。虽然十折交叉验证略有提升,但增加的训练时间超过了性能增益,因此研究采用五折交叉验证作为主要评估方案。
为了定位PlantAMP在当前方法学领域的水平,研究人员将其与代表性的先进PAMP/AMP预测器进行了基准测试,包括PCLPAMP、LMPred的变体(T5XL-BFD, T5XL-UNI, BERT)、Veltri-DNN、AmPEP、TriStack、AMPlify、AMPScanner(Vr1-RF, Vr1-Earth Precision, Vr2)以及TriNet。所有模型均在相同数据集、统一预处理和评估划分下进行本地重新训练。
PlantAMP取得了最强的综合性能,在四项关键指标上领先:AUC(0.9766)、ACC(0.9235)、Precision(0.9419)和F1-score(0.9187)。这些结果反映了强大的类别区分能力和在不平衡下的有效精确率-召回平衡。尽管PCLPAMP在MCC(0.8516)上略微超过PlantAMP(0.8475),但其较低的AUC和F1表明性能一致性较差。TriStack在传统机器学习/深度学习基线中最强,获得了最高的Recall(0.9436),但其AUC、精确度和F1分数落后。AMPScanner-Vr2也优先考虑召回率但牺牲了准确率和精确度。其他基线模型在大多数指标上均表现不及PlantAMP。
这些比较凸显了PlantAMP的提示引导微调策略能够实现强大的泛化能力,同时保持高计算效率。通过在不同评估标准(尤其是AUC、准确率和精确度)上持续排名第一或接近榜首,PlantAMP为PAMP识别设立了强有力的基准。此外,其轻量级微调框架为将蛋白质大语言模型适配于多肽任务提供了一条实用路径,其性能优于手工特征或传统深度学习模型,同时在敏感性和可靠性之间保持了良好的平衡。
性能验证之后,研究人员评估了PlantAMP是否学习了能够区分PAMP与非PAMP的任务相关表示。对三种嵌入类型(微调前的ProteinBERT嵌入、以及来自训练集和测试集的PlantAMP嵌入)进行无监督投影分析,揭示了一个清晰的演进过程。原始特征空间显示出广泛的类别重叠,表明可分性低。使用PlantAMP微调后,在训练和测试嵌入中都产生了明显的聚类,边界沿第二投影轴尤其清晰。轮廓系数(Silhouette scores)在微调后显著改善,Wilcoxon符号秩检验(p < 0.001)证实了聚类分离度的增强,支持了视觉上观察到的连贯、类别一致的流形区分。
研究人员比较了三种ProteinBERT适配策略:全模型微调(所有Transformer层和分类器)、基于BitFit的调优(仅更新偏置参数,配合小提示)和基于LoRA(Low-Rank Adaptation)的调优(在注意力/前馈层中使用秩为4的适配器)。全模型微调(PlantAMP)在AUC、ACC、Recall、F1和MCC上均优于两种轻量级变体,尽管精确度略低。BitFit和LoRA将训练时间减少了约50%,参数减少了70%以上,但在六项指标中的五项上表现较差。因此,PlantAMP采用全模型微调以保证预测可靠性,而基于提示的方法适用于资源受限的场景。
消融实验表明,当省略MC Dropout、集成学习、阈值调优、冻结-解冻计划或Dropout优化时,性能出现一致下降。MCC指标尤其敏感,在没有MC Dropout时从0.8475降至0.7999,当使用单一模型而非集成时降至0.8306。
选择ProteinBERT是因为其具有残基感知、参数效率高的设计,能够在有限的PAMP数据上进行稳定微调。与ESM2和ProtT5的比较评估证实了PlantAMP的优越性能,尤其是在AUC方面,验证了这一模型选择。
本研究通过整合大规模、非冗余的数据集,并开发基于ProteinBERT的预测模型PlantAMP,成功实现了对植物抗菌肽的高精度、鲁棒且计算高效的识别。该模型采用分层交叉验证、MC Dropout集成和验证优化的决策阈值等策略,在独立测试数据上表现出色。当针对多个抗菌肽数据库和文献进行系统筛选时,其排名靠前的候选肽与实验验证的抗菌肽高度吻合。
通过利用全ProteinBERT适配、轻量级集成头和数据驱动的阈值优化,这一端到端框架相比基于手工特征的基线模型提高了泛化能力,为优先筛选植物抗菌肽提供了一个可扩展的工具。同时,该研究也为未来基于基序的可解释性分析和结构引导的多肽工程奠定了基础,对可持续农业和转化医学领域具有重要的推动作用。该框架的通用性表明,它可以扩展到其他生物活性肽类的发现,为更安全的作物保护和治疗药物开发开辟了新途径。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号