
-
生物通官微
陪你抓住生命科技
跳动的脉搏
PTM-Mamba:基于双向门控Mamba模块的PTM感知蛋白质语言模型
【字体: 大 中 小 】 时间:2025年04月11日 来源:Nature Methods 36.1
编辑推荐:
编辑推荐:蛋白质翻译后修饰(PTM)是调控蛋白功能的关键机制,但现有蛋白质语言模型(LMs)无法表征PTM信息。研究团队开发了PTM-Mamba模型,通过双向Mamba块融合ESM-2嵌入与PTM令牌,实现了对野生型和PTM修饰序列的双向建模。该模型在疾病关联预测、药物靶点筛选及PTM对蛋白质互作(PPI)影响预测中表现优异,为零样本PTM发现提供了新工具,发表于《Nature Methods》。
研究团队采用三项关键技术:1)从UniProt Swiss-Prot中整合31万条实验验证的PTM记录,构建包含79,707条修饰序列的训练集;2)设计双向Mamba块,通过前向-后向状态空间层捕获序列依赖关系,结合门控机制融合ESM-2-650M嵌入;3)采用偏向PTM令牌的掩码策略优化训练,提升模型对修饰位点的敏感性。
模型架构与性能:PTM-Mamba通过双向Mamba块处理序列,野生型氨基酸由ESM-2编码,PTM令牌则通过自定义嵌入层处理。t-SNE可视化显示,模型能清晰区分野生型与PTM修饰序列,且同类PTM(如磷酸化、乙酰化)令牌在嵌入空间聚集。在磷酸化位点预测任务中,其性能媲美ESM-2-3B,验证了通用性。
下游任务验证:在疾病关联预测中,PTM-Mamba显著优于基线模型(如PTM-Transformer),精准识别STAT3磷酸化等致癌修饰;在药物靶点预测中,其F1分数与马修斯相关系数(MCC)表现突出;针对PTM对PPI的调控效应预测,模型准确率超越结构感知的PTM-SaProt,表明序列建模对PTM动态的独特优势。
零样本PTM发现:通过分析掩码位置的预测logits,模型成功预测UniProt序列Q02261中丝氨酸的磷酸化修饰,以及Q4L7X2中半胱氨酸的二酰基甘油化修饰,为无标注数据下的PTM生物学研究开辟新途径。
结论与展望:PTM-Mamba首次实现了PTM-aware的蛋白质序列建模,为精准医疗提供了新工具。未来可通过质谱数据库扩展训练数据,并探索PTM修饰的结构预测及靶向药物设计。这一突破性模型将重塑蛋白质组学分析范式,推动疾病机制研究与治疗创新。
生物通微信公众号
知名企业招聘