PLiCat:基于大语言模型的蛋白质-脂质相互作用解码工具及其在脂质结合特异性预测中的应用
《Briefings in Bioinformatics》:PLiCat: decoding protein–lipid interactions by large language model
【字体:
大
中
小
】
时间:2025年12月12日
来源:Briefings in Bioinformatics 7.7
编辑推荐:
本刊推荐:为解决蛋白质-脂质相互作用特异性预测的难题,研究人员开发了PLiCat框架,创新性地融合ESMC与BERT模型,实现了从蛋白序列直接预测8大脂类结合类别的突破。该工具在独立测试集上AUC-ROC达0.88-0.97,通过归因分析解码了脂质结合序列特征,并能评估致病突变对脂结合的影响,为理解脂识别机制和蛋白质设计提供了新范式。
在细胞的生命活动中,蛋白质与脂质的相互作用如同精密的分子舞蹈,调控着信号传导、免疫稳态和表观遗传等关键过程。然而,传统生物化学方法耗时费力,而现有计算工具难以区分不同脂质类别,使得我们对脂质结合特异性的认知存在巨大空白。随着蛋白质语言模型(Protein Language Models, PLMs)的突破性进展,直接从氨基酸序列中解读功能密码成为可能。
为解决这一挑战,南方科技大学的董飞彤与吴婧柔开发了PLiCat(Protein-Lipid interaction Categorization tool),这是首个仅凭序列即可预测八大脂类结合类别的计算工具。该研究发表于《Briefings in Bioinformatics》,通过融合ESM Cambrian(ESMC)与BERT模型,构建了能同时捕捉进化尺度和长程上下文依赖的混合架构。
研究团队采用的关键技术方法包括:基于BioDolphin数据库构建包含12,873个阳性样本和800个阴性样本的高质量数据集;设计端到端训练的ESMC-BERT混合架构,其中ESMC模块提取进化特征,BERT模块捕获长程关联;采用加权交叉熵损失函数解决类别不平衡问题;通过10折交叉验证和独立测试集评估性能;利用集成梯度(Integrated Gradients)进行归因分析解码脂结合特征;并通过潜在空间可视化(UMAP)、致病突变影响分析(Jensen-Shannon散度、Wasserstein距离)等多角度验证模型可靠性。
通过多指标评估,PLiCat在独立测试集上表现出色:所有脂类别的AUC-ROC介于0.88-0.97之间,显示其强大的区分能力。尽管AUC-PR因类别不平衡存在差异(PR/FA/PK达0.91,GL/SL较低),但混淆矩阵显示模型对脂肪酸酰基(FA)、异戊二烯脂质(PR)和聚酮化合物(PK)的识别尤为精准。与传统机器学习(RF、SVM、LR)和单一PLM模型(ESM-2、ProtBert)相比,PLiCat均展现显著优势。
通过系统移除或冻结模块的对比实验发现,缺失ESMC(PLiCat-A)会导致准确率与召回率显著下降,而仅使用ESMC(PLiCat-B)的性能衰减较轻微,证明ESMC提供的进化特征与BERT的上下文信息具有互补性。冻结部分层(PLiCat-C/D/E)或调整损失函数(PLiCat-F)均会降低性能,证实混合架构的合理性。
UMAP可视化显示,训练后模型的潜在空间中不同脂类别形成清晰聚类,而测试集呈现相似模式,表明模型学到了泛化性强的区分特征。归因分析热图揭示了各脂类的独特氨基酸“签名”:如色氨酸(W)对固醇脂质(ST)和脂肪酸酰基(FA)结合呈正贡献,而对异戊二烯脂质(PR)和甘油磷脂(GP)为负贡献,凸显了脂识别机制的特异性。
以脱水角鲨烯合酶(CrtM)和赤霉素受体GID1为例,高归因分值的残基与实验验证的结合位点高度重叠。结构映射显示,这些残基簇集在脂结合口袋周围。严格残基级别评估(容差±0)F1分数为0.10,放宽至±2个残基时提升至0.23,表明预测位点与真实结合区空间邻近。
对脂相关致病突变的分析发现,野生型与突变型序列在PCA嵌入空间中大部分重叠,但部分突变引起预测分布偏移。Jensen-Shannon散度与Wasserstein距离计算表明,NO(非结合)和FA类别对突变最敏感,提示致病变异可能通过改变脂结合特性影响功能。
研究结论指出,PLiCat首次实现了从序列直接预测脂结合类别,解码了脂识别的序列密码。其局限性包括对甘油脂(GL)和糖脂(SL)等类别的区分能力较弱(可能与共享结构域及样本量少有关),且目前仅限八大类别层面。未来整合脂质结构信息、发展子类分辨能力、结合迁移学习将是重要方向。该工具不仅为揭示脂识别机制提供了新视角,更在指导理性蛋白质设计、开发脂相关疾病疗法方面展现出广阔前景。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号