
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多模态计算模型的类风湿关节炎诱导肽预测工具RAIpred的开发与应用
【字体: 大 中 小 】 时间:2025年09月02日 来源:Frontiers in Immunology 5.9
编辑推荐:
这篇综述系统介绍了RAIpred工具的研发过程,该工具通过整合机器学习(ML)、深度学习(DL)和蛋白质语言模型(PLM)技术,首次实现了对HLA II类分子结合的类风湿关节炎(RA)诱导肽的精准预测。研究揭示了甘氨酸(G)、脯氨酸(P)等关键残基的富集特征,开发的集成模型AUC达0.80,为蛋白类药物安全性评估和自身免疫疾病机制研究提供了新范式。
引言
类风湿关节炎(RA)作为一种慢性自身免疫性疾病,全球患病率约1%,其特征是CD4+ T细胞异常激活导致的关节滑膜炎症和骨侵蚀。研究表明,特定肽段通过HLA-DRB1 * 04:01等MHC II类分子呈递,可触发自身免疫反应。传统治疗如甲氨蝶呤(MTX)虽有效但存在副作用,因此开发预测RA诱导肽的计算工具具有重要意义。
数据与方法
研究团队从免疫表位数据库(IEDB)筛选291条RA诱导肽和165条非诱导肽,聚焦HLA II类结合肽段(9-20氨基酸)。通过Pfeature软件提取9189种特征,包括氨基酸组成(AAC)、二肽组成(DPC)和键合特征(BTC)。创新性采用双样本标识分析发现:N端甘氨酸(G)和C端酪氨酸(Y)在阳性肽段显著富集,而谷氨酸(E)在阴性肽段普遍存在。
模型构建
机器学习模型:
XGBoost在组成增强过渡分布(CeTD)特征上表现最优(验证集AUC=0.75),关键特征CeTD_21_HB的均值差异达0.14。
深度学习模型:
1D-CNN在三肽组成特征上AUC为0.69。
蛋白质语言模型:
微调后的ProtBERT取得AUC=0.71,其嵌入向量可捕捉序列深层语义。
突破性集成策略
结合MERCI工具发现的基序(如"G-X3-P"模式)与XGBoost模型,构建的混合模型性能显著提升:
验证集AUC 0.80(MCC=0.45)
基序覆盖率达82%,特异性提升至73%
工具应用
开发的RAIpred平台包含四大模块:
预测模块:评估单肽段的RA诱导风险
设计模块:通过单点突变生成优化类似物
蛋白扫描:定位全长蛋白中的抗原区域
基序扫描:识别致病特征序列
临床价值
该工具可应用于:
评估益生菌/转基因食品中蛋白的安全性
指导治疗性肽段设计,避免诱发自身免疫反应
发现新型RA生物标志物
创新点
首次建立RA诱导肽的预测标准
揭示G/P/Y等残基的致病关联性
实现基序分析与AI预测的协同优化
展望
未来可扩展至其他自身免疫疾病研究,并通过湿实验验证预测肽段的致病机制。平台已开源(GitHub)并提供PyPI安装包,推动计算免疫学工具的普及应用。
生物通微信公众号
知名企业招聘