基于多模态计算模型的类风湿关节炎诱导肽预测工具RAIpred的开发与应用

【字体: 时间:2025年09月02日 来源:Frontiers in Immunology 5.9

编辑推荐:

  这篇综述系统介绍了RAIpred工具的研发过程,该工具通过整合机器学习(ML)、深度学习(DL)和蛋白质语言模型(PLM)技术,首次实现了对HLA II类分子结合的类风湿关节炎(RA)诱导肽的精准预测。研究揭示了甘氨酸(G)、脯氨酸(P)等关键残基的富集特征,开发的集成模型AUC达0.80,为蛋白类药物安全性评估和自身免疫疾病机制研究提供了新范式。

  

引言

类风湿关节炎(RA)作为一种慢性自身免疫性疾病,全球患病率约1%,其特征是CD4+ T细胞异常激活导致的关节滑膜炎症和骨侵蚀。研究表明,特定肽段通过HLA-DRB1 * 04:01等MHC II类分子呈递,可触发自身免疫反应。传统治疗如甲氨蝶呤(MTX)虽有效但存在副作用,因此开发预测RA诱导肽的计算工具具有重要意义。

数据与方法

研究团队从免疫表位数据库(IEDB)筛选291条RA诱导肽和165条非诱导肽,聚焦HLA II类结合肽段(9-20氨基酸)。通过Pfeature软件提取9189种特征,包括氨基酸组成(AAC)、二肽组成(DPC)和键合特征(BTC)。创新性采用双样本标识分析发现:N端甘氨酸(G)和C端酪氨酸(Y)在阳性肽段显著富集,而谷氨酸(E)在阴性肽段普遍存在。

模型构建

机器学习模型

XGBoost在组成增强过渡分布(CeTD)特征上表现最优(验证集AUC=0.75),关键特征CeTD_21_HB的均值差异达0.14。

深度学习模型

1D-CNN在三肽组成特征上AUC为0.69。

蛋白质语言模型

微调后的ProtBERT取得AUC=0.71,其嵌入向量可捕捉序列深层语义。

突破性集成策略

结合MERCI工具发现的基序(如"G-X3-P"模式)与XGBoost模型,构建的混合模型性能显著提升:

  • 验证集AUC 0.80(MCC=0.45)

  • 基序覆盖率达82%,特异性提升至73%

工具应用

开发的RAIpred平台包含四大模块:

  1. 1.

    预测模块:评估单肽段的RA诱导风险

  2. 2.

    设计模块:通过单点突变生成优化类似物

  3. 3.

    蛋白扫描:定位全长蛋白中的抗原区域

  4. 4.

    基序扫描:识别致病特征序列

临床价值

该工具可应用于:

  • 评估益生菌/转基因食品中蛋白的安全性

  • 指导治疗性肽段设计,避免诱发自身免疫反应

  • 发现新型RA生物标志物

创新点

  1. 1.

    首次建立RA诱导肽的预测标准

  2. 2.

    揭示G/P/Y等残基的致病关联性

  3. 3.

    实现基序分析与AI预测的协同优化

展望

未来可扩展至其他自身免疫疾病研究,并通过湿实验验证预测肽段的致病机制。平台已开源(GitHub)并提供PyPI安装包,推动计算免疫学工具的普及应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号