基于机器学习与蛋白质语言模型的溶血肽预测及HC50浓度量化研究

【字体: 时间:2025年02月05日 来源:Communications Biology 5.2

编辑推荐:

  为解决肽类药物因溶血毒性导致的临床失败问题,印度理工学院德里分校的研究团队开发了HemoPI2平台,通过整合机器学习(ML)、量子机器学习(QML)和蛋白质语言模型(PLMs),构建了可预测溶血肽及其半数溶血浓度(HC50)的分类与回归模型。该研究基于1926条实验验证的肽序列,发现疏水性和带正电荷残基与溶血活性显著相关,最终模型AUROC达0.921,回归模型R2为0.543,显著优于现有工具,为肽类药物设计提供了重要指导。

  

肽类药物因其高特异性、低免疫原性等优势成为研发热点,但溶血毒性是导致其临床失败的主要障碍之一。现有预测工具仅能判断肽的溶血性,无法量化其溶血浓度(HC50),且数据集多局限于脊椎动物,限制了临床应用。印度理工学院德里分校的Anand Singh Rathore、Gajendra P.S. Raghava团队在《Communications Biology》发表研究,通过整合多模态机器学习技术,开发了可同时预测溶血活性与HC50值的HemoPI2平台。

研究团队从DBAASP和Hemolytik数据库收集1926条实验验证的哺乳动物源肽序列,通过Pfeature工具提取1192维特征(包括氨基酸组成、二肽组成等),结合ESM-2、ProtBERT等蛋白质语言模型生成的嵌入向量,构建了分类与回归模型。关键技术包括:五折交叉验证优化模型性能、MERCI工具识别溶血特异性基序、量子支持向量机(QSVM)与传统ML对比分析。

分析结果

  1. 溶血肽特征分析:发现疏水性残基(如苯丙氨酸、亮氨酸)在N端富集,带正电荷残基(如赖氨酸)与HC50呈正相关(R=0.214),而甘氨酸等残基与溶血活性负相关。
  2. 基序识别:溶血肽独有基序如“CGET”“TLLKKVLKA”富含疏水残基,非溶血肽则偏好“AKD”“SKIK”等基序。
  3. 模型性能:随机森林(RF)结合ALLCOMP-ex SOC特征的分类模型AUROC达0.921;回归模型中RFR对HC50预测R2为0.543,优于传统方法。ESM-2-t6模型AUROC达0.919,显示PLMs的潜力。

结论与意义
该研究首次实现溶血活性的定量预测,突破现有工具仅能分类的局限。HemoPI2平台(http://webs.iiitd.edu.in/raghava/hemopi2/)支持肽序列扫描、突变设计及HC50预测,为降低肽类药物研发失败率提供关键工具。未来需扩展至非天然氨基酸修饰肽,并整合结构数据以提升预测精度。研究为肽类药物的理性设计树立了新标准,推动“fail early, fail cheap”策略在临床前阶段的应用。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号