基于机器学习与蛋白质语言模型的溶血肽预测及HC50浓度量化研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年02月05日 来源：Communications Biology 5.2

编辑推荐：

　　为解决肽类药物因溶血毒性导致的临床失败问题，印度理工学院德里分校的研究团队开发了HemoPI2平台，通过整合机器学习（ML）、量子机器学习（QML）和蛋白质语言模型（PLMs），构建了可预测溶血肽及其半数溶血浓度（HC50）的分类与回归模型。该研究基于1926条实验验证的肽序列，发现疏水性和带正电荷残基与溶血活性显著相关，最终模型AUROC达0.921，回归模型R2为0.543，显著优于现有工具，为肽类药物设计提供了重要指导。

肽类药物因其高特异性、低免疫原性等优势成为研发热点，但溶血毒性是导致其临床失败的主要障碍之一。现有预测工具仅能判断肽的溶血性，无法量化其溶血浓度（HC₅₀），且数据集多局限于脊椎动物，限制了临床应用。印度理工学院德里分校的Anand Singh Rathore、Gajendra P.S. Raghava团队在《Communications Biology》发表研究，通过整合多模态机器学习技术，开发了可同时预测溶血活性与HC₅₀值的HemoPI2平台。

研究团队从DBAASP和Hemolytik数据库收集1926条实验验证的哺乳动物源肽序列，通过Pfeature工具提取1192维特征（包括氨基酸组成、二肽组成等），结合ESM-2、ProtBERT等蛋白质语言模型生成的嵌入向量，构建了分类与回归模型。关键技术包括：五折交叉验证优化模型性能、MERCI工具识别溶血特异性基序、量子支持向量机（QSVM）与传统ML对比分析。

分析结果

溶血肽特征分析：发现疏水性残基（如苯丙氨酸、亮氨酸）在N端富集，带正电荷残基（如赖氨酸）与HC₅₀呈正相关（R=0.214），而甘氨酸等残基与溶血活性负相关。
基序识别：溶血肽独有基序如“CGET”“TLLKKVLKA”富含疏水残基，非溶血肽则偏好“AKD”“SKIK”等基序。
模型性能：随机森林（RF）结合ALLCOMP-ex SOC特征的分类模型AUROC达0.921；回归模型中RFR对HC₅₀预测R²为0.543，优于传统方法。ESM-2-t6模型AUROC达0.919，显示PLMs的潜力。

结论与意义
该研究首次实现溶血活性的定量预测，突破现有工具仅能分类的局限。HemoPI2平台（http://webs.iiitd.edu.in/raghava/hemopi2/）支持肽序列扫描、突变设计及HC₅₀预测，为降低肽类药物研发失败率提供关键工具。未来需扩展至非天然氨基酸修饰肽，并整合结构数据以提升预测精度。研究为肽类药物的理性设计树立了新标准，推动“fail early, fail cheap”策略在临床前阶段的应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号