
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于机器学习与蛋白质语言模型的溶血肽预测及HC50浓度量化研究
【字体: 大 中 小 】 时间:2025年02月05日 来源:Communications Biology 5.2
编辑推荐:
为解决肽类药物因溶血毒性导致的临床失败问题,印度理工学院德里分校的研究团队开发了HemoPI2平台,通过整合机器学习(ML)、量子机器学习(QML)和蛋白质语言模型(PLMs),构建了可预测溶血肽及其半数溶血浓度(HC50)的分类与回归模型。该研究基于1926条实验验证的肽序列,发现疏水性和带正电荷残基与溶血活性显著相关,最终模型AUROC达0.921,回归模型R2为0.543,显著优于现有工具,为肽类药物设计提供了重要指导。
肽类药物因其高特异性、低免疫原性等优势成为研发热点,但溶血毒性是导致其临床失败的主要障碍之一。现有预测工具仅能判断肽的溶血性,无法量化其溶血浓度(HC50),且数据集多局限于脊椎动物,限制了临床应用。印度理工学院德里分校的Anand Singh Rathore、Gajendra P.S. Raghava团队在《Communications Biology》发表研究,通过整合多模态机器学习技术,开发了可同时预测溶血活性与HC50值的HemoPI2平台。
研究团队从DBAASP和Hemolytik数据库收集1926条实验验证的哺乳动物源肽序列,通过Pfeature工具提取1192维特征(包括氨基酸组成、二肽组成等),结合ESM-2、ProtBERT等蛋白质语言模型生成的嵌入向量,构建了分类与回归模型。关键技术包括:五折交叉验证优化模型性能、MERCI工具识别溶血特异性基序、量子支持向量机(QSVM)与传统ML对比分析。
分析结果
结论与意义
该研究首次实现溶血活性的定量预测,突破现有工具仅能分类的局限。HemoPI2平台(http://webs.iiitd.edu.in/raghava/hemopi2/)支持肽序列扫描、突变设计及HC50预测,为降低肽类药物研发失败率提供关键工具。未来需扩展至非天然氨基酸修饰肽,并整合结构数据以提升预测精度。研究为肽类药物的理性设计树立了新标准,推动“fail early, fail cheap”策略在临床前阶段的应用。
生物通微信公众号
知名企业招聘