机器学习助力水杨酸溶解度精准预测:多因素关联深度解析

【字体: 时间:2025年03月25日 来源:Scientific Reports 3.8

编辑推荐:

  为解决预测水杨酸在不同溶剂中溶解度的问题,研究人员开展相关研究,发现 CNN 模型预测效果最佳,对相关领域意义重大。

  

研究背景

在固体口服药物生产过程中,结晶是关键环节,其核心在于通过降低活性药物成分(API)在溶剂中的溶解度,使 API 从溶液中析出,形成固体粉末,而这一过程的驱动力便是过饱和状态。想要实现过饱和,精准掌握 API 在不同溶剂、不同温度和浓度下的溶解度变化至关重要。
以往,热力学方法常被用于分析 API 溶解度,但这种方法在实际操作中存在诸多不便,实施难度较大。近年来,机器学习(ML)技术逐渐崭露头角,其凭借强大的数据学习能力,在药物溶解度预测方面展现出独特优势。不过,此前研究多局限于简单模型或单组分系统,对于水杨酸在复杂多变量环境下的溶解度预测,仍存在较大空白。因此,开展更深入、全面的研究,探索水杨酸溶解度与溶剂组成、温度和压力之间的复杂关系迫在眉睫。
来自沙特阿拉伯国王沙特大学(King Saud University)的研究人员,针对这一问题展开研究。他们的研究成果发表在《Scientific Reports》上,为水杨酸结晶过程优化以及相关领域研究提供了新的思路和方法。

研究方法

研究人员采用了先进的 ML 方法来预测水杨酸溶解度。首先进行数据预处理,利用 Min–Max Scaler 对数据进行归一化处理,将特征值映射到 0 - 1 的区间,确保各输入特征在分析中具有平等的贡献。接着,使用 k - 最近邻离群值检测(KNNOD)技术识别并剔除数据集中的离群点,保证数据质量。
随后,研究人员运用多种 ML 模型进行预测,包括卷积神经网络(CNNs)、多项式回归(PR)和核岭回归(KRR)。为优化模型性能,采用 Hyperband 方法对模型超参数进行调优,该方法通过动态分配计算资源,高效筛选出最优的超参数配置。最后,利用决定系数(R2)、均方误差(MSE)和平均绝对误差(MAE)等指标评估模型的预测准确性。

研究结果

  1. 模型性能对比:通过对不同模型预测性能的评估,发现 CNNs 在预测水杨酸溶解度方面表现最为出色。其 R2得分高达 0.989,MSE 为 4.161203×10-05 ,MAE 为 3.760119×10-03 ,表明其预测值与实际溶解度值拟合度极高,预测误差极小。相比之下,KRR 的 R2得分为 0.913873,PR 的 R2得分为 0.815462,二者在预测准确性上均不如 CNNs。
  2. 特征重要性分析:研究人员进一步分析了各输入变量对预测模型的重要性。结果显示,X2(水含量)和 X5(PEG300 含量)是影响水杨酸溶解度的关键因素。由于水杨酸的疏水性,增加水含量会降低其在溶剂中的溶解度;而 PEG300 作为增溶剂,能够显著提高水杨酸在溶剂中的溶解度。

研究结论与意义

本研究成功运用先进的 ML 方法预测了水杨酸在不同溶剂中的溶解度。通过严格的数据预处理、有效的离群点检测以及精心优化的模型选择,研究人员实现了预测准确性的显著提升。其中,CNNs 模型凭借其卓越的性能,在众多模型中脱颖而出,为后续研究提供了可靠的模型参考。
研究结果明确了水含量和 PEG300 含量对水杨酸溶解度的关键影响,这对于优化水杨酸结晶过程具有重要的指导意义。在实际生产中,可依据这些结论合理调整溶剂组成,精准控制水杨酸的结晶过程,提高生产效率和产品质量。
然而,该研究也存在一定的局限性,模型的预测能力依赖于数据集的可用性,无法完全做到精准预测。未来研究可聚焦于将多种 ML 算法相结合,构建更强大的混合模型,进一步提升模型的稳健性和预测能力。总体而言,这项研究为解决复杂的药物工程问题提供了新的视角和方法,为溶解度预测及相关领域的研究搭建了重要的框架,推动了该领域的进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号