《Scientific Reports》:Advanced analysis on the correlation of salicylic acid solubility to solvent composition, temperature and pressure via machine learning approach
以往,热力学方法常被用于分析 API 溶解度,但这种方法在实际操作中存在诸多不便,实施难度较大。近年来,机器学习(ML)技术逐渐崭露头角,其凭借强大的数据学习能力,在药物溶解度预测方面展现出独特优势。不过,此前研究多局限于简单模型或单组分系统,对于水杨酸在复杂多变量环境下的溶解度预测,仍存在较大空白。因此,开展更深入、全面的研究,探索水杨酸溶解度与溶剂组成、温度和压力之间的复杂关系迫在眉睫。
来自沙特阿拉伯国王沙特大学(King Saud University)的研究人员,针对这一问题展开研究。他们的研究成果发表在《Scientific Reports》上,为水杨酸结晶过程优化以及相关领域研究提供了新的思路和方法。
研究方法
研究人员采用了先进的 ML 方法来预测水杨酸溶解度。首先进行数据预处理,利用 Min–Max Scaler 对数据进行归一化处理,将特征值映射到 0 - 1 的区间,确保各输入特征在分析中具有平等的贡献。接着,使用 k - 最近邻离群值检测(KNNOD)技术识别并剔除数据集中的离群点,保证数据质量。
随后,研究人员运用多种 ML 模型进行预测,包括卷积神经网络(CNNs)、多项式回归(PR)和核岭回归(KRR)。为优化模型性能,采用 Hyperband 方法对模型超参数进行调优,该方法通过动态分配计算资源,高效筛选出最优的超参数配置。最后,利用决定系数(R2)、均方误差(MSE)和平均绝对误差(MAE)等指标评估模型的预测准确性。
然而,该研究也存在一定的局限性,模型的预测能力依赖于数据集的可用性,无法完全做到精准预测。未来研究可聚焦于将多种 ML 算法相结合,构建更强大的混合模型,进一步提升模型的稳健性和预测能力。总体而言,这项研究为解决复杂的药物工程问题提供了新的视角和方法,为溶解度预测及相关领域的研究搭建了重要的框架,推动了该领域的进一步发展。