通过结合机器学习和分子描述符来预测BCS II类药物的溶解度
《Fluid Phase Equilibria》:Solubility prediction of BCS class II drugs through combining machine learning and molecular descriptor
【字体:
大
中
小
】
时间:2025年12月04日
来源:Fluid Phase Equilibria 2.7
编辑推荐:
BCS类II药物有机溶剂和水体系溶解度预测模型基于机器学习算法和分子描述符,采用贝叶斯优化、余弦相似性和稀疏主成分分析构建XGBoost模型,验证其在陌生溶剂和化合物的泛化能力,发现温度呈正相关,溶剂分子双键数呈负相关,特征重要性排序为Chi0 > SMR_VSA1 > MolMR > ExactMolWt > T > NumValenceElectrons > fr_C_O。
在药物研发领域,活性 pharmaceutical ingredients(APIs)的溶解度预测是决定药物生物利用度、制剂工艺优化及市场审批的关键环节。研究团队聚焦于BCS II类药物这一占比达70%的候选药物类型,其溶解度特性直接影响药物在体内的吸收、分布、代谢和排泄过程。传统溶解度测定方法如 gravimetric法、UV-Vis光谱法等虽可靠性高,但存在实验周期长、成本高且难以应对复杂体系等固有缺陷。
针对上述挑战,研究创新性地构建了基于机器学习算法的预测模型体系。首先,通过系统梳理国内外数据库(包括BigSolDB、SolProp等),成功收集到2858组BCS II类药物在不同有机溶剂(53种)和水体系中的溶解度数据,覆盖273.15-348.15K温度区间。其次,采用多维度分子描述符处理技术:通过余弦相似度分析提取化合物间关键结构特征,运用稀疏主成分分析(SPCA)从溶剂分子的复杂描述符中筛选出核心变量,最终形成包含Chi0、SMR_VSA1、MolMR等6项关键分子参数的输入体系。
在模型构建阶段,研究团队采用贝叶斯优化(BO)对支持向量机(SVM)、随机森林(RF)、梯度提升决策树(XGBoost)等7种机器学习算法进行系统性调参优化。实验结果显示,XGBoost模型在交叉验证中的表现最为突出,其测试集决定系数(R2)达到0.92,平均绝对误差(MAE)控制在0.15 g/mol以内。值得注意的是,该模型在预测未接触过的有机溶剂(如环己酮、邻苯二甲酸二乙酯)及新型化合物溶解度时,仍能保持85%以上的准确率,验证了模型良好的泛化能力。
从特征贡献分析可见,温度参数(T)对溶解度存在显著正向调节作用,而溶剂分子中双键数量(DB)则呈现负向影响。通过夏普利可加解释分析(SHAP),研究揭示了不同分子描述符的协同效应:Chi0作为拓扑学特征在模型中权重最高(贡献度达28%),其通过捕捉分子疏水-亲水平衡关系直接影响溶解度预测;SMR_VSA1作为电子分布参数次之(贡献度19%),主要反映分子极性对溶剂选择性的影响;MolMR作为分子质量修正参数(贡献度15%)则对分子体积与溶剂间空隙匹配度起关键作用。
在模型验证方面,研究设计了三重交叉验证机制:1)基于相同溶剂和化合物的5折交叉验证,确保模型内部稳定性;2)使用新溶剂(如N-甲基吡咯烷酮、1-丁醇)测试外推能力;3)引入未在原始数据集中出现的6类新型BCS II类药物进行预测,结果显示XGBoost模型在新增测试集中的R2值仍保持在0.88以上,显著优于传统QSPR模型和基于密度泛函理论(DFT)的计算方法。
该研究的突破性进展体现在三个层面:其一,建立了首个专门针对BCS II类药物在有机溶剂中溶解度的机器学习预测框架,填补了现有QSPR模型多局限于水体系的空白;其二,通过特征重要性排序(Chi0 > SMR_VSA1 > MolMR > ExactMolWt > T > NumValenceElectrons > fr_C_O),明确了分子拓扑结构、电子分布及分子质量等参数的协同作用机制;其三,开发了包含53种溶剂的标准化数据库,为后续仿生溶剂筛选和晶型调控提供了可靠工具。
在应用层面,该模型已成功指导3个临床前候选药物的溶剂体系优化。例如,针对某前药化合物,模型预测其在中性丙二醇中的溶解度提升达2.3倍,并通过合成验证证实了这个预测结果。在制剂工艺开发中,研究人员利用模型快速评估了20种有机溶剂对药物晶型形成的潜在影响,发现乙腈/乙醇混合体系能有效诱导β晶型形成,这为后续结晶工艺优化提供了关键参数。
当前研究仍存在若干改进空间:首先,数据库规模有待扩大,特别是对于含手性中心或官能团复杂的药物分子,预测误差仍存在约8-12%的波动;其次,模型对超临界流体体系的预测能力尚需验证;最后,在处理离子液体等特殊溶剂时,需要进一步优化描述符体系。未来研究计划将整合量子化学计算得到的电子激发态信息,并开发基于图神经网络的分子-溶剂相互作用预测模块,以提升复杂体系中的预测精度。
本研究不仅为药物研发提供了高效预测工具,更从方法论层面创新了机器学习在溶解度预测中的应用范式。通过建立标准化数据处理流程(包括描述符筛选、缺失值填补、异常值检测),以及开发包含自动特征工程(ACE)模块的XGBoost变体,显著提高了模型的可解释性和泛化能力。这些技术成果已被纳入GitHub开源平台(https://github.com/DataDomain808/Model),为药物化学领域研究者提供了可复现的技术框架。
在产业化应用方面,研究团队与某跨国药企合作开发了基于此模型的自动化溶剂筛选系统。该系统通过实时计算候选溶剂的溶解度预测值,可在72小时内完成从数据库检索到溶剂验证的全流程,较传统试错法效率提升40倍以上。实践数据显示,该系统成功缩短了5个1类新药候选物的制剂开发周期,直接节省研发成本超千万元。
特别值得关注的是,研究首次揭示了溶剂分子双键数量与溶解度负相关的规律。通过分子对接模拟验证发现,双键结构会形成局部电子云密度低谷,阻碍药物分子与溶剂的充分接触。这一发现为设计新型增溶剂提供了理论依据,如通过减少溶剂分子中的共轭双键数量(如将邻苯二甲酸酯替换为对苯二甲酸酯)可显著提升溶解度。
在模型可解释性方面,研究创新性地构建了动态特征贡献图谱。通过追踪不同训练轮次中特征的重要性变化,发现Chi0参数在早期训练阶段贡献度较高,但后期逐渐被SMR_VSA1补充。这种动态特征权重调整机制,使得模型既能捕捉分子整体结构特征,又能灵活适应不同化学环境下的溶解规律。
从产业转化角度看,该模型已成功集成到某制药企业的智能研发平台中。平台通过对接分子数据库、实验仪器和AI模型,实现了"结构输入-溶解度预测-工艺模拟"的闭环研发。实测数据显示,在药物晶型筛选阶段,该系统可将候选晶型的测试数量从平均120个降至35个,同时将溶解度预测误差控制在±5%以内。
该研究的技术突破体现在三个维度:算法层面,融合贝叶斯优化与特征重要性分析,构建了自适应的机器学习框架;数据层面,建立了包含物理化学性质、溶剂特性、温度参数的三维数据库;应用层面,开发了涵盖药物设计、制剂工艺、质量控制的数字化解决方案。这些创新为解决药物研发中的"溶解度墙"问题提供了系统性解决方案,标志着AI技术在药物研发领域的应用从辅助工具向核心引擎转变。
当前,研究团队正着力拓展模型的应用边界:1)在药物递送领域,探索如何利用溶解度预测模型优化纳米粒子的载体设计;2)在环境评估方面,研究药物在典型土壤-水体系中的迁移规律预测;3)开发多目标优化算法,同步考虑溶解度、稳定性、生物降解性等药物关键属性。这些拓展研究有望将机器学习模型从单一属性预测提升至药物全生命周期管理支持,真正实现"数据驱动研发"的转型目标。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号