
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图论描述符与混合整数线性编程的化合物水溶性精准预测与逆向设计新策略
【字体: 大 中 小 】 时间:2025年03月27日 来源:Journal of Cheminformatics 7.1
编辑推荐:
编辑推荐:针对传统水溶性(AS)预测模型依赖复杂化学描述符、难以用于逆向分子设计的局限,Muniba Batool等研究者创新性地将图论描述符、多元线性回归(MLR)与混合整数线性编程(MILP)相结合,在29个数据集上实现R2达0.7191-0.9377的高精度预测,并首次实现含50个非氢原子化合物的数学精确逆向设计,为药物发现提供了可解释性强、计算高效的新范式。
水溶性作为化合物关键理化性质,直接影响药物生物利用度和材料性能,但传统预测方法面临三大困境:依赖复杂3D化学描述符导致计算成本高昂;机器学习模型"黑箱"特性阻碍逆向设计;现有逆向QSPR方法无法保证分子结构的数学精确性。日本京都大学等机构的研究团队在《Journal of Cheminformatics》发表突破性研究,通过创新融合图论理论与运筹学方法,建立了水溶性预测与逆向设计的统一框架。
研究采用化学图论建模,将分子分解为内部核心与外部功能团(p-边缘树),开发83-965种确定性图论描述符。通过前向逐步选择(FSP)筛选关键描述符,结合多元线性回归(MLR)构建预测模型,在29个数据集上R2显著提升(如Protac数据集从-0.18升至0.8769)。逆向设计阶段,将描述符与回归模型转化为混合整数线性规划(MILP)约束,确保推断分子既满足目标水溶性又保留指定结构特征。关键技术包括:两层次分子图模型(内部环系+外部树状结构)、基于FSP的特征选择、MLR预测函数构建、以及带拓扑约束的MILP建模。
研究结果部分显示:
预测性能:FSP-MLR策略在小型数据集(|C|≤150)采用留一验证(LOOV),大型数据集采用5折交叉验证,29个数据集R2均超过0.7198,优于现有ANN模型(如D5数据集从0.625提升至0.8455)。描述符选择效率达16-21%,远低于LASSO的40%。
逆向设计:针对Jain等数据集,MILP在6-1166秒内成功推断含35-50个非氢原子的化合物,水溶性误差<0.05log单位。实例Ic通过合并PubChem两个化合物结构,生成同时保留双亲核特性的分子(n=50,η(f(C?))=-9.158)。
计算效率:MLR模型推理速度较ANN提升100倍(如Ib2实例从1166秒降至11秒),验证了简单模型与确定性描述符的协同优势。
这项研究开创性地证明了图论描述符与线性模型的组合足以捕捉水溶性本质特征,打破了依赖复杂描述符和深度学习的传统认知。其MILP框架首次实现数学可验证的分子逆向设计,为药物发现提供了兼具解释性与计算效率的新工具。未来扩展方向包括:探索描述符-水溶性的物理化学关联机制、开发大规模数据集的特征选择加速算法,以及处理更复杂的杂环系统。该成果为计算化学领域提供了范式转换的可能,其方法论亦可推广至其他分子性质的预测与设计。
生物通微信公众号
知名企业招聘