基于机器学习的二元表面活性剂混合物临界胶束浓度预测框架开发及其在配方设计中的应用

《Journal of Cheminformatics》:Predicting the critical micelle concentration of binary surfactant mixtures using machine learning

【字体: 时间:2025年11月14日 来源:Journal of Cheminformatics 5.7

编辑推荐:

  本研究针对二元表面活性剂混合物临界胶束浓度(CMC)预测难题,开发了一种基于人工神经网络(ANN)的机器学习框架。该研究通过算术平均策略融合单个表面活性剂的分子描述符,实现了对已知混合物中未测试摩尔分数CMC值的精确插值(R2=0.941)以及对全新表面活性剂组合完整CMC-组成曲线的准确预测(MSE=0.236)。SHAP可解释性分析表明疏水表面积、电子拓扑描述符等特征是驱动预测的关键因素。该框架为药物递送、个人护理等领域的表面活性剂配方设计提供了高效的数据驱动工具。

  
在日常生活和工业生产中,表面活性剂无处不在——从洗手液的泡沫到农药的乳化,从药物的递送到石油的开采,这些"两面派"分子凭借其独特的亲水-亲油结构,在水溶液中自发组装形成胶束,而这一过程的起点就是临界胶束浓度(CMC)。当表面活性剂浓度超过CMC时,才会开始形成胶束,从而发挥增溶、乳化等关键功能。然而,现实中的表面活性剂应用往往不是单一组分,而是多种表面活性剂的混合物,它们通过协同效应能够实现比单一组分更优异的性能。
传统CMC测定方法如张力法、电导率法等虽然准确,但耗时耗力且成本高昂。虽然机器学习(ML)在预测单一表面活性剂CMC方面取得了显著进展,但对于更接近实际应用的二元表面活性剂混合物,由于化学多样性和组分间的非线性相互作用,准确预测其CMC仍然是一个重大挑战。这种预测能力的缺失严重制约了表面活性剂配方的理性设计和优化。
针对这一瓶颈,Sandia国家实验室的Choudhary等人在《Journal of Cheminformatics》上发表了一项创新研究,开发了一个基于人工神经网络(ANN)的机器学习框架,首次实现了对二元表面活性剂混合物CMC-组成曲线的准确预测。该研究不仅能够对已知表面活性剂组合中未测试摩尔分数的CMC值进行精确插值,还能预测全新表面活性剂对的完整CMC曲线,为表面活性剂配方的高通量筛选和理性设计提供了强大工具。
研究人员主要采用了三种关键技术方法:首先使用RDKit、Mordred和PaDEL等化学信息学工具生成分子描述符,然后通过算术平均等策略融合二元混合物的特征,最后利用人工神经网络等机器学习模型进行预测。研究还采用了严格的交叉验证和SHAP分析确保模型可靠性和可解释性。数据来源包括扩展的单一组分表面活性剂数据集和从文献中精心整理的二元混合物数据。
CMC prediction of single surfactant system
研究人员首先扩展了现有的单一表面活性剂CMC数据集,使其包含440种独特表面活性剂,通过主成分分析(PCA)证实了数据集具有更广的化学多样性。比较随机森林(RF)、XGBoost和人工神经网络(ANN)三种机器学习模型后发现,基于RDKit描述符的ANN模型表现最佳,测试集R2达到0.907。SHAP可解释性分析显示,季铵基团(fr_quatN)会增加CMC,而电子表面面积描述符如VSA_Estate7则与较低CMC相关,这与表面活性剂化学的核心原理一致。
CMC prediction of binary surfactant system
对于二元表面活性剂体系,研究评估了三种特征融合策略:拼接、算术平均和谐波平均。结果表明算术平均策略结合ANN模型表现最优,测试集MSE为0.099。该模型成功预测了包括阳离子-阴离子、阴离子-非离子等多种类型混合物的CMC行为,甚至能够准确捕捉阳离子-阴离子系统特有的U型CMC-组成曲线,表明模型能够捕捉非理想混合效应。
Predicting CMC-composition profile for mixtures
最令人印象深刻的是,该框架能够预测训练中未出现过的新表面活性剂对的完整CMC-组成曲线。采用Mordred描述符、算术平均和ANN的最佳组合在测试集上达到MSE=0.236。模型成功预测了包括常规表面活性剂与 Gemini 表面活性剂、离子液体与全氟表面活性剂等复杂体系的CMC曲线,展示了其强大的泛化能力。
该研究的结论部分强调,这一机器学习框架通过简单的算术平均特征融合策略,结合灵活的ANN架构,成功克服了二元表面活性剂混合物中非理想混合行为带来的预测挑战。框架具有双重预测能力:对已知体系中未测试摩尔分数CMC值的精确插值,以及对全新表面活性剂组合完整曲线的准确预测。SHAP分析揭示了疏水表面积、电子拓扑模式等分子特征的主导作用,这些见解与表面活性剂化学的核心原理一致,强化了模型的机制有效性。
这项研究的重要意义在于其模块化设计允许轻松扩展至预测多组分体系的其他关键物理化学性质,如表面张力、界面张力等。此外,该模型为逆向设计策略奠定了基础,结合贝叶斯优化等算法,可促进分子结构的理性修饰和新表面活性剂化学的探索,为具有定制功能的表面活性剂和二元配方设计加速,有效桥接了预测建模与实际配方创新。未来工作可通过纳入pH、温度和离子强度等外部参数进一步扩展框架能力,还可通过将其发展为生成模型或与高通量分子动力学模拟集成,为计算发现具有新颖结构和增强功能的表面活性剂开辟新途径。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号