基于可解释机器学习的纯组分物性预测框架:连接分子结构与热力学性质的创新方法

【字体: 时间:2025年06月06日 来源:Chinese Journal of Chemical Engineering 3.7

编辑推荐:

  为解决传统基团贡献法(GC)在纯组分物性预测中存在的非线性相互作用表征不足、新分子适应性差等问题,中国研究团队提出基于可解释机器学习的创新框架。该研究通过连接矩阵(CM)自动生成分子特征,结合随机森林(RF)特征筛选与人工神经网络(ANN)/高斯过程回归(GPR)建模,对沸点(Tb )、临界温度(Tc )等关键物性实现最高83.8%的预测精度提升,并通过SHAP值解析分子结构特征贡献机制,为分子管理提供新工具。

  

在石油化工行业占全球能源领域5%温室气体排放的背景下,"分子管理"理念成为实现清洁生产的关键策略。然而,传统基团贡献法(GC)面临三大挑战:依赖预设功能基团库导致新分子预测失效,线性模型无法捕捉基团间非线性相互作用,以及分子指纹方法存在特征稀疏性和解释性差等问题。这些问题严重制约了计算机辅助分子设计(CAMD)在优化资源转化效率中的应用。

针对这些瓶颈,中国研究团队在《Chinese Journal of Chemical Engineering》发表研究,提出融合可解释机器学习技术的纯组分物性预测框架。研究采用三步核心技术:首先基于SMILES编码构建连接矩阵(CM)实现原子键合关系的系统表征;其次运用随机森林(RF)对初始13316维特征进行筛选降维;最后采用人工神经网络(ANN)和高斯过程回归(GPR)建立预测模型,并引入SHAP值进行特征贡献度解析。研究数据来源于包含多种有机化合物的标准化数据库,通过条件熵分析验证了CM方法较GC法的表征优势。

分子特征生成与筛选
以间二甲苯为例,研究团队通过切割连接矩阵生成包含一至四阶的原子环境子矩阵,将子矩阵出现频率转化为特征向量。特征分析显示,仅保留100个关键特征即可维持模型精度,实现从13316维到100维的有效降维。

物性预测性能
对沸点(Tb
)、临界温度(Tc
)、临界压力(Pc
)和液体摩尔体积(Lmv
)的预测中,ANN模型测试集均方根误差较GC方法降低83.8%。特别在Tb
预测中,调整后R2
达0.984,证实CM特征对分子间差异的敏感捕捉能力。

特征贡献度解析
SHAP分析揭示不同物性依赖差异化的结构特征:Tb
主要受分支烷基链影响,Lmv
与芳香环堆积相关,而Tc
和Pc
对极性基团敏感。这些发现与化学机理认知高度一致,证实模型具有物理可解释性。

该研究通过创新性融合连接矩阵与可解释机器学习,突破了传统GC方法的表征局限。相比现有技术,该框架具有三大优势:自动化的特征生成避免人工预设基团库的局限性;非线性模型准确捕捉基团间相互作用;SHAP分析提供符合化学直觉的特征解释。这不仅为分子管理提供精准工具,其方法论对混合物重构、过程集成建模等领域也具有重要启示。研究团队指出,未来可进一步拓展至三维分子表征和跨性质迁移学习,推动化学工程领域的智能化发展。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号