利用物理推导出的无量纲群对声化学系统进行机器学习建模
《Ultrasonics Sonochemistry》:Machine learning modelling of sonochemical systems using physically-derived dimensionless groups
【字体:
大
中
小
】
时间:2025年10月01日
来源:Ultrasonics Sonochemistry 9.7
编辑推荐:
本研究提出一种结合物理导出的无量纲变量(Π项)与机器学习策略的声化学建模框架,选用CatBoost算法预测声化学反应的四个关键指标(SCL强度、面积及IORS和IORS+H?O?氧化率)。结果表明,基于Π项的模型在保留物理意义的同时,预测精度(R2=0.87-0.95)显著高于传统回归模型(R2=0.67-0.90),且泛化能力更强,尤其在外部验证数据中表现出更稳定的性能,并通过SHAP分析揭示了气泡热缓冲效应和能量输入阈值等关键机制。
本文探讨了在超声化学领域中引入机器学习模型与无量纲变量结合的可能性,以提高模型的预测能力和通用性。超声化学是一种通过超声空化效应引发化学反应的过程,其特性由多个参数共同决定,包括频率、功率、液体高度等。由于超声化学系统中存在复杂的多参数交互和非线性行为,传统模型在分析和建模时面临诸多挑战。因此,本文提出了一种新的机器学习方法,该方法将基于物理原理推导出的无量纲变量(Π-项)与分类提升(CatBoost)算法结合,以克服传统模型在泛化能力和解释性方面的不足。
为了验证该方法的有效性,研究者选择了四个代表性的超声化学输出作为模型的目标:超声化学发光(SCL)强度、SCL面积、由碘化物氧化自由基(IORS)引发的超声氧化以及同时包括IORS和过氧化氢(H?O?)的总氧化。通过对比多种监督学习算法,包括K近邻(KNN)、线性回归、支持向量回归(SVR)、随机森林、梯度提升、极端梯度提升(XGBoost)和CatBoost,研究发现基于树的模型在预测性能上表现更优,而CatBoost最终被选为基准模型。使用相同的无量纲变量,回归模型在完整数据集上达到了R2值为0.67至0.90的预测精度,但在独立验证集上需要数据集特定的校正才能实现准确预测。相比之下,机器学习框架在保留测试集上达到了更高的预测精度(R2值为0.87至0.95),并且能够自然地推广到外部验证数据集,无需额外校正。此外,无量纲输入模型在泛化能力和任务间一致性方面优于有量纲输入模型,减轻了有量纲模型中常见的平台效应,提供了更稳定的特征贡献分析。通过SHAP分析,研究者发现了与空化热缓冲和能量输入缩放相关的变量,这些变量在不同任务中占据了超过50%的总重要性,揭示了这些非线性行为的机理,而回归模型无法捕捉这些复杂的机制。
在超声化学领域,研究者长期以来依赖于有量纲输入变量进行建模,如频率、功率密度和分子量。这些变量虽然能够描述系统的基本特性,但它们缺乏物理结构和单位一致性,使得模型难以在不同实验或操作条件下保持有效性和可解释性。因此,研究者提出了将无量纲变量引入机器学习模型的策略,以提升模型的预测能力和解释性。无量纲变量通过物理原理的推导,能够压缩关键的相互作用,如力、能量和机制,转化为物理可解释的无量纲比率,从而实现跨系统的可转移性。这些变量涵盖了超声化学系统的多个方面,包括空化动力学、蒸汽含量、声波传播和热效应等,且已被验证能够有效捕捉初始操作条件与超声化学活动指标之间的关系。
为了确保模型训练的可靠性和通用性,研究者在模型构建前进行了系统的数据集分析。其中包括对实验变量分布、异常值检测以及数据变换和标准化的处理。通过箱形图分析,研究者评估了输入和输出变量的分布情况,以指导预处理策略。输入变量包括原始操作参数(如频率、功率和液体高度)和七个无量纲组(Π1-Π7),输出变量包括四个指标:SCL强度、SCL面积、由IORS引起的超声氧化以及由IORS和H?O?共同引起的总氧化。输出变量呈现出明显的右偏分布,因此研究者采用自然对数函数log(1+x)进行变换,以减少偏斜和稳定方差。对于输入变量,只有频率表现出轻微的偏斜,而其他变量则近似对称,但尺度不同。因此,所有输入变量都经过Z分数标准化处理,以确保一致的缩放和防止模型训练过程中变量权重的不平衡。
研究者还对变量之间的线性关系和多重共线性进行了分析。通过计算皮尔逊相关系数矩阵,评估了有量纲变量和无量纲变量之间的线性关系。对于无量纲变量,研究者构建了一个合成参数矩阵,包含1875种不同的操作条件组合,以增强相关性分析的鲁棒性。结果显示,无量纲变量之间存在一定的相关性,例如Π3和Π7之间的相关系数为0.91,Π1和Π5之间的相关系数为0.81,表明这些变量之间可能存在信息冗余。然而,大多数其他变量组之间的相关系数在-0.5到+0.5之间,说明它们在多变量建模中具有可接受的独立性。通过方差膨胀因子(VIF)分析,进一步确认了无量纲输入变量之间的多重共线性程度。结果显示,Π3和Π7的VIF值分别为6.33和6.11,虽然表现出中等程度的共线性,但仍在通常的显著共线性阈值(VIF<10)之下,表明它们对建模的影响是可接受的。其余变量的VIF值均低于5,确认了它们之间较低的相互依赖性。
在模型选择方面,研究者评估了七种监督回归算法,包括KNN、线性回归、SVR、随机森林、梯度提升、XGBoost和CatBoost。结果表明,提升模型(如梯度提升、XGBoost和CatBoost)在各种超声化学任务中表现出色。CatBoost因其对预测性能的强适应性和对特征重要性的良好解释性,被选为最终的基准模型。通过SHAP分析,研究者进一步验证了模型的解释性,发现CatBoost模型能够揭示与空化热缓冲和能量输入缩放相关的非线性机制,这些机制在回归模型中无法被捕捉。这种分析不仅提升了模型的透明度,还为理解超声化学的复杂行为提供了新的视角。
在模型构建过程中,研究者采用了一种系统的方法,包括数据预处理、模型训练和评估。数据预处理包括输入变量的标准化和输出变量的对数变换。模型训练和评估采用五折交叉验证(5-fold CV)策略,使用R2、MAE和MAPE作为评估指标。结果显示,CatBoost模型在使用有量纲输入时,其在训练集和保留测试集上的表现均优于其他模型,且在独立验证集上的预测能力也得到了验证。然而,当模型被推广到与训练集差异较大的操作条件或反应器配置时,其预测性能显著下降。这表明,有量纲输入模型在数据覆盖不足的情况下,难以准确捕捉系统的非线性关系。相比之下,使用无量纲输入的CatBoost模型在保留测试集上达到了更高的预测精度(R2值为0.87至0.95),并且能够更稳定地推广到外部验证数据集。这种提升主要归因于无量纲变量的物理基础,使得模型能够更好地反映系统中不同尺度的相互作用。
研究者还通过SHAP分析进一步探讨了模型所学习的机制。结果显示,无量纲输入模型能够揭示与空化热缓冲和能量输入缩放相关的非线性行为,这些变量在不同任务中贡献了超过50%的总重要性。这种分析不仅提供了对模型预测的解释,还验证了模型与已知物理原理的一致性。例如,在使用有量纲输入的模型中,频率是所有模型中最重要的变量,贡献了79.5%至73.9%的总重要性,但其SHAP分布表现出非线性特征。这表明,频率在低频和高频范围内的贡献不同,而在中频范围内达到最佳效果。此外,超声功率在低至中等功率范围内对模型预测有正向影响,但在高功率下出现平台效应,说明模型在处理高功率输入时可能无法进一步提升预测精度。这些发现为理解超声化学系统的非线性行为提供了新的见解。
在无量纲输入模型中,Π2和Π4被发现是最主要的特征,分别在不同任务中贡献了31.32%至26.27%的总重要性。Π2表示空化泡内部水蒸气分子与总气体分子的比例,反映了空化泡的热组成和反应潜力。Π4表示超声功率与频率和表面张力的归一化值,反映了可用于驱动空化的声能。通过SHAP分析,研究者发现这些变量的贡献呈现出非线性趋势,与已知的空化热缓冲和功率阈值效应相吻合。这表明,无量纲输入模型能够更准确地捕捉这些非线性机制,从而提升模型的解释能力和预测精度。
综上所述,本文提出的基于无量纲变量的机器学习框架在超声化学建模中表现出色。该框架不仅提高了模型的预测性能,还增强了模型的可解释性和通用性。通过将物理原理与机器学习相结合,研究者成功地构建了一个能够有效预测超声化学活动的模型,同时揭示了系统中复杂的非线性机制。这一方法为超声化学系统的优化和机制研究提供了新的工具,并且能够适应不同实验条件下的模型应用。未来的研究可以进一步拓展这一框架,应用于特定的超声化学反应,以优化产物收率、选择性和能量效率,从而推动超声化学在环境修复、材料合成和生物医学等领域的应用。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号