
-
生物通官微
陪你抓住生命科技
跳动的脉搏
计量学与数据挖掘的交叉探索:最小协方差(Malcov)回归方法的创新与应用
【字体: 大 中 小 】 时间:2025年05月22日 来源:Expert Systems with Applications 7.5
编辑推荐:
为解决AI模型在真实场景中适用性不足的问题,研究人员开展了一项融合计量学与数据挖掘的跨学科研究,提出最小协方差(Malcov)回归方法。该方法通过引入变量协方差分析、子范围优化及Variance-Gamma分布的不确定性评估,将模型不确定性降低达40倍,并首次实现误差变量问题的系统性解决。其创新性在于模型参数会随实验数据量增加而趋近零不确定性,为工业校准和科学测量提供了可验证的标准化框架。
当前人工智能在定量数据分析领域面临严峻挑战:尽管生成式AI在上下文数据处理中表现优异,但基于测量数据的模型常因缺乏标准化评估框架而难以落地。这种现象在工业校准、环境监测等依赖精确测量的场景尤为突出。传统回归方法如最小二乘法(Least Squares)及其衍生技术(如MLP神经网络)虽能拟合数据,却无法解决误差变量(errors-in-variables)问题——即同时考虑自变量和因变量的随机性。更关键的是,现有方法遵循ISO 6143等标准采用的广义不确定度传播律(generalised law of uncertainty propagation),会导致模型不确定度随数据量增加而反常升高,这与"更多数据应带来更可靠结论"的科学直觉背道而驰。
波兰研究人员通过融合计量学原理与数据挖掘技术,在《Expert Systems with Applications》发表的研究提出革命性的最小协方差(Malcov)回归方法。该方法核心突破在于:1) 建立基于多维矩阵运算的协方差最小化准则;2) 创新采用Variance-Gamma分布评估系数不确定度;3) 实现模型结构与测量条件的动态耦合。关键技术包括:基于PN-EN ISO/IEC 17043:2023标准的实验室间比对数据验证、子范围优化算法、以及Deming回归的扩展应用(通过数值优化求解包含变量相关性的最小二乘准则)。
【Malcov方法】
通过构建线性模型y=aTx+ε的误差方差最小化框架,证明当模型预测d与观测值y的协方差E(yd)最大化时,误差方差D2(y-d)可达到理论下限。与传统方法相比,其系数不确定度评估公式u(aj)呈现随数据量增加而递减的特性,在理想条件下可趋近于零。
【单点分析-更好建模,更低不确定度】
单变量线性回归的模拟实验显示,当基函数与真实过程匹配度提升时,模型系数a=E(XY)/E(X2)的Variance-Gamma分布呈现显著收缩。例如在谐波过程建模中,采用谐波基函数可使不确定度降低达三个数量级。
【讨论与结论】
比较分析表明,Malcov在保持Lasso/Ridge回归正则化优势的同时,解决了机器学习方法无法验证过程表征有效性的根本缺陷。其创新价值体现在:1) 首次实现计量学可追溯性(traceability)与数据挖掘的融合;2) 为ISO/TS 28038:2018标准提供了更优的替代方案;3) 建立的"实验完整性-模型不确定度"负相关关系,为工业智能检测系统开发提供了理论基石。该成果标志着定量数据分析从经验拟合走向可验证建模的关键转折。
生物通微信公众号
知名企业招聘