XYOnion算法:基于分层策略的化学计量学数据集校准与验证子集划分新方法

【字体: 时间:2025年05月22日 来源:Analytica Chimica Acta 5.7

编辑推荐:

  为解决化学计量学模型验证中数据集划分方法存在的偏差和分布不平衡问题,研究人员开发了XYOnion算法。该研究整合SPXY和Onion方法的优势,通过结合预测变量(X)和响应变量(y)空间的距离度量,采用分层采样策略生成代表性子集。结果表明,XYOnion能避免外推预测,提供更稳健的性能评估,其结合DISTSLCT算法显著提升计算效率。这项发表于《Analytica Chimica Acta》的研究为缺乏独立测试集的分析化学领域提供了可靠的验证方案。

  

在分析化学领域,化学计量学(Chemometrics)已成为解析复杂多元数据的核心工具,从环境监测到药物分析都依赖其建立的预测模型。然而,这些模型的可靠性高度依赖于验证过程——当独立测试集不可得时,如何将数据集合理拆分为校准集和验证集就成为关键难题。传统方法如随机划分、Kennard-Stone(K-S)、SPXY和Onion各有局限:或导致性能评估偏差,或产生分布不平衡的子集,甚至引发验证时的外推问题。

针对这一挑战,研究人员在《Analytica Chimica Acta》发表的研究提出创新解决方案——XYOnion算法。该方法巧妙融合SPXY的双空间距离度量与Onion的分层采样策略,通过计算样本在预测变量(X)和响应变量(y)空间的联合距离(采用马氏距离dMx和dMy),将样本按距离中心远近分层为"洋葱"状结构。外层样本优先分配至校准集以避免验证集外推,内层样本交替分配以保持平衡。为提升大样本处理效率,还引入DISTSLCT算法通过迭代投影选择代表性样本,避免全矩阵距离计算。

关键技术包括:1) 基于马氏距离的双空间度量;2) 分层采样策略(loop_fraction=0.1);3) DISTSLCT加速算法;4) 采用葡萄酒发酵过程的ATR-MIR光谱数据集(412样本×831变量)和模拟数据集验证性能;5) 通过RMSE、R2、RPD等指标评估。

模拟数据集验证
在二维正态分布模拟数据中,XYOnion展现出独特优势:随机划分导致子集分布无序;K-S和SPXY将边界样本集中在校准集,使验证集范围缩窄;Onion虽实现空间分层但忽略响应变量分布。而XYOnion通过双空间分层,使校准/验证集在X-y空间均保持均衡覆盖,从可视化分布即可看出其优越性。

真实光谱数据测试
采用葡萄酒发酵MIR光谱预测pH值的实验中,PCA降维后分析显示:XYOnion验证集的pH范围(0.32–4.09)完全包含于校准集(0.31–4.15),成功规避外推;而K-S和Onion的验证集出现超范围样本。性能指标对比更具说服力:XYOnion的RMSEVal(0.055)虽略高于K-S(0.052)和Onion(0.052),但统计检验表明后者因验证集分布狭窄导致乐观估计。更值得注意的是,XYOnion验证集标准差(0.219)最接近原始数据(0.222),证明其保持真实变异的能力。

算法效率分析
复杂度测试显示,传统Onion需O(N2·P)计算量,而整合DISTSLCT的XYOnion仅需O(k·N·P),使万级样本处理成为可能。这种效率提升对现代高通量光谱分析尤为重要。

这项研究通过理论创新和实证检验证实,XYOnion在三个方面实现突破:首先,双空间距离度量克服了单一空间划分的片面性;其次,分层机制确保子集的空间代表性;最后,智能算法实现大规模应用。相比传统方法,其产生的性能指标更接近真实场景,尤其适合光谱、色谱等产生高维数据的分析技术。未来,该方法可扩展至多响应变量建模,并为分析化学中的模型验证建立新标准。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号