分层集成特征选择方法在非平稳时间序列预测中的创新应用

【字体: 时间:2025年08月09日 来源:Digital Signal Processing 3

编辑推荐:

  本文提出了一种分层集成特征选择方法(HEFS),通过多层架构处理高维非平稳时间序列数据,突破传统单子集选择的局限性。创新性地引入成本优化模块(cost-optimization block),直接最小化最终损失函数,显著提升预测精度(AIC/BIC验证)并抑制过拟合。实验证明该方法在合成和真实数据集中均优于经典特征选择策略(如Lasso、Random Forest)。

  

亮点

我们的核心贡献包括:

  1. 首创分层框架,通过任意特征选择方法或领域知识分层处理主导和非主导特征,有效挖掘传统单轮选择遗漏的信息。

  2. 设计成本优化模块,即使对缺乏二阶导数的目标函数(如L1损失)也能自适应调整层间输出,突破经典残差提升(residual boosting)在不可微损失函数中的性能瓶颈。

  3. 通过显式优化层间调整系数,建模特征组间的多元依赖性,弥补传统堆叠集成(stacking-based ensemble)无法捕捉跨组复杂相关性的缺陷。

  4. 开源实现促进研究可重复性。

方法描述

我们构建包含K个机器学习模型的分层架构(图2示意两层结构)。与传统提升方法仅传递残差不同,每个模型通过成本优化模块对前序预测进行精细化缩放。该模块采用贪婪搜索策略直接优化全局损失,支持:

  • 任意损失函数(包括MAE等非光滑函数)

  • 动态调整特征组间权重

  • 跨层特征交互建模

实验设计

对比模型涵盖经典特征选择三大类:

  • 过滤器方法(Filter):基于统计指标(如互信息)

  • 封装器方法(Wrapper):前向/后向选择

  • 嵌入式方法(Embedded):Lasso回归、随机森林(RF)

统一使用LightGBM作为基学习器,通过scikit-learn管道实现参数交叉验证。

结果分析

测试集平均绝对误差(MAE)显示:

  • HEFS在合成/真实数据集中均显著优于对照组(p<0.05,配对t检验)

  • 训练时间与Wrapper方法相当,远低于穷举搜索

  • 在非平稳数据中表现尤为突出

结论

本方法通过分层处理特征组和动态损失优化,为高维时变信号预测提供了新范式。未来可扩展至:

  • 多模态生物医学信号分析

  • 动态生物标记物发现

  • 实时健康监测系统

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号