基于Bagging交叉验证的Nadaraya-Watson核回归带宽选择方法及其渐近性质研究
《Computational Statistics & Data Analysis》:Bagging cross-validated bandwidth selection in nonparametric regression estimation with applications to large-sized samples
【字体:
大
中
小
】
时间:2025年08月07日
来源:Computational Statistics & Data Analysis 1.6
编辑推荐:
本文针对Nadaraya-Watson核回归估计中带宽选择的关键问题,提出了一种基于Bagging的交叉验证改进方法。研究人员通过建立修正的交叉验证准则函数,系统推导了Bagging带宽选择器的渐近偏差、方差和分布性质。研究结果表明,该方法在保持计算效率的同时显著提升了带宽选择的稳定性,为高维数据下的非参数回归提供了理论保障和实践指导。
在统计学和机器学习领域,非参数回归方法因其灵活性而备受关注,其中Nadaraya-Watson核回归估计器作为经典工具,其性能高度依赖于带宽参数的选择。传统交叉验证方法虽然广泛应用,但存在计算成本高、方差大等固有缺陷,特别是在大样本场景下尤为明显。随着数据量的爆炸式增长,开发既保证统计精度又控制计算复杂度的带宽选择算法成为亟待解决的问题。
本研究针对这一挑战,创新性地将Bagging(自助聚合)思想引入带宽选择过程。研究人员通过构建修正的交叉验证准则函数,建立了完整的理论框架。具体而言,首先对标准Nadaraya-Watson估计量进行二阶近似分解,得到不含随机分母的修正表达式。基于此推导出Bagging带宽选择器的渐近性质,包括偏差、方差和分布收敛速度等关键指标。
关键技术方法包括:1)建立修正的Nadaraya-Watson估计量近似表达式;2)设计Bagging交叉验证算法流程,通过从原始样本中重复抽取子样本并计算缩放后的交叉验证带宽;3)采用矩生成函数和中心极限定理等工具进行严格的渐近理论推导。
通过将Nadaraya-Watson估计量分解为六个组成部分,保留主导项而忽略高阶无穷小量,得到修正估计量的显式表达式。该表达式避免了随机分母问题,为后续理论分析奠定基础。
基于修正估计量,严格推导出Bagging带宽选择器的偏差和方差表达式。结果表明当子样本量r和重抽样次数N以适当速率增长时,Bagging带宽比标准交叉验证带宽具有更快的收敛速度。
通过三个不同复杂度的回归模型(线性函数M1、周期函数M2和振荡函数M3)进行蒙特卡洛模拟。在同方差和异方差设定下,比较标准交叉验证与Bagging方法的性能。结果显示Bagging方法能有效降低带宽估计的方差,且计算效率显著提升。
研究结论表明,Bagging交叉验证带宽选择器在保持渐近无偏性的同时,能有效降低方差,其收敛速度可达n-1/2,优于标准交叉验证的n-3/10阶。这一理论突破为解决大样本非参数回归的带宽选择问题提供了新思路,对高维数据分析和机器学习模型优化具有重要指导意义。值得注意的是,该方法对异方差情况同样适用,展现了良好的鲁棒性。未来工作可进一步探索最优子样本大小的自适应选择策略,以及该方法在其他非参数估计场景中的推广价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号