
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于双辅助变量的直接与合成比率插补方法在小域均值估计中的应用研究
【字体: 大 中 小 】 时间:2025年08月02日 来源:Kuwait Journal of Science 1.1
编辑推荐:
为解决小域估计中缺失数据问题,研究人员提出基于双辅助变量(x,z)的直接与合成比率插补方法,开发了Tr1d、Tr2d等新型估计量,通过理论推导和模拟验证,证明其均方误差(MSE)较传统方法降低10-15%,为农业调查、公共卫生等领域的缺失数据处理提供了更精确的解决方案。
在抽样调查领域,小域估计(Small Area Estimation, SAE)一直是统计学家面临的重大挑战。当样本量不足或数据缺失时,传统直接估计方法往往产生较大偏差,严重影响农业产量预测、疾病发病率监测等关键领域的决策精度。印度北方邦阿格拉地区的作物产量调查就曾深受其害——缺失数据导致15%的产量预测误差,直接影响了粮食政策的制定。
印度哈里亚纳中央大学统计系的研究团队在Anoop Kumar教授带领下,针对这一难题展开攻关。他们在《Kuwait Journal of Science》发表的研究中,创新性地将双辅助变量引入缺失数据插补领域,提出了基于简单随机抽样(SRS)的新型估计框架。通过建立(x,z)双变量协同校正模型,团队不仅解决了传统单辅助变量方法效率低下的问题,还首次实现了直接估计与合成估计在缺失数据场景下的系统整合。
研究采用蒙特卡洛模拟与真实数据验证相结合的方法。模拟部分基于正态分布总体生成10,000次重复实验,真实数据则来自阿格拉地区200个农田单元的作物产量调查。关键技术包括:1) 双变量比率插补算法设计;2) 基于域特征的误差项分解技术;3) 三阶段交叉验证流程(设计阶段、插补阶段、验证阶段)。
【方法创新】
提出结构I/II双框架体系:在结构I下开发直接比率估计量Tr1d=y?r,a(X?a/x?n,a)(Z?a/z?n,a),其MSE解析式显示当ρyx>0.7时效率提升23%;结构II则构建合成估计量Tr3s=y?r(X?a/x?n)(Z?a/z?n),通过双变量协同降低方差15%。
【理论突破】
推导出Bias(Tr1d)=Y?afn[Cx2+Cz2-ρyxCyCx]的显式表达式,首次量化了双变量相关性对偏差的影响。当ρxz=0.6时,偏差可降低至单变量方法的40%。
【实证发现】
阿格拉地区小麦产量数据验证显示:在na=30、缺失率20%条件下,新方法RE(相对效率)达158%,较Tikkiwal传统方法提升38%。特别是当x(土壤pH)、z(降雨量)联合使用时,MSE降至0.042,突破了过去五年同类研究的最低记录。
这项研究的意义在于三个方面:方法学上创建了双辅助变量插补的理论框架;应用上为小样本域估计提供了实操工具;理论上首次证明当min(ρyx,ρyz)>0.5时,双变量估计量必然优于单变量估计。正如Al-Omari在同期评论中指出,该研究"重新定义了缺失数据处理的效率边界",将为农业普查、流行病学监测等需要小域精确估计的领域带来方法论革新。未来研究可进一步探索非正态分布下的稳健估计量构建,以及在多阶段抽样中的扩展应用。
生物通微信公众号
知名企业招聘