基于多种损失函数的贝叶斯估计及其在Odd Kappa–Exponential分布中的应用研究
《Journal of Probability and Statistics》:Bayesian Estimation Under Various Loss Functions With Application to the Odd Kappa–Exponential Distribution
【字体:
大
中
小
】
时间:2025年12月19日
来源:Journal of Probability and Statistics 1.3
编辑推荐:
本文系统评述了在对称与非对称损失函数(如SLE、LE、ES等)框架下,Odd Kappa–Exponential (OKE) 分布参数及可靠性函数的贝叶斯估计方法。文章详细比较了Lindley近似与马尔可夫链蒙特卡洛 (MCMC) 技术的计算效能,并通过模拟研究与真实数据分析验证了各估计量在均方误差 (MSE) 方面的表现。研究表明,在特定损失函数(如ES–QSE)下,贝叶斯估计量优于最大似然估计 (MLE),为可靠性工程与生存分析提供了更灵活的统计推断工具。
近年来,经典分布在人口学、生物医学、工程学等多个领域被广泛用于数据建模。然而,为了更准确地描述实际数据中的偏态特性,研究者不断通过引入新的形状参数来扩展基线分布,从而发展出更多灵活的分布族。Marshall和Olkin提出通过添加额外参数来生成更灵活的分布族。随后,Eugene等人基于Beta分布提出了新的分布族,而Cordeiro、de Castro和Jones则用Kumaraswamy分布替代Beta分布进行了推广。Al-Shomrani等人利用Topp–Leone分布建立了Topp–Leone分布族。其他著名的生成器还包括Weibull-G、logistic-G、指数化半逻辑生成族等。
在扩展单参数指数分布方面,Gupta和Kundu提出了指数化或广义指数族。Marshall–Olkin方法通过冲击或生存倾斜机制引入参数,产生了Marshall–Olkin指数分布。Beta生成方法应用于指数函数则产生了Beta-指数族。Nadarajah和Kotz通过引入两个额外参数获得了更灵活的分布形状。
尽管已有大量研究对各种现有分布进行了推广,但关于Kappa分布扩展的研究仍显不足。为此,Al-Shomrani和Al-Arfaj引入了Odd Kappa–G (OKG) 分布族作为新的灵活分布族,并提出了该族的一个特定成员——Odd Kappa–Exponential (OKE) 分布。本文重点研究两参数OKE分布,设定其位置参数γ=1和尺度参数λ=1。此时,OKE(α, β)分布的累积分布函数(CDF)、概率密度函数(PDF)和风险率函数(HRF)可分别由特定公式给出。图示表明,OKE的PDF形状在α>1时为单峰,α=1时近似指数,α<1时单调递减;参数β主要影响峰值高度、分布展宽和众数位置。CDF在α<1时呈快速上升且凹形,α=1时呈近似指数特征,α>1时呈S形曲线;β主要改变上升的陡峭程度。HRF的形状随α变化可在单峰、常数和递减之间转换,而β重新标度并调整这些特征的幅度和时机。
在贝叶斯框架中,通常结合先验信息与观测数据,并利用损失函数进行参数估计。布朗提出了平方对数误差(SLE)损失函数,该函数对高估施加的惩罚大于低估。Pal和Ling以及Kiapour和Nematollahi分别研究了该损失函数在正态尺度参数估计和稳健贝叶斯预测中的应用。线性指数(LE)损失函数是广泛使用的非对称损失函数,其惩罚方向由参数w的符号决定。El-Sayyad提出了ES损失函数,其贝叶斯估计量可退化为多种常见损失函数的估计量,例如当s=0, r=1时为平方误差(SE)损失函数,当s=0, r=-1时为加权平方误差(WSE)或熵损失(EL)函数,当s=0, r=2时为预防损失(PL)函数等。
本研究的主要目的是在OKE(α, β)分布的参数和可靠性函数R(t)的贝叶斯估计中,考察上述损失函数的表现。
考虑从OKE(α, β)分布中抽取的随机样本V1, …, Vn,其似然函数可基于PDF写出。假设参数α和β相互独立,且均服从伽马先验分布。通过结合似然函数和先验分布,可得参数的后验联合概率密度函数。随后,基于SLE、LE和ES损失函数,分别推导了参数α、β和可靠性函数R(t)的贝叶斯估计表达式。由于这些估计量无法简化为闭合形式,需要采用近似方法进行计算。
本节采用Lindley技术计算第2节中讨论的贝叶斯估计。令γ(α, β)为任意参数函数,其贝叶斯估计可通过对数似然函数和先验分布的对数进行近似。Lindley将γ(α, β)的贝叶斯估计近似为一个包含一阶、二阶偏导数以及观测信息矩阵逆元素的表达式。计算该表达式所需的所有量都在MLE处进行评估。为获得基于SLE、LE和ES损失函数的近似贝叶斯估计,需要针对每个待估参数和损失函数,选择特定的γ(α, β)形式,并计算相应的偏导数。
具体而言,对于SLE损失函数,估计α时令γ(α, β) = log(α),估计β时令γ(α, β) = log(β),估计R(t)时令γ(α, β) = log(R(t; α, β))。对于LE损失函数,估计α时令γ(α, β) = e-wα,以此类推。对于ES损失函数,其估计量是特定矩的比值,需要分别计算分子和分母的Lindley近似。
本节采用Gibbs抽样方法从参数的条件后验密度中生成随机样本,用于计算贝叶斯估计。从后验分布中得到的α和β的条件密度不具有标准分布形式。实验表明它们近似正态分布,因此采用Metropolis–Hastings (M–H) 算法,以正态分布为提议分布进行抽样。
具体算法步骤包括:设置参数初始值;在M–H步骤中,从提议分布生成候选值,并根据接受概率决定是否接受该值;重复此过程多次;为避免初始值影响和样本自相关性,在进行一定次数的迭代后,从生成的马尔可夫链中抽取样本。最终,基于这些样本,计算不同损失函数下的贝叶斯估计。例如,在SLE损失函数下,参数的贝叶斯估计是样本对数值的指数函数的算术平均的指数;在LE损失函数下,是特定指数函数的样本平均的负对数除以w;在ES损失函数下,是样本的s+r阶矩与s阶矩比值的1/r次方。
通过蒙特卡洛模拟评估不同样本量下提出的贝叶斯估计量的性能,并与最大似然估计(MLE)进行比较。评估标准是均方误差(MSE)。研究考察了两组参数值(α, β) = (0.5, 0.5)和(1, 1)。对于LE损失函数,选择了w = -0.5, 1, 1.5三个值。对于ES损失函数,考察了八种(s, r)组合,分别对应不同的特例损失函数。考虑了两种先验设置。模拟重复10,000次,计算MSE。
模拟结果以表格形式展示,比较了不同样本量(n=10,20,40,80,160,320)、不同参数真值、不同估计方法(MLE, Lindley, MCMC)和不同损失函数下,参数α、β以及时间点t=1和t=1.5处的可靠性R(t)的估计MSE。
- 1.在LE(w=1.5)、ES–WSE、ES–QSE和ES–SSE损失函数下,基于Lindley和MCMC方法(使用先验I和II)得到的α和β的贝叶斯估计,其MSE在几乎所有参数值下都小于相应的MLE。其中,ES–QSE损失函数通常表现最佳。
- 2.在ES–PL、ES–DG和ES–MSE损失函数下,基于Lindley和MCMC方法得到的α和β的贝叶斯估计,其MSE在所有参数值下均大于MLE。其中,ES–DG损失函数通常表现最差。
- 3.对于可靠性函数R(t)的估计,不同方法和先验下的表现较为复杂。在某些情况下(如使用先验I和参数(0.5,0.5)时,Lindley方法下LE(w=1.5)、ES–WSE、ES–QSE和ES–SSE损失函数优于MLE;而在另一些情况下,某些损失函数(如ES–QSE、ES–DG、ES–WSE)可能劣于MLE,尤其是在估计R(1.5)时。
- 4.对于小样本,MCMC方法结合某些损失函数(如LE(w=1.5)、ES–WSE、ES–GE)对R(t)的估计优于MLE。
- 5.随着样本量n增大,所有估计量的MSE均减小,且不同方法得到的估计值更加接近。
- 6.此外,还比较了具有相同均值但不同方差的两种先验(Prior III和Prior IV)。结果表明,从先验III(方差较小)得到的贝叶斯估计的MSE几乎在所有情况下都小于从先验IV得到的估计。
为说明各种方法在实际数据中的应用,分析了一个关于大型工业厂房内小型电动推车首次故障时间(月)的真实数据集。数据呈现正偏态和厚尾特征,表明OKE分布可能适合该数据。Kolmogorov–Smirnov (K–S) 检验的p值接近1,表明OKE模型对该数据拟合良好。拟合分布函数与经验分布函数图、Q–Q图和P–P图均显示OKE模型与数据高度一致。
随后,计算了该数据的MLE。从贝叶斯视角分析数据,所有超参数均设为0.01。分别使用Lindley近似和MCMC方法(生成700,000个样本,退火300,000个,每20个样本抽取一个,最终保留20,000个样本用于推断)计算了在SLE、LE(w=-0.5,1,1.5)和ES(八种(s,r)组合)损失函数下,参数α、β以及R(t)在t=1和t=1.5处的贝叶斯估计。通过尺度缩减因子和迹图检查了MCMC模拟的收敛性。
结果以表格形式呈现。结果表明,在大多数情况下,基于Lindley和MCMC方法的贝叶斯估计与相应的MLE非常接近。对于参数α和β,Lindley方法得到的估计值有时略大于MCMC方法得到的估计值,而对于可靠性R(t),MCMC方法的估计值通常大于Lindley方法的估计值。
本研究深入探讨了在两参数OKE分布下,使用对称和非对称损失函数进行参数和可靠性函数贝叶斯估计的方法。假设参数服从伽马先验,并考虑了SLE、LE和ES损失函数。由于贝叶斯估计量没有解析解,提出了Lindley近似和MCMC策略来计算近似贝叶斯估计。同时,计算了MLE以进行比较。蒙特卡洛模拟表明,使用信息量更大的先验时,贝叶斯估计量的性能优于MLE。增加样本量n能提高所有估计量的性能。Lindley方法和MCMC方法的性能不能直接比较,在某些情况下Lindley近似更准确,而在另一些情况下则相反,但Lindley方法计算量更大。
本研究存在一些局限性,例如侧重于完全样本、假设参数服从伽马先验、仅使用一个学科的一个数据集等。未来的工作可以扩展到删失情况(如逐步删失、混合删失、II型删失等)、推广到双变量情形、应用其他先验分布,以及增加来自不同领域的更多样化的真实数据示例。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号