编辑推荐:
研究人员针对生物生长数据拟合随机微分方程(SDEs)问题,开展参数估计与模型选择研究,结果表明该方法有效。
在自然界中,生物的生长过程受到诸多因素的影响,充满了不确定性。就像鱼儿在海洋里生长,会受到水温、食物资源、天敌等各种随机因素的干扰。传统的常微分方程(ODEs)在描述生物生长时,往往无法准确反映这些现实中的随机变化,因为真实系统很难完全与外界环境隔绝,总是会受到外部随机力量的作用。为了更精准地刻画生物生长过程,使用随机微分方程(SDEs)作为模型就显得尤为重要。SDEs 在金融、 econometrics、种群系统、生态学等多个领域都有广泛应用,因此,将 SDEs 拟合到实际数据具有重要的研究价值。
来自墨西哥国立自治大学(Universidad Nacional Autónoma de México)和墨西哥国立理工学院(Instituto Politecnico Nacional)的研究人员 Fernando Baltazar?Larios、Francisco Delgado?Vences 和 Arelly Ornelas 针对这一问题展开了深入研究。他们的研究成果发表在《Environmental and Ecological Statistics》上,为生物生长模型的构建和优化提供了新的思路和方法。
研究人员在此次研究中运用了多种技术方法。首先是最大似然估计(MLE),这是一种在已知数据分布的情况下,用于估计模型参数的方法,通过最大化似然函数来确定最有可能的参数值。对于离散观测数据和只有一个观测点的情况,研究人员使用了期望最大化(EM)算法,该算法通过不断迭代,逐步逼近真实的参数值。在处理数据时,还利用了扩散桥技术,通过模拟扩散过程来补充离散观测数据之间的信息,以更好地进行参数估计。
研究结果
- 三种随机生长模型构建:研究人员考虑了三种经典生长模型的随机版本,即随机 Gompertz 模型、随机 von Bertalanffy 模型和随机逻辑斯蒂(logistic)模型。这些模型都是基于普通微分方程的随机版本,在生物或种群生长现象的建模中广泛应用。
- 随机 Gompertz 模型:该模型的随机微分方程为dXt=?bXtlog(Xt)dt+σXtdWt,通过对Yt=log(Xt)应用 It? 公式得到其解,并且当σ=0时可恢复为确定性常微分方程12。
- 随机 von Bertalanffy 模型:方程为dLt=κ(L∞?Lt)dt+σ(L∞?Lt)dWt,通过对函数Gt=(L∞?Lt)应用 It? 公式得到其解,该模型是个体生长经典模型的随机版本,已在渔业研究中应用34。
- 随机 logistic 模型:方程为dPt=rPt(1?Pt)dt+σPtdWt,其确定性版本在多种现象的建模中表现良好,研究人员给出了其强解的表达式56。
- 参数估计:研究人员针对不同的数据场景,提出了相应的参数估计方法。
- 完整数据:在时间区间[0,T]内的完整观测情况下,对于随机 Gompertz 模型和随机 von Bertalanffy 模型,利用模型的解得到似然函数的封闭形式,进而计算最大似然估计值;对于随机 logistic 模型,结合观测值的二次变差和 MLE 通过 EM 算法来估计参数78。
- 离散时间观测:当观测数据为离散时间时,由于数据有限,无法直接使用完整数据下的估计方法。研究人员利用扩散桥来增强数据信息,在 EM 算法的 E 步模拟扩散桥,在 M 步使用似然函数(Gompertz 和 von Bertalanffy 模型)或二次变差和 MLE(logistic 模型)来估计参数910。
- 每条路径一个记录:针对每条路径只有一个观测值的极端情况(如渔业数据),研究人员提出一种新算法,通过假设个体来自同一总体,利用已知参数和观测数据生成模拟轨迹,再使用前面的方法进行参数估计1112。
- 模拟研究:通过模拟研究,验证了所提出方法的有效性。
- 完整观测:对于三种模型,通过生成不同时间跨度的路径,计算参数估计值,结果表明随着观测时间增加,估计值逐渐稳定接近真实参数值,说明估计量具有一致性1314。
- 离散观测:模拟 1000 个数据集,每个数据集包含 10,001 个点,假设只观测其中 101 个点。对三种模型分别进行模拟研究,结果显示算法能够收敛到接近真实参数的值,且估计无偏差1516。
- 一条记录情况的验证:针对每条路径只有一个观测值的情况进行模拟研究,使用新算法生成路径,再用相应的 EM 算法估计参数,结果表明算法有效1718。
- 通过 AIC 进行模型选择:利用赤池信息准则(AIC)来选择最佳模型。AIC 综合考虑了模型的拟合优度和复杂度,公式为AIC=?2logL(θ^∣data)+2κθ。通过数值例子和大量模拟,验证了 AIC 能够有效选择出 “真实” 模型,即 AIC 值最小的模型为最佳模型1920。
- 实际数据应用:研究人员将上述方法应用于来自 Little Moose Lake 的湖鳟生长实际数据。由于数据集中每个鱼只有一个观测值,属于较具挑战性的场景。研究人员使用相关算法生成路径并计算参数估计值,通过 AIC 准则选择出最佳模型为 Gompertz 模型,表明该方法在实际数据拟合中表现良好2122。
研究结论与意义
研究人员成功地将 SDEs 拟合到不同类型的数据集,通过多种方法估计了模型参数,并利用 AIC 选择出最佳模型。研究成果为生物生长建模提供了更准确、有效的工具,有助于深入理解生物生长过程中的随机现象,在渔业、生态学、肿瘤学等多个领域都具有重要的应用价值。尽管该方法在处理高度稀疏数据集时需要大量计算资源,但为后续相关研究奠定了坚实的基础,有望推动生物生长研究领域的进一步发展。