KAN能对死亡率说什么:基于Kolmogorov-Arnold网络的可解释平滑死亡率建模新方法
《ASTIN Bulletin: The Journal of the IAA》:What KAN mortality say: smooth and interpretable mortality modeling using Kolmogorov?Arnold networks
【字体:
大
中
小
】
时间:2025年11月29日
来源:ASTIN Bulletin: The Journal of the IAA 1.8
编辑推荐:
本研究针对传统死亡率模型难以有效初始化神经网络以及神经网络预测结果平滑性难以直接控制两大挑战,提出基于Kolmogorov-Arnold网络(KAN)的死亡率建模新框架。研究人员开发了KAN[2,1]、ARIMAKAN及三种KANN变体模型,通过将传统模型组件嵌入KAN浅层结构实现知识迁移,并利用B样条正则化直接控制输出平滑度。在34个人口数据集上的实验表明,KANN系列模型在预测精度、平滑性和可解释性方面达到良好平衡,为精算实践提供了兼具传统模型透明度与机器学习性能的强大工具。
死亡率预测一直是精算科学和人口学的核心课题。自20世纪中叶以来,全球平均预期寿命已从45岁左右显著上升至75岁左右,据联合国预测,到2100年这一数字可能达到85岁。这种动态变化对寿险公司的定价和准备金策略提出了严峻挑战,准确预测未来死亡率趋势成为管理长寿风险的关键。
传统上,Lee-Carter(LC)模型及其扩展版本如年龄-时期-队列(APC)模型一直是死亡率建模的主流方法。这些模型通过分解年龄、时期和队列效应来捕捉死亡率模式,但它们在处理复杂非线性关系和利用大数据潜力方面存在局限。近年来,机器学习方法如循环神经网络(RNN)和长短期记忆网络(LSTM)被引入死亡率预测领域,虽然提高了预测精度,但这些"黑箱"模型缺乏透明度和可解释性,且难以直接控制输出结果的平滑性。
更关键的是,现有方法在传统模型与深度学习框架之间存在知识转移的障碍。虽然解释性方法可以揭示神经网络中类似传统模型组件的结构,但反向操作——利用传统模型的组件来初始化神经网络——却因信息损失而极具挑战性。同时,现有神经网络缺乏明确的平滑性控制机制,导致预测结果可能包含不合理的波动。
为解决这些问题,张连增和庄元在《ASTIN Bulletin: The Journal of the IAA》上发表了创新性研究,引入Kolmogorov-Arnold网络(KAN)进行死亡率建模。KAN基于Kolmogorov-Arnold表示定理,使用可训练的激活函数(结合SiLU和B样条)替代传统神经网络中的固定激活函数,这一特性使其天然适合与经典死亡率模型组件对接,并支持通过正则化直接控制平滑度。
研究人员首先构建了两个浅层KAN模型——KAN[2,1]和ARIMAKAN,验证KAN在死亡率建模中的基本适用性。KAN[2,1]采用加法结构,将死亡率分解为年龄效应φage(x)和时期效应φyear(t),提供全局内在可解释性。ARIMAKAN则采用两阶段方法:先对每个年龄分别拟合ARIMA模型预测时间序列,再用KAN[1,1]沿年龄维度平滑预测结果。
在此基础上,研究团队将传统的组合精算神经网络(CANN)扩展为基于KAN的精算神经网络(KANN),提出三种具体实现:KANN[2,1]、KANNLC和KANNAPC。这些模型的核心创新在于将经典死亡率模型的组件(如LC模型的ax、bx、kt或APC模型的γt-x)作为浅层部分的初始化,深层KAN则负责捕捉传统模型未能描述的复杂模式。这种设计不仅实现了从传统模型到神经网络的知识迁移,还通过浅层部分的B样条正则化(公式3.1)直接控制死亡率曲线的平滑度。
研究采用人类死亡率数据库(HMD)中17个国家(34个人口)1950-2019年的数据验证模型性能。数据集按时间划分为训练集(1950-1999)、验证集(2000-2004)和测试集(2005-2019)。评估指标包括均方根误差(RMSE)、平均绝对误差(MAE)和沿年龄维度的平滑度度量(公式3.3)。
模型可解释性分析显示,KAN[2,1]和KANN[2,1]的年龄效应与广义可加模型(GAM)估计高度一致,但时期效应存在显著差异:GAM预测的死亡率改善较为保守,而KAN模型捕捉到了更持续的下降趋势。KANN[2,1]的深层输出主要调整年轻年龄组死亡率估计,捕捉了死亡率曲线的旋转现象。
age2(x)和φyear(t)相乘后连接到最终层'>
KANNLC和KANNAPC展现出更复杂的知识迁移模式。KANNLC在训练过程中平滑并旋转了LC模型的bx组件,深层部分则捕捉到明显的队列结构和年龄-时期交互效应。KANNAPC则通过平滑时期效应、调整队列效应和深层补偿,有效纠正了APC模型对10-50岁年龄组死亡率的低估问题。
age2(x)和φyear2(t)自动计算出生年份γ'>
预测性能方面,KANN系列模型表现出色。KANNAPC和KANNLC在RMSE和MAE排名中位列前二,略优于LSTM,远超过传统LC和APC模型。同时,KANN[2,1]和ARIMAKAN在平滑度指标上表现最佳,产生的死亡率曲线异常平滑。相比之下,单纯加深的KAN[2,8,8,1]模型在准确性和平滑性上均表现最差,说明无结构设计的深度KAN反而会降低性能。
研究还发现,KAN模型参数效率显著高于LSTM(数千参数vs数十万至数百万参数),尽管训练时间相当。不同初始化下,KANN系列模型表现出良好的稳定性,而KAN[2,1]在小暴露量人口上预测波动较大。
关键技术创新点包括:1)利用KAN的可训练激活函数实现与传统死亡率模型的自然对接;2)通过预训练和分阶段训练策略实现从传统模型到神经网络的知识迁移;3)基于B样条的正则化方法直接控制输出平滑度,无需合成数据;4)模块化设计支持灵活扩展。
本研究结论强调,KANN框架成功解决了死亡率建模中的知识迁移和平滑性控制两大挑战。通过将传统模型组件嵌入KAN浅层结构,研究人员实现了"传统模型告诉KAN该学什么"的目标,使神经网络既能继承传统模型的透明度和可解释性,又能利用深度学习的强大表达能力。实验证明,KANNLC和KANNAPC在预测精度、平滑性和可解释性之间达到了最佳平衡,而KANN[2,1]和ARIMAKAN则是在追求极致平滑性时的理想选择。
值得注意的是,研究揭示了"深度不一定更好"的重要洞见:在KAN框架下,浅层模型因其可训练激活函数已具备强大表达能力,而无结构加深反而可能导致性能下降。这一发现对精算实践中神经网络的结构设计具有重要指导意义。
这项研究的实际意义在于为精算师提供了兼具传统方法透明度和机器学习性能的强大工具。KANN模型不仅能产生平滑、准确的死亡率预测,还能提供直观的年龄、时期和队列效应解释,满足监管和内部模型验证的要求。此外,模块化设计支持多人口扩展,为未来研究开辟了方向。
作为精算科学中首次系统应用KAN的研究,这项工作展示了这一新兴架构在解决传统建模挑战方面的巨大潜力。随着保险业对模型透明度和预测准确性要求的不断提高,KAN有望成为连接传统精算方法与现代机器学习的重要桥梁,推动死亡率建模乃至更广泛精算应用的技术革新。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号