
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于对数导数分位数变换的分布数据聚类回归方法及其应用
【字体: 大 中 小 】 时间:2025年07月03日 来源:Knowledge-Based Systems 7.2
编辑推荐:
为解决分布数据(DDA)分析中回归模型参数非负约束的限制问题,研究人员提出基于对数导数分位数(LDQ)变换的聚类回归方法(CLR-LDQ)。该方法通过LDQ变换将分布数据映射至希尔伯特空间,建立无约束线性回归模型,并采用交替优化算法实现数据聚类与回归建模同步优化。实验证明该方法在合成和真实数据集(如空气质量PM10/PM2.5分析)中优于全局模型,为符号数据分析(SDA)提供了新范式。
在气象监测、金融统计等领域,传统数据分析常面临将个体数据聚合为分布形式的需求。例如描述某地区全年温度分布或股票日内收益率分布时,简单的均值或分位数会丢失数据内在变异性。E. Diday提出的符号数据分析(SDA)虽能通过直方图、区间值等表征分布特征,但现有回归方法如Irpino和Verde提出的Wasserstein距离模型需强制参数非负,严重限制模型灵活性。
针对这一瓶颈,Antonio Balzanella、Rosanna Verde和Francisco de A.T. de Carvalho团队在《Knowledge-Based Systems》发表研究,创新性地采用对数导数分位数(Logarithmic-Derived Quantile, LDQ)变换。该技术源自Petersen和Mueller的突破性工作,能将概率密度函数映射至希尔伯特空间,从而解除参数非负约束。基于此,团队开发了分布数据的聚类回归框架CLR-LDQ,通过交替优化算法同步实现数据聚类与回归建模,并在意大利伦巴第大区空气质量数据(PM10/PM2.5/O3/NO2)验证了其优越性。
关键技术包含:1) LDQ变换实现分布数据希尔伯特空间嵌入;2) 基于最小二乘的无约束线性回归(OLS-LDQ)建模;3) 交替优化算法同步求解K个聚类及其回归模型,目标函数最小化簇内误差平方和。
Cluster-wise线性回归方法
提出CLR-LDQ算法分两阶段迭代:先固定聚类划分估计K个回归模型,再根据模型误差重新分配数据。理论证明该算法能收敛至稳定解。相比传统方法,新模型允许回归系数为负值,更符合实际数据特性。
实验分析
在空气质量数据中,以PM10为响应变量,PM2.5/O3/NO2为预测变量,CLR-LDQ成功识别出污染模式差异显著的子区域。合成数据测试显示,即使存在多重共线性,该方法仍保持稳定性,且在小样本场景下优于Zhao等提出的偏最小二乘模型。
结论与意义
该研究首次将LDQ变换引入聚类回归领域,解决了分布数据建模的核心限制。实际应用中,该方法能精准捕捉区域污染特征的异质性,为环境政策制定提供数据支持。理论层面,通过希尔伯特空间映射的技术路线,为符号数据分析(SDA)开辟了新方向,未来可扩展至时间序列分布预测等领域。
生物通微信公众号
知名企业招聘