基于密度引导重聚类机制的SDENK算法:实现无偏子空间密度聚类的新范式

【字体: 时间:2025年08月10日 来源:Neurocomputing 6.5

编辑推荐:

  针对传统k-means聚类对凸形簇的偏好和密度聚类缺乏任务导向优化的问题,香港浸会大学团队提出SDENK算法,通过密度引导重聚类(DCRC)机制构建子空间权重,实现形状灵活性与度量自适应的统一。实验表明该算法在12个数据集上平均ARI排名达1.75,为复杂数据分布分析提供新思路。

  

在数据爆炸的时代,如何从海量无标签数据中发现隐藏模式一直是机器学习领域的核心挑战。传统聚类方法面临"两难困境":k-means等基于划分的方法虽能通过子空间学习优化属性权重,却只能识别球形簇;而DBSCAN等密度方法虽可发现任意形状簇,却因缺乏度量学习机制导致高维数据效果不佳。这种"形状偏差"与"度量僵化"的双重局限,使得现有方法难以应对现实世界中复杂的非凸、嵌套式数据分布。

香港浸会大学计算机科学系的Rong Zou团队在《Neurocomputing》发表的研究中,创新性地提出了子空间密度k-聚类(SDENK)框架。该研究通过密度引导重聚类(DCRC)机制将宏观密度簇分解为适合k-means评估的微观子簇,构建了密度聚类与子空间学习的双向优化闭环。关键技术包括:基于双向邻居(BDN)的加权密度计算、通过模拟退火策略优化子空间权重、以及融合局部密度ρ与加权距离δ的决策值γ评估体系。

研究结果显示:

  1. 在形状适应性方面,SDENK对Pathbased数据集的螺旋形簇识别准确率达100%,显著优于SNNDPC等对比方法

  2. 子空间学习有效性通过权重矩阵W的动态更新得以验证,在Wine数据集上使聚类准确率(AC)提升至98.88%

  3. 噪声鲁棒性测试表明,当噪声比达20%时,归一化互信息(NMI)仅下降0.04

  4. 计算效率上,处理1000维CMC数据仅需0.54秒,与基线方法SNNDPC保持同数量级

这项研究的突破性在于首次实现了密度聚类与子空间学习的有机融合:DCRC机制通过k-medoids将不规则宏观簇转化为球形微簇,既保留了密度聚类的形状无偏性,又满足k-means对紧凑子结构的需求。实验证实SDENK在12个数据集上平均ARI排名1.75,最高达1.00(Jain/Spiral数据集),其创新性的双向优化范式为处理高维异构数据提供了新思路,在生物信息学中的基因表达分析、医学影像分割等领域具有重要应用前景。论文同时指出,未来可扩展方向包括处理动态数据流和混合属性类型,这将进一步拓宽该方法的适用边界。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号