一种基于鞍点引导的聚类算法,适用于具有复杂结构的数据

《The Knee》:A saddle point-guided clustering algorithm for data with complex structure

【字体: 时间:2025年10月28日 来源:The Knee 1.6

编辑推荐:

  密度聚类算法通过整合模式寻求与碎片化聚类融合两个阶段,提出基于鞍点引导的相似度度量与最小生成森林技术的新方法。模式寻求阶段利用局部密度极大值确定初始聚类中心,多数投票机制完成数据分配。融合阶段通过计算边界鞍点构建聚类相似度指标,采用最小生成森林动态合并初始簇。实验表明该算法在31个数据集上NMI和ARI指标均优于DBSCAN、DPC、LDP-MST等算法。

  密度聚类作为一种基础的无监督学习技术,广泛应用于各个领域。然而,现有的大多数密度聚类算法在识别具有不同密度和大小的簇时存在一定的局限性,特别是在同一簇内点的密度变化显著的情况下。为了解决这一问题,本文提出了一种新的聚类算法,该算法通过结合“模式寻找”阶段与“碎片簇融合”阶段,有效提升了对复杂数据结构的识别能力。模式寻找阶段主要负责将数据集划分为初始簇,每个簇的中心代表一个密度局部最大值的点,其余的点则通过一种创新的多数投票机制进行分配。这样,包含多个密度局部最大值的自然簇就会被分割成多个初始簇。为了准确捕捉数据的内在簇结构,本文引入了一种基于鞍点的簇相似度度量方法,该方法通过评估相邻初始簇之间的同质性来衡量它们的相似度。鞍点被定义为位于两个相邻簇之间的密度最大值点。利用这种簇相似度度量,通过基于最小生成森林(MSF)的碎片簇融合技术,对初始簇进行合并。该方法首先构建一个覆盖初始簇的图,然后为该图中的每个连通分量生成一个最小生成树,接着通过移除最小权重的边,直到生成的树的数量与用户指定的目标一致。最终,同一最小生成树内的初始簇将被合并,形成最终的聚类结果。

本研究的创新点在于引入了鞍点这一新概念,并利用它来定义簇相似度度量。鞍点的引入使得簇相似度不仅考虑了两个相邻簇之间的局部接近程度,还结合了它们的密度分布的一致性,从而更有效地识别出具有相似特征的簇。此外,本文提出的模式融合聚类(MFC)算法,首先通过模式寻找策略将数据集划分为初始簇,然后通过基于最小生成森林的碎片簇融合技术,对这些初始簇进行处理,以消除模式寻找过程中可能产生的碎片化问题。在实际应用中,MFC算法展现出优越的性能,特别是在处理具有复杂形状、不同密度和大小的簇时,能够更准确地识别出数据的自然结构。

现有的密度聚类算法通常可以分为两大类:基于密集区域识别的方法和基于模式寻找的方法。基于密集区域识别的方法假设簇是由密集区域构成,这些区域被稀疏区域所分隔。例如,DBSCAN算法通过一个固定的密度阈值来定义簇,将数据点划分为连续的密集区域。然而,这种方法在面对具有不同密度和大小的簇时存在局限性,因为固定的密度阈值可能无法适应数据集的复杂性。为了克服这一问题,一些后续方法尝试采用不同的策略,如Border-Peeling Clustering(BP)通过迭代地剥离边界点来揭示每个簇的核心,确保相邻簇的核心之间有良好的分离。然而,当簇内部的点密度变化较大或簇边界存在噪声时,BP方法可能会高估边界点的数量,导致聚类结果不够准确。Bridge-Aware Clustering(BAC)则利用桥接点(即连接不同簇的点)来划分数据点,但其性能高度依赖于底层异常点检测技术的准确性。

基于模式寻找的方法则通过识别密度函数的局部峰值作为簇的代表。Mean-Shift算法通过递归地计算数据点的均值来检测局部峰值,这些峰值作为簇的中心,而最终的簇由收敛到同一峰值的数据点组成。Clustering by fast search-and-find of density peaks(DPC)算法基于两个假设:簇中心被密度较低的邻居包围,并且它们与密度较高的点保持相对较远的距离。虽然Mean-Shift和DPC算法在识别密集和稀疏区域的簇方面具有潜力,但它们在处理具有多个局部峰值的自然簇时,容易将其分割成多个碎片簇。因此,这些方法的效果在很大程度上依赖于假设每个自然簇只有一个局部峰值的成立。为了解决这一问题,Domain-Adaptive Density Clustering(DADC)算法采用了一种基于簇融合度的簇自集成方法,用于合并碎片化的簇。然而,这种方法在计算两个簇之间的融合度时,考虑了所有点的密度信息,这可能导致对簇相似度的错误估计。LDP-MST算法则通过局部密度峰值来表示数据集,并利用共享邻居距离来衡量这些局部密度峰值之间的差异。然后,基于最小生成树对这些局部密度峰值进行合并。然而,对于一个成员位于密集区域的局部密度峰值,共享邻居距离可能低估它与一个成员位于稀疏区域的局部密度峰值之间的距离,从而导致后者被前者吸收,影响最终的聚类效果。

针对上述问题,本文提出的MFC算法结合了模式寻找和碎片簇融合两个阶段,以更全面地识别数据集的自然结构。在模式寻找阶段,MFC算法首先识别出数据集中的局部密度峰值作为簇中心,然后通过多数投票机制将剩余的数据点分配到相应的簇中,形成初始簇。这一过程能够有效捕捉数据的自然结构,但有时也会导致簇的碎片化。为了解决这一问题,MFC算法引入了基于最小生成森林的碎片簇融合技术,通过定义新的簇相似度度量方法,即基于鞍点的簇相似度度量,来衡量相邻初始簇之间的同质性。鞍点被定义为位于两个相邻簇之间的密度最大值点,它能够反映簇之间的边界特征。通过这一相似度度量方法,MFC算法构建了一个覆盖初始簇的图,并为该图中的每个连通分量生成一个最小生成树。然后,通过移除最小权重的边,直到生成的树的数量与用户指定的目标一致。最后,同一最小生成树内的初始簇将被合并,形成最终的聚类结果。

本文的主要贡献可以归纳为以下三点。首先,引入了鞍点这一新概念,并利用它来定义簇相似度度量。这一度量方法不仅考虑了两个相邻簇之间的局部接近程度,还结合了它们的密度分布的一致性,从而更有效地识别出具有相似特征的簇。其次,提出了一种新的聚类算法MFC,该算法通过模式寻找策略将数据集划分为初始簇,然后通过基于最小生成森林的碎片簇融合技术,对这些初始簇进行处理,以消除碎片化问题。MFC算法能够更准确地识别出数据集的自然结构,尤其在处理具有复杂形状、不同密度和大小的簇时表现出色。最后,本文进行了大量的实验,验证了MFC算法在合成数据集和真实数据集上的性能。实验结果表明,MFC算法在多个数据集上都优于其他竞争算法,尤其是在NMI(Normalized Mutual Information)和ARI(Adjusted Rand Index)指标上取得了较高的得分。

在实验部分,本文对MFC算法进行了全面的评估,包括合成数据集和真实数据集。合成数据集用于测试算法在理想情况下的表现,而真实数据集则用于验证其在实际应用中的鲁棒性和有效性。在合成数据集中,MFC算法的表现通常优于其他密度聚类算法,特别是在处理具有多个局部峰值的复杂簇时。而在真实数据集中,MFC算法同样表现出色,能够有效地识别出数据中的自然结构,即使在存在噪声或密度变化较大的情况下也能保持较高的聚类质量。实验结果表明,MFC算法在多个指标上均优于其他方法,例如NMI和ARI,这说明其在衡量簇之间的相似性和一致性方面具有较高的准确性。

此外,本文还提供了关于如何调整MFC算法参数的启发式指导。MFC算法涉及三个主要参数:簇的数量、邻居数量k以及偏好参数α。在没有先验信息的情况下,例如没有真实标签或已知簇的数量时,调整这些参数变得尤为复杂。因此,本文提出了基于经验的参数选择方法,以帮助用户在实际应用中更好地配置算法。首先,簇的数量可以通过在MSF的融合阶段中调整最小权重边的移除数量来确定。其次,邻居数量k的选择需要根据数据集的密度分布进行调整,以确保能够准确识别出簇的边界和内部结构。最后,偏好参数α的调整则需要考虑数据集的噪声水平和簇的分布情况,以优化算法的性能。

综上所述,本文提出的MFC算法通过结合模式寻找和碎片簇融合两个阶段,有效解决了现有密度聚类算法在处理复杂数据结构时的局限性。在模式寻找阶段,MFC算法通过识别局部密度峰值作为簇中心,并利用多数投票机制分配剩余数据点,形成初始簇。在碎片簇融合阶段,通过基于鞍点的簇相似度度量方法,对初始簇进行合并,以消除碎片化问题。实验结果表明,MFC算法在多个数据集上均表现出优越的性能,特别是在NMI和ARI指标上取得了较高的得分。本文的贡献不仅在于提出了一种新的聚类算法,还在于为实际应用中参数的调整提供了启发式指导,从而提升了算法的实用性和鲁棒性。未来的研究可以进一步探索如何优化鞍点的定义和簇相似度度量方法,以适应更广泛的数据类型和应用场景。同时,也可以考虑将MFC算法与其他聚类技术相结合,以提高其在处理大规模数据集时的效率和准确性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号