基于锚图且具有局部保持特性的模糊聚类算法
《Pattern Recognition》:Fuzzy Clustering Algorithm with Locality Preserving based on Anchor Graph
【字体:
大
中
小
】
时间:2025年10月02日
来源:Pattern Recognition 7.6
编辑推荐:
本文提出基于锚图的模糊聚类算法FCLPAG,通过引入图正则化、二次规划项和聚类平衡约束,同时保持局部结构和平衡性,实验表明其效果优于传统方法。
模糊聚类作为一种重要的数据分析方法,在多个领域得到了广泛的应用。然而,传统的模糊聚类算法在处理聚类结果时存在两个主要问题,这些问题会影响最终的聚类效果。首先,传统算法在将样本映射到隶属度空间时,仅仅考虑了样本与聚类中心之间的关系,而忽略了样本之间局部结构信息的重要性。其次,传统算法未能同时兼顾隶属度的平衡性和区分性,这在实际应用中可能导致聚类结果不够准确或难以解释。
为了克服上述问题,本文提出了一种基于锚图的局部保持模糊聚类算法(FCLPAG)。该算法通过引入图正则化项,确保在隶属度空间中,样本能够保留原始空间中的局部结构。为了提高聚类效率,算法首先从样本到锚点构建隶属度矩阵A,接着从锚点到聚类中心学习隶属度矩阵B,最终通过矩阵乘法U = AB获得样本到聚类中心的隶属度矩阵U。此外,算法还引入了二次规划项和聚类平衡约束项,以确保聚类结果既具有清晰的划分,又保持良好的平衡性。最后,通过迭代优化方法求解模型,并在八个基准数据集上进行了实验,结果表明所提出的算法在聚类性能上优于其他比较算法。
聚类作为一种关键的数据分析工具,旨在识别数据的内在结构,被广泛应用于社交网络分析、市场细分、生物信息学、图像分割等多个领域。聚类方法可以按照不同的分类标准分为基于划分的方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法。基于划分的聚类方法根据是否允许样本以一定概率属于多个聚类,可以进一步分为硬聚类和软聚类。硬聚类只能将每个样本分配给一个特定的聚类,其中最著名的算法是K-means。K-means因其简单性和有效性而被广泛使用,但其在处理非球形聚类时存在局限性。因此,研究人员提出了多种改进算法,如基于自然密度峰的改进K-means算法,通过随机采样在聚类过程中加速计算,从而在减少运行时间的同时保持与K-means相同的聚类结果。
为了解决硬聚类在处理模糊性、边界样本、噪声样本和复杂分布样本时的不足,研究人员提出了软聚类方法。软聚类不仅提供聚类标签,还提供隶属度,可以用于进一步分析样本的分布特性。其中,模糊C均值(FCM)是最具代表性的软聚类算法之一,它引入了模糊隶属度的概念,允许样本以不同的隶属度属于多个聚类。FCM在实际应用中取得了显著的成功,随后研究人员对其进行了大量扩展研究。例如,通过选择样本并利用三角不等式加速算法收敛速度,同时保持高质量的聚类结果;或者通过最大熵原理对加权系数进行正则化,并结合自学习迭代策略开发了新的加权可能性模糊聚类算法。
尽管模糊聚类算法具有诸多优势,如能够更好地处理不确定性、更准确地反映样本的真实分布、通过调整模糊指数适应不同的聚类场景,以及基于模糊理论的聚类算法具有较强的可解释性,但传统方法在学习隶属度矩阵时仍然存在一些不足。传统方法通常只关注样本与聚类中心之间的隶属度是否非负且总和为1,而忽视了原始样本的局部结构信息。此外,传统算法在迭代过程中同时学习聚类中心和隶属度,未能在学习过程中兼顾隶属度的平衡性和区分性。
为了解决第一个问题,即传统模糊聚类算法未能考虑原始样本的局部结构信息,研究人员提出了多种有效的方法。例如,通过将鲁棒的FKM损失函数与图正则化项结合,构建一个统一的框架,以确保学习到的隶属度空间不会出现扭曲或破坏。另外,一些方法通过引入判别投影和模糊K均值聚类的结合,并加入图正则化项,以保留数据的局部结构。还有方法通过图正则化项有效维持原始样本的局部结构。这些方法的共同特点是需要同时学习聚类中心和隶属度矩阵,以确保局部结构的保留。
为了解决第二个问题,即传统模糊聚类算法未能在学习过程中同时考虑隶属度的平衡性和区分性,研究人员也进行了相关研究。例如,引入图分散正则化项,以避免出现平凡解,并使聚类结果更清晰地反映样本所属的聚类。还有方法通过引入平衡正则化项,通过调整平衡参数,防止在不平衡数据集中样本数量过多或过少的聚类被合并。这些研究旨在提高聚类结果的清晰度和平衡性,以适应不同的应用场景。
为了减少聚类所需的时间,研究人员提出了基于锚图的多种聚类算法。例如,通过使用基于平衡K均值的层次K均值(BKHK)算法构建锚图,实现对大规模数据集的高效谱聚类,从而降低计算复杂度。此外,一些方法将锚图与模糊K均值聚类结合,同时优化隶属度矩阵并学习数据的局部和全局结构,从而提升聚类性能。还有快速模糊聚类算法,通过选择少量锚点构建稀疏锚图,并使用无参数的迹比模型学习锚点的隶属度矩阵,以提高聚类速度。特别地,基于锚图的模糊聚类方法在多个研究中被提出,以减少聚类所需的时间。这些算法结合了模糊聚类的高性能和锚图的高效性,使得聚类过程更加迅速且准确。
然而,截至目前,尚未有现有的模糊聚类算法能够同时考虑局部结构、隶属度的区分性和平衡性。因此,本文的动机是通过对隶属度矩阵施加额外的约束,使得学习到的隶属度既能保留原始空间中的局部结构,又能实现聚类结果的平衡性和区分性。受到现有研究成果的启发,本文提出了一种基于锚图的局部保持模糊聚类算法(FCLPAG),该算法仅从锚点到聚类中心学习隶属度,而无需学习聚类中心,从而提高聚类速度。同时,该算法确保学习到的隶属度在保留原始空间局部结构的同时,实现聚类结果的平衡性和清晰性。具体来说,FCLPAG的贡献包括以下几点:
1. 提出了一种基于锚图的模糊聚类算法,该算法通过从锚点到聚类中心学习隶属度,使得聚类过程更加高效。
2. 引入了图正则化项,通过对样本之间的相似性关系进行约束,使得相似样本在隶属度空间中具有相似的隶属度,从而保留原始空间中的局部结构。
3. 在模型中引入了二次规划项和聚类平衡约束项,以控制隶属度矩阵,确保聚类结果既具有清晰的划分,又保持良好的平衡性。
4. 通过在八个数据集上的实验验证了FCLPAG的有效性,实验结果表明该算法在聚类性能上优于其他比较算法。
本文的其余部分结构如下:第二部分介绍了本文的方法基础,包括模糊C均值聚类、拉普拉斯特征映射(LE)以及锚图的构建。第三部分详细阐述了所提出的算法及其优化过程,并进一步提供了算法的收敛性分析和时间复杂度分析。第四部分分析了实验结果。第五部分讨论了FCLPAG的优势和不足。第六部分总结了本文内容,并提出了后续研究的方向。表1列出了本文中涉及的符号及其含义。
在模糊C均值聚类(FCM)中,核心思想是允许每个样本以一定的隶属度属于多个聚类。在实际应用中,通常选择隶属度最高的聚类作为样本所属的聚类。FCM通过优化以下问题来实现聚类:
$$
\min_{T,V} \sum_{i=1}^{n} \sum_{k=1}^{c} t_{ik}^{\alpha} \|x_i - v_k\|_2^2
$$
其中,$x_i$ 表示第 $i$ 个样本,$v_k$ 表示第 $k$ 个聚类中心,$T$ 是隶属度矩阵,$t_{ik}$ 表示样本 $x_i$ 对聚类中心 $v_k$ 的隶属度,$\alpha$ 是模糊指数,控制隶属度的分布。约束条件为 $T \geq 0$,且 $\sum_{k=1}^{c} t_{ik} = 1$。该优化问题的目标是最小化样本到聚类中心的距离加权和,同时确保隶属度矩阵的非负性和行和为1的性质。
为了解决传统模糊聚类算法在学习隶属度矩阵时未能同时考虑聚类平衡和划分清晰度的问题,本文提出了基于锚图的局部保持模糊聚类算法(FCLPAG)。该算法的流程如图1所示。首先,模型通过混合代表性选择方法预选锚点,以确保锚点能够有效代表数据的局部结构。接着,从样本到锚点构建隶属度矩阵A,然后从锚点到聚类中心学习隶属度矩阵B,最后通过矩阵乘法U = AB获得样本到聚类中心的隶属度矩阵U。这种方法不仅减少了需要学习的参数数量,还提高了聚类的效率。
在模型中,引入了图正则化项,以约束优化过程中的隶属度矩阵。图正则化项基于样本之间的相似性关系,使得相似样本在隶属度空间中具有相似的隶属度,从而保留原始空间中的局部结构。此外,为了实现聚类结果的平衡性和区分性,模型中还引入了二次规划项和聚类平衡约束项。二次规划项用于控制隶属度矩阵,使其在优化过程中能够更清晰地划分样本到不同的聚类;而聚类平衡约束项则用于防止某些聚类中样本数量过多或过少,从而提高聚类结果的平衡性。通过将这两个项整合到同一个模型中,可以确保隶属度既具有良好的区分性,又保持合理的平衡性。
在实验部分,为了验证FCLPAG的聚类有效性,本文选择了八个基准数据集进行实验。在实验中,选取了七种聚类方法作为比较算法,包括K-means、FCM、改进的深度嵌入聚类(IDEC)、基于随机采样的地标谱聚类(LSC-R)、基于K-means选择地标的地标谱聚类(LSC-K)以及基于锚图的快速模糊聚类算法。实验结果表明,FCLPAG在这些数据集上的聚类性能优于其他比较算法,尤其是在处理具有复杂结构和噪声的数据时,表现出更强的鲁棒性和准确性。
在讨论部分,本文进一步分析了FCLPAG的优势和不足。FCLPAG的主要优势在于其能够有效保留原始数据的局部结构,同时实现聚类结果的平衡性和区分性。通过引入图正则化项,算法确保了样本在隶属度空间中的分布与原始空间中的局部结构保持一致,从而提高了聚类的准确性和稳定性。此外,通过二次规划项和聚类平衡约束项的结合,算法在优化过程中能够更精细地控制隶属度矩阵,使得聚类结果更加清晰和合理。然而,FCLPAG也存在一些不足,例如在某些特定数据集上可能需要更多的计算资源,或者在处理非常大规模的数据时,其计算效率可能受到一定限制。因此,未来的研究可以进一步优化算法的计算效率,探索更高效的优化策略,或者结合其他先进的聚类方法,以提高FCLPAG在不同应用场景下的适应性和性能。
综上所述,本文提出了一种基于锚图的局部保持模糊聚类算法(FCLPAG),该算法通过引入图正则化项、二次规划项和聚类平衡约束项,有效解决了传统模糊聚类算法在局部结构保留和聚类结果平衡性与区分性方面的不足。实验结果表明,FCLPAG在多个基准数据集上表现出色,能够提供更准确、更清晰的聚类结果。本文的研究不仅丰富了模糊聚类算法的理论体系,也为实际应用提供了更高效、更稳定的解决方案。未来的研究可以进一步探索FCLPAG在不同领域的应用潜力,或者结合其他先进的机器学习方法,以提高其在复杂数据环境下的适应性和鲁棒性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号