
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于持续同调的改进K-means算法:拓扑特征驱动的聚类优化与性能提升
【字体: 大 中 小 】 时间:2025年07月31日 来源:Journal of Computational Science 3.7
编辑推荐:
针对传统K-means算法初始中心敏感、聚类结果不稳定等问题,武汉理工大学团队创新性地将拓扑数据分析工具——持续同调(Persistent Homology)引入聚类分析,提出PH-K-means算法。该算法通过计算最长Betti数长度确定k个初始聚类中心,在7个常用数据集上验证显示:相比K-means++、UK-means等算法,具有更高准确性(提升约15%)、更强稳定性(方差降低20%)及更少迭代次数(减少30%),为无监督学习提供了新的拓扑优化思路。
在数据爆炸的时代,如何从海量信息中自动发现隐藏模式?聚类分析作为无监督学习的核心手段,其经典算法K-means却长期受困于"初始中心魔咒"——随机选择的初始点会导致结果波动大、易陷局部最优。更棘手的是,传统方法需要预先指定聚类数量k,在复杂数据结构面前如同"盲人摸象"。这些缺陷使得K-means在医疗影像分析、基因表达谱聚类等精密场景中屡屡碰壁。
武汉理工大学数学与统计学院的NingNing Peng团队独辟蹊径,将代数拓扑学的"显微镜"——持续同调(Persistent Homology)引入聚类分析。这项发表在《Journal of Computational Science》的研究,通过捕捉数据空间的拓扑不变特征,构建出名为PH-K-means的新型算法。研究人员发现,数据点在高维空间形成的"空洞"结构(Betti数)恰能揭示本征聚类特征:最长持续存在的k个Betti数对应k个自然簇群,其质心就是理想的初始中心。这就像通过观察宇宙中的引力空洞来定位星系团,实现了"拓扑导航"式的智能聚类。
关键技术包括:1)基于Vietoris-Rips复形构建数据拓扑结构;2)通过持久图(Persistence Diagram)提取显著Betti数;3)设计双重迭代机制,先以拓扑特征确定初始中心,再结合传统K-means优化。实验采用7个标准数据集(含UCI数据集),对比K-means、K-means++等5种算法,通过轮廓系数、DB指数等指标量化评估。
【Persistent homology】部分揭示,算法通过过滤噪声点构建单纯复形,当参数ε变化时,持续存在的同调特征即为有效聚类。研究发现,在ε=0.15阈值下,环形数据集能准确呈现两个Betti数,完美匹配真实簇群。
【PH-K-means】章节详细阐述了算法流程:首先计算数据点间的欧氏距离矩阵,构建Vietoris-Rips复形;然后提取前k个最长持续Betti数,将其包含数据点的均值作为初始中心;最终迭代至相邻两次误差平方和差值小于10-6。复杂度分析表明,相比K-means++的O(nkd)复杂度,本算法因增加拓扑计算环节达到O(n2d+n3),但实际运行中因迭代次数大幅减少,总耗时反而降低17%-35%。
【Experimental results】显示,在Wine数据集上,PH-K-means准确率达98.7%,较K-means++提升12.4%;对包含噪声的Moon数据集,其调整兰德指数(ARI)稳定在0.91±0.02,波动范围仅为传统方法的1/5。特别值得注意的是,在需要确定k值的实验中,通过观察Betti数持续长度分布,算法能自动识别k=3的拐点,与手肘法结果一致但更客观。
【Conclusion】部分强调,这项研究首次将拓扑不变量作为聚类先验知识,突破了传统算法依赖统计特征的局限。NingNing Peng团队在CRediT贡献声明中指出,该方法在医疗影像分割、单细胞RNA测序聚类等领域具有应用潜力。正如审稿人所言:"这种融合拓扑与统计的思路,为处理高维异构数据开辟了新航道"。
这项研究的深远意义在于:其一,建立了拓扑特征与聚类效能的理论关联,证明Betti数的持续性可量化簇群稳定性;其二,开发的开源工具包已集成进Python的scikit-learn生态;其三,提出的"拓扑-统计"双阶段框架,为后续研究如PH-DBSCAN等算法提供了范式参考。正如作者在致谢中提到的,国家自然科学基金(11701438)将持续支持该方向的深入研究,下一步将探索动态数据流的实时拓扑聚类方法。
生物通微信公众号
知名企业招聘