
-
生物通官微
陪你抓住生命科技
跳动的脉搏
图正则化单热约束非负矩阵分解(GOCNMF):一种高效半监督聚类与数据表征新方法
【字体: 大 中 小 】 时间:2025年05月29日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对高维数据聚类中传统非负矩阵分解(NMF)无法有效利用标签信息且需后处理的问题,研究人员提出图正则化单热约束NMF(GOCNMF),通过将标记数据低维表征强制设为单热向量(One-hot vector),结合图正则化引导未标记数据逼近聚类分配,实现降维与聚类的统一。实验表明GOCNMF在6个真实数据集上优于现有方法,为图像标注等工程应用提供高效解决方案。
在人工智能与数据挖掘领域,高维数据的有效表征一直是核心挑战。非负矩阵分解(NMF)因其生成稀疏可解释的低维表征,被广泛应用于计算机视觉和模式识别。然而传统NMF存在明显局限:作为无监督方法,它无法利用数据中潜在的标签信息;且聚类任务需依赖K-means等后处理算法,导致信息损失与结果波动。更棘手的是,现有半监督NMF方法往往通过堆叠复杂约束提升性能,反而增加计算负担并引入过多超参数——这显然违背了奥卡姆剃刀原则。如何设计简洁高效的半监督NMF框架,成为亟待突破的科学问题。
针对这一挑战,来自云南的研究团队在《Engineering Applications of Artificial Intelligence》发表创新成果。他们提出图正则化单热约束NMF(GOCNMF),通过革命性地将标记数据的低维表征直接初始化为单热向量(One-hot vector),构建出无需后处理的端到端聚类模型。该方法巧妙融合图正则化引导未标记数据分布,不仅规避了传统两阶段策略的缺陷,更通过参数化设计大幅降低计算复杂度。
研究采用多技术协同验证:首先建立基于Frobenius范数的目标函数,通过乘性迭代算法优化U、V矩阵;其次设计单热编码标签嵌入策略,使标记数据表征Vl严格匹配真实类别;再结合k近邻图构建拉普拉斯正则项,约束未标记数据Vu的空间分布。实验选取COIL20等6个图像数据集,以聚类准确率(ACC)和标准化互信息(NMI)为指标,与GNMF、CNMF等8种基线方法对比。
研究结果显示:在模型构建方面,GOCNMF创新性地将单热向量设置同时作为约束条件与初始化策略,使算法收敛速度提升30%。在聚类性能上,该方法平均ACC达0.821±0.032,显著优于第二名GNMFLD的0.763±0.041;特别是在仅有10%标签率的ORL数据集上,NMI指标相对提升19.7%。理论分析证实,该方法的计算复杂度保持在O(mnk)量级,与基础NMF相当。
结论部分指出,GOCNMF通过单热约束与图正则化的协同作用,首次实现NMF框架下数据降维与聚类分配的统一。其重要意义体现在三方面:工程上可直接输出聚类结果,避免K-means等算法的随机性;方法学上开创参数自由的半监督策略,为后续研究提供新范式;应用上在图像标注场景展示优越性能,代码已开源在GitHub平台。研究也坦承存在不足,如当前图正则化对稀疏数据的敏感性有待改进,这为未来研究指明了方向。
生物通微信公众号
知名企业招聘