
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于元素差异判别非负矩阵分解(EDNMF)的高效数据聚类方法研究
【字体: 大 中 小 】 时间:2025年05月23日 来源:Engineering Applications of Artificial Intelligence 7.5
编辑推荐:
针对半监督非负矩阵分解(NMF)在数据聚类中标签信息利用不足的问题,研究人员提出元素判别NMF(EDNMF)新方法,通过元素比率差约束提升表征判别性。实验证明EDNMF可直接生成聚类分配矩阵,在8个真实数据集上性能超越基线方法,为高维数据聚类提供新思路。
在数据爆炸的时代,如何从高维数据中提取有意义的聚类结构一直是机器学习领域的核心挑战。非负矩阵分解(NMF)因其可解释性强、物理意义明确等优势,被广泛应用于图像处理、生物信息学等领域。然而传统NMF存在两大瓶颈:一是无监督学习难以利用部分标签信息;二是现有半监督方法如约束NMF(CNMF)、判别NMF(DNMF)等仍需依赖K-means等后处理步骤,可能因随机初始化导致标签错配。更关键的是,这些方法强制将标签数据表征约束为独热(one-hot)向量,反而限制了模型的学习能力。
针对这些问题,中国研究人员提出创新性的元素判别非负矩阵分解(EDNMF)方法。该方法突破性地采用元素比率差和元素差异两种判别约束策略,使学习到的表征既能保持判别性又可直接作为聚类分配矩阵。相关成果发表在《Engineering Applications of Artificial Intelligence》,为半监督学习开辟了新路径。
研究采用三大关键技术:1) 基于Frobenius范数的NMF基础框架;2) 元素级判别约束构建(含比率约束EDNMF-R和差异约束EDNMF-D变体);3) 乘性更新算法与收敛性证明。实验使用8个真实数据集(含文本、图像等多模态数据)验证性能。
【NMF基础模型】
通过分解非负矩阵X≈UVT获得基矩阵U和表征矩阵V,其中V的维度k直接对应聚类数。相比传统方法需对V进行K-means聚类,EDNMF的V具有直接可解释性。
【EDNMF模型构建】
创新性提出两种约束形式:EDNMF-R通过最小化同类样本表征元素比率差异实现判别;EDNMF-D则直接约束元素绝对差。数学证明显示两种约束均能保证算法收敛。
【实验验证】
在ORL等人脸数据集和Reuters文本数据集上,EDNMF的聚类准确率(ACC)和标准化互信息(NMI)平均提升5%-15%。特别在大型数据集上,其计算效率显著优于DSSNMF。
该研究的突破性在于:首次将元素级判别约束引入NMF框架,既避免独热向量的强限制,又确保标签一致性;提出的乘性更新算法具有O(n2k)线性复杂度;实验证实EDNMF在保持可解释性同时,其判别能力超越现有方法。这些发现不仅推动了半监督NMF的理论发展,更为医疗影像分析、生物标记物发现等需要部分先验知识的领域提供了新工具。正如作者指出,未来可进一步探索约束形式的自适应选择机制,以及在多组学数据整合中的应用潜力。
生物通微信公众号
知名企业招聘