Central Point Link Learning:基于引导稀疏动态对角嵌入的特征选择方法
《Pattern Recognition》:Central Point Link Learning Guided Sparse Dynamic Diagonal Embedding for Feature Selection
【字体:
大
中
小
】
时间:2025年08月07日
来源:Pattern Recognition 7.6
编辑推荐:
特征选择联合中心点链接与动态稀疏对角嵌入提升伪标签精度。采用中心点链接图保留数据外部关联,动态稀疏对角嵌入保持内在结构,结合l2,1范数约束实现低冗余特征筛选。实验表明在8个数据集上CPLDE较7种典型方法表现更优。
上荣华|孔家瑞|张伟同|李洋洋
中国陕西省西安市西安电子科技大学人工智能学院,教育部智能感知与图像理解重点实验室,邮编710071
摘要
为了获得更准确的伪标签,越来越多的无监督特征选择(UFS)算法开始考虑数据的内在结构。然而,现实生活中的数据不仅具有内在结构,还具有数据之间的外部联系。为了解决这些问题,本文提出了一种基于中心点链接学习的稀疏动态对角嵌入特征选择方法(CPLDE)。首先,在子空间中动态构建对角图,并通过l2,1-范数来保证对角图的稀疏性。这种通过稀疏对角动态构建的图能够更准确地保留数据的内在分布。其次,CPLDE在数据空间中构建中心点链接图,保留每个数据与中心点之间的距离信息。通过利用距离信息的相似性,可以获取数据之间的外部联系。然后,利用中心点链接学习得到的关键知识来指导伪标签学习过程中的稀疏对角图嵌入。结果,数据的内在分布与伪标签之间的相关性以及数据的外部关系与伪标签之间的相关性得到了增强。此外,中心点链接图和稀疏对角嵌入图形成了一个双重图结构,同时保留了数据的空间流形结构。最后,通过结合双重图学习和最大化类间距离与迹比的思想,构建了一个新的FS框架。为了更好地嵌入中心点对数据的影响并减少损失,提出了一种改进的更新优化方法,从而获得更好的特征变换矩阵。通过对8个数据集的全面实验验证,CPLDE的FS性能优于7种典型的UFS算法。
引言
随着人工智能时代的到来,分析和处理数据信息的任务日益增加。这些数据通常是高维的。高维数据中的特征往往具有噪声和高冗余的特点。因此,高维数据的出现给模式识别[1]、生物信息[2]、计算机视觉[3]等领域带来了巨大挑战。高维数据常常受到“维数灾难”[4]的影响。原始数据结构和内在信息也可能被高维数据中的冗余特征和噪声所覆盖。直接使用这些高维数据还会浪费人力和物力资源。为了提高下游任务的效率,首先需要对高维数据进行降维处理。通常,可以通过特征选择(FS)[4]和特征提取(FE)[5]来降低数据的维度。具体选择取决于是否需要保留物理意义。在保留物理意义方面,FS更为合适。此外,FS直接从原始特征集合中选择一些特征,所选特征也是数据本身的一部分。FS还可以提高模型的可读性并保留原始特征的可解释性[6]。相反,FE生成新的特征以形成特征子集[7]。另外,FS可以选择低冗余的特征并去除噪声数据,从而提高机器学习模型的效率。因此,FS在实际应用中起着重要作用,如文本数据挖掘[8]、基因序列分析[9]和遥感场景分类[10]。
由于大多数数据都是未标记的,大多数方法在获取伪标签时往往忽略了数据的内在分布和数据之间的外部联系。伪标签的生成也带来了类间和类内关系,但这些关系常常被忽视。因此,保留数据的内在和外部关系是一个新的研究重点。本文提出了一种名为“基于中心点链接学习的稀疏动态对角嵌入特征选择”(CPLDE)的新UFS算法。首先,CPLDE构建了数据与中心点之间的关系链接矩阵,利用数据与中心点之间的距离信息来表示数据之间的相关性,为伪标签的生成提供关键指导。其次,在低维子空间中动态构建稀疏对角图,以更准确地保留数据的内在分布。此外,使用l2,1-范数来保证对角图的稀疏性。然后,为了增强数据的外部联系和内在分布,利用中心点链接学习得到的全局信息来指导伪标签学习过程中稀疏对角图的嵌入,从而保持数据的内在结构与伪标签之间的一致性,以及外部连续性与伪标签之间的一致性。此外,通过构建中心点链接图和稀疏对角嵌入图形成双重图结构,保留了数据的空间流形结构。最后,通过结合双重图学习和最大化类间散布矩阵与迹比的思想,构建了一个新的FS框架,以提高选定特征的可区分性。为了更好地嵌入中心点对数据的影响并在迭代更新过程中减少损失,提出了一种改进的优化更新算法,从而获得更好的特征变换矩阵。
本文的其余内容如下:第二部分是相关工作。第三部分详细介绍了CPLDE,包括更新方法、计算复杂性和收敛性。第四部分是比较CPLDE与不同算法的实验、CPLDE对参数的敏感性实验以及收敛性实验。第五部分是总结。
相关工作
相关工作
特征选择(FS)有不同的分类方法。根据类标签的使用情况,FS通常分为三种类型:半监督[11]、无监督[12]和监督[13]。监督方法需要使用数据中的标签。相比之下,半监督方法不需要所有标签信息,但需要提供一些类标签[14]。无监督方法不需要标签信息。在现实生活中,并非所有数据都被标记。由于
提出的方法
本文解决了忽略数据的内在分布和数据之间外部联系的问题。为了提高FS模型的可区分性,提出了CPLDE。FS框架如图1所示。
在图1中,使用中心点链接图来保留数据之间的外部联系,这些联系由中心点生成。利用稀疏动态对角嵌入来保留数据的低冗余内在分布
实验
通过将CPLDE与7种算法进行比较实验,验证了其优越性。首先介绍所使用的8个数据集和7种比较算法。其次,通过参数敏感性实验证明CPLDE对参数变化的不敏感性。最后,通过收敛性实验可视化CPLDE的收敛过程。
结论
本文提出了一种新的UFS算法CPLDE。为了保留数据之间更完整的外部联系,CPLDE构建了一个中心点矩阵,并建立了中心点与数据之间的联系。考虑到在构建子空间过程中数据的分布可能会发生变化,为了更准确地保留数据的内在分布,CPLDE构建了动态对角图。为了确保相似信息的低冗余性,CPLDE应用了l2,1-范数约束
CRediT作者贡献声明
上荣华:撰写 – 审稿与编辑,概念化。孔家瑞:撰写 – 原始草稿,方法论,数据整理。张伟同:软件实现。李洋洋:监督,概念化。
利益冲突声明
作者声明他们没有已知的竞争性财务利益或个人关系可能会影响本文报告的工作。
致谢
本工作部分得到了国家自然科学基金(项目编号:62176200、12326617、62476209)和陕西省重点研发计划(项目编号:2024CY2-GJHX-18)的支持。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号