用于特征选择的自适应超盒粒化方法:具备合理的粒度控制

《IEEE Transactions on Knowledge and Data Engineering》:Adaptive Hyper-Box Granulation With Justifiable Granularity for Feature Selection

【字体: 时间:2025年12月03日 来源:IEEE Transactions on Knowledge and Data Engineering 10.4

编辑推荐:

  聚类作为数据挖掘和机器学习的基础技术,旨在通过数据内在关系划分有意义群体,但传统方法假设数据为凸超球体且边界清晰不重叠,难以处理现实中的复杂非凸几何。本文提出基于增强粒度表示的超立方格特征选择算法HBFS,通过动态适应数据拓扑的粒度机制量化特征离散度与聚合度,优化特征子空间划分,减少冗余特征干扰。实验在15个公开数据集验证,HBFS在准确率、效率及可解释性上均显著优于传统和前沿方法。

  

摘要:

聚类作为数据挖掘和机器学习中的基本技术,旨在根据数据之间的内在关系将数据划分为有意义的组。然而,传统的聚类算法通常假设数据具有凸超球面几何结构,即聚类具有明确的边界且不相互重叠。相比之下,现实世界的数据往往表现出复杂且非凸的几何形态,这使得这些假设不再适用,从而导致聚类结果不准确,无法捕捉到数据的内在结构。为了解决这一挑战,本文提出了一种基于改进的粒度表示的新颖聚类方法,进一步细化了“合理粒度”的原则。通过引入更精确和灵活的超盒粒度化机制,该方法能够动态适应数据的拓扑结构,从而提高聚类精度。通过定义数据点之间的聚合程度和离散性,量化了特征空间中属性的重要性,进而设计了一种新的超盒特征选择(HBFS)算法。该算法将粒度聚类原理融入特征选择过程,减少了冗余特征和噪声的影响,从而提高了聚类的效率和可解释性。为了验证所提出方法的优越性和有效性,我们在十五个公开可用的数据集上进行了广泛的实验,将HBFS算法的性能与经典和最先进的特征选择方法进行了比较。结果和统计显著性测试表明,HBFS在各种评估指标上显著优于现有的特征选择方法。

引言

特征选择是模式识别、机器学习和数据挖掘中的关键预处理步骤,其目标是从大型数据集中识别出最具信息量和代表性的特征,以提高模型性能并降低计算成本[1]、[2]、[3]、[4]。通过研究特征之间的统计和信息联系,特征选择在知识发现中发挥着越来越重要的作用[5]、[6]、[7]、[8]。然而,特征选择也带来了一系列挑战,尤其是在处理包含噪声、冗余和不确定性的高维数据时。从这类数据中提取有意义特征的问题迫切需要有效的解决方案[9]、[10]。除了特征数量众多带来的挑战外,数据中的不确定性也是影响模型预测准确性的一个重要因素[11]、[12]。与人类认知不同,计算机往往难以处理现实世界场景中普遍存在的不确定数据。一种有前景的方法是粒度计算(GrC)[13]、[14],这是一种专门用于应对不确定性、模糊性和复杂性的计算范式,它通过将数据分解为不同信息粒度的信息单元来提升传统学习模型的性能[15]、[16]。

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号