
-
生物通官微
陪你抓住生命科技
跳动的脉搏
用于特征选择的自适应超盒粒化方法:具备合理的粒度控制
《IEEE Transactions on Knowledge and Data Engineering》:Adaptive Hyper-Box Granulation With Justifiable Granularity for Feature Selection
【字体: 大 中 小 】 时间:2025年12月03日 来源:IEEE Transactions on Knowledge and Data Engineering 10.4
编辑推荐:
聚类作为数据挖掘和机器学习的基础技术,旨在通过数据内在关系划分有意义群体,但传统方法假设数据为凸超球体且边界清晰不重叠,难以处理现实中的复杂非凸几何。本文提出基于增强粒度表示的超立方格特征选择算法HBFS,通过动态适应数据拓扑的粒度机制量化特征离散度与聚合度,优化特征子空间划分,减少冗余特征干扰。实验在15个公开数据集验证,HBFS在准确率、效率及可解释性上均显著优于传统和前沿方法。
特征选择是模式识别、机器学习和数据挖掘中的关键预处理步骤,其目标是从大型数据集中识别出最具信息量和代表性的特征,以提高模型性能并降低计算成本[1]、[2]、[3]、[4]。通过研究特征之间的统计和信息联系,特征选择在知识发现中发挥着越来越重要的作用[5]、[6]、[7]、[8]。然而,特征选择也带来了一系列挑战,尤其是在处理包含噪声、冗余和不确定性的高维数据时。从这类数据中提取有意义特征的问题迫切需要有效的解决方案[9]、[10]。除了特征数量众多带来的挑战外,数据中的不确定性也是影响模型预测准确性的一个重要因素[11]、[12]。与人类认知不同,计算机往往难以处理现实世界场景中普遍存在的不确定数据。一种有前景的方法是粒度计算(GrC)[13]、[14],这是一种专门用于应对不确定性、模糊性和复杂性的计算范式,它通过将数据分解为不同信息粒度的信息单元来提升传统学习模型的性能[15]、[16]。
生物通微信公众号
知名企业招聘