动态广义多尺度区间值有序数据的最佳尺度组合选择

《The Knee》:Optimal scale combination selection for dynamic generalized multi-scale interval-valued ordered data

【字体: 时间:2025年10月28日 来源:The Knee 1.6

编辑推荐:

  多尺度区间值有序决策系统研究提出阈值自适应支配关系和区间值支配条件熵不变性准则,设计增量更新机制实现动态优化,实验验证分类精度提升0.91%且运行时间减少67.6%。

  在数据处理和知识发现的领域中,随着数据类型的多样化以及数据量的持续增长,传统的方法已经难以满足实际需求。特别是当数据包含区间值、有序关系等复杂特征时,如何高效地分析这些数据并提取有价值的知识,成为了一个重要的研究方向。本文提出了一种面向广义多尺度区间值有序决策系统的知识获取框架,旨在解决现有方法在处理这类数据时存在的局限性。

现有的多尺度区间值有序数据分析方法通常依赖于固定起点的全路径遍历策略,以识别最优尺度组合(Optimal Scale Combinations, OSCs)。这种方法虽然在静态数据环境中表现良好,但在面对动态更新的数据时,却存在显著的计算冗余问题。每次数据更新都需要重新启动整个搜索过程,导致计算效率低下。为了克服这一缺陷,本文构建了一个基于阈值自适应的支配关系知识获取框架,用于广义多尺度区间值有序决策系统(Generalized Multi-scale Interval-valued Ordered Decision Systems, GMIvODSs)。该框架不仅能够有效处理区间值数据,还能够在数据动态变化时保持计算的高效性。

在该框架中,首先通过区间支配度和重叠度构建支配关系,确保在不同尺度之间关系的单调性。这种关系的建立为后续的尺度组合优化提供了理论基础。其次,引入了区间值支配条件熵(Interval-valued Dominance Conditional Entropy, IvDCE)不变性作为尺度组合选择的标准,结合属性重要性指导尺度筛选的顺序。这种方法不仅能够提高知识获取的准确性,还能在动态环境中实现更高效的优化。

为了实现这一目标,本文还设计了一种增量更新机制,能够在不破坏原有结果的前提下,对支配关系矩阵进行局部更新。理论上,我们证明了在样本增量的情况下,最优尺度组合(OSCs)可以部分继承其原有的有序关系,这一性质为动态优化提供了理论支持。基于此,我们提出了一种动态算法,该算法从先前的IvDCE最优尺度组合(IvDCE-OSC)出发,进行定向搜索,从而避免了冗余计算。实验结果表明,该方法在分类准确率上平均比其他尺度组合高出0.91%,并且在增量场景中,相比静态重新计算方法,运行时间平均减少了67.6%。

区间值数据在现实世界中广泛存在,其边界表示能够自然地捕捉测量误差、范围信息和主观不确定性。与传统的单值数据相比,区间值数据保留了原始数据的容错特性,减少了因离散化或单值简化而导致的知识扭曲风险。此外,有序数据在许多应用场景中具有重要意义,例如在推荐系统、排序任务和决策支持系统中,数据通常具有某种偏好结构,需要通过顺序信息系统进行表示。在这些场景中,传统的等价关系已经无法满足需求,因此需要引入更复杂的二元关系,如支配关系、相似关系、模糊相似关系等。

在处理有序数据时,支配关系成为了一个重要的工具。支配关系能够描述一个对象在多个属性上是否优于另一个对象,从而为知识获取和决策提供依据。然而,传统的支配关系模型主要针对集合值数据,对于区间值数据的支持仍然有限。本文通过引入区间支配度和重叠度,构建了一种适用于区间值有序数据的支配关系模型。这一模型不仅能够更准确地描述对象之间的关系,还能够适应不同尺度下的数据变化,为后续的尺度组合优化提供了基础。

在多尺度粗糙集数据分析模型中,Wu和Leung提出的模型是该领域的经典研究。该模型允许同一属性在不同尺度下对对象进行不同的标签,且所有属性具有相同的尺度数量。然而,这一模型在处理属性异构性时存在一定的局限性。2017年,Li和Hu提出了广义多尺度信息/决策系统,允许不同属性具有不同的尺度数量,并通过分解系统为多个单尺度子系统来处理异构性问题。该模型的核心任务是选择一个最优尺度组合,以构建满足特定约束条件的信息/决策系统,从而实现最终的知识获取。由于尺度组合的选择是广义多尺度粗糙集数据分析的关键步骤,因此许多研究者都致力于探索更高效的尺度组合选择方法和属性约简技术。

传统的尺度组合选择方法通常分为两个步骤:首先确定一个尺度组合,然后基于该组合进行属性约简。这种方法虽然逻辑清晰,但在实际应用中往往效率较低,尤其是在数据动态变化的场景下。为了解决这一问题,Cheng等人提出了一种最优尺度约简方法,该方法同时处理尺度组合选择和属性约简,从而提高了整体效率。此外,Wang等人在处理广义多尺度混合决策系统时,融合了不同数据类型的属性值,构建了统一的粒度,并通过正区域和条件熵进行最优尺度约简。然而,这些方法在处理广义多尺度区间值有序数据时仍然存在一定的不足。

信息熵是信息论中的一个重要概念,它用于衡量信息的不确定性。通过计算属性之间的相关性,信息熵为特征选择和重要性评估提供了理论基础。在处理有序数据时,Hu等人将熵扩展到清晰分类和模糊分类中,而Dai等人则针对区间值和不完整系统定义了新的熵度量方法。这些方法在静态环境下具有一定的应用价值,但在动态数据处理中仍然面临挑战。因此,本文提出了一种基于信息熵的动态优化方法,以适应数据的不断变化。

在动态多尺度尺度组合选择的研究中,已有初步进展。然而,现有文献仍存在一些不足。首先,大多数研究集中在集合值信息/决策系统上,而对区间值数据类型的处理尚不充分。其次,许多方法依赖于固定起点的全路径搜索策略,缺乏对尺度组合演化动态的理论解释。此外,虽然三元决策理论在动态数据处理中被广泛应用,但信息熵在动态环境中的应用仍较为有限。因此,本文提出了一种新的动态优化方法,该方法结合了区间值支配条件熵(IvDCE)不变性原理和阈值自适应的支配关系,以实现更高效的尺度组合选择。

本文的结构如下:第二部分回顾了相关的基本概念;第三部分定义了广义多尺度区间值有序决策系统(GMIvODSs)及其相关的区间值支配条件熵(IvDCE);第四部分提出了静态尺度组合选择算法;第五部分构建了增量环境下的支配关系更新机制,并开发了动态尺度组合选择算法;第六部分通过实验验证了所提出方法的有效性;第七部分总结了研究的贡献、局限性以及未来的研究方向。

在定义广义多尺度区间值有序决策系统时,我们首先介绍了区间值有序决策系统(Interval-valued Ordered Decision Systems, IvODSs)的基本概念。IvODSs是一种能够处理区间值和有序关系的决策系统,其中每个属性值为一个区间,并且对象之间的关系由有序结构定义。为了适应不同属性可能具有不同尺度的情况,我们将IvODSs扩展为广义多尺度区间值有序决策系统(GMIvODSs)。在GMIvODSs中,每个属性可以具有不同的尺度数量,从而能够更灵活地处理属性异构性。

在构建支配关系时,我们引入了区间支配度和重叠度的概念。区间支配度用于衡量一个对象在某个属性上是否优于另一个对象,而重叠度则用于衡量两个区间之间的重叠程度。通过结合这两个指标,我们能够更准确地描述对象之间的支配关系。此外,为了确保支配关系在不同尺度之间的单调性,我们设计了一种阈值自适应的更新机制。该机制能够在数据更新时动态调整阈值,从而保持支配关系的一致性和有效性。

在尺度组合选择方面,我们提出了基于区间值支配条件熵(IvDCE)不变性原理的方法。IvDCE是一种衡量信息不确定性的指标,它能够反映在不同尺度下,属性对决策的影响程度。通过保持IvDCE的不变性,我们能够确保在不同尺度组合下,决策知识的稳定性。同时,结合属性重要性,我们能够指导尺度筛选的顺序,从而提高搜索效率。这一方法不仅能够提高分类准确率,还能在动态数据环境中实现更高效的优化。

在增量更新机制的设计中,我们首先构建了一个支配关系矩阵,用于存储对象之间的支配关系。当新的样本被引入时,我们采用局部更新策略,仅对受影响的部分进行更新,而不是重新计算整个矩阵。这种策略能够显著减少计算量,提高算法的运行效率。同时,我们证明了在样本增量的情况下,最优尺度组合(OSCs)可以部分继承其原有的有序关系,从而确保知识获取的连续性和稳定性。

实验部分采用了12个来自UCI数据库的数据集,用于验证所提出方法的有效性。这些数据集涵盖了多种类型,包括区间值数据和有序数据,能够全面评估算法在不同场景下的表现。实验结果表明,所提出的IvDCE-OSC方法在分类准确率上平均比其他尺度组合高出0.91%,并且在增量场景中,相比静态重新计算方法,运行时间平均减少了67.6%。这一结果充分证明了所提出方法在处理动态数据时的优越性。

在本文的研究中,我们还探讨了其他相关领域的研究进展。例如,在信息熵的应用方面,近年来的研究表明,信息熵不仅能够用于静态数据处理,还能够通过适当的扩展应用于动态环境。此外,在多尺度数据处理中,一些研究者尝试将信息熵与条件概率相结合,以实现更高效的尺度组合选择。这些方法为本文的研究提供了理论支持和实践指导。

本文的创新点主要体现在三个方面:首先,构建了一个基于阈值自适应的支配关系框架,用于广义多尺度区间值有序决策系统(GMIvODSs);其次,提出了一种基于区间值支配条件熵(IvDCE)不变性原理的尺度组合选择方法,结合属性重要性指导尺度筛选顺序;最后,设计了一种增量更新机制,能够在不破坏原有结果的前提下,对支配关系矩阵进行局部更新,从而实现高效的动态优化。

在实验分析中,我们采用了一系列评价指标,包括分类准确率、运行时间和计算复杂度。这些指标能够全面评估所提出方法在不同场景下的表现。实验结果表明,IvDCE-OSC方法在分类准确率上具有显著优势,同时在运行时间和计算复杂度上也表现出更高的效率。这表明,该方法不仅能够提高知识获取的准确性,还能有效应对数据的动态变化。

本文的研究具有重要的实际意义。在许多现实应用中,数据往往具有复杂的结构和动态变化的特性。例如,在金融风险评估、医疗诊断和推荐系统中,数据可能包含区间值和有序关系,这些特性使得传统的数据处理方法难以满足需求。因此,本文提出的方法能够为这些领域提供更有效的解决方案。

此外,本文的研究也为后续的理论探索和实际应用提供了新的思路。例如,在构建支配关系时,可以进一步考虑不同的数据分布和特征,以提高模型的适应性和鲁棒性。在尺度组合选择方面,可以结合更多的信息理论指标,如互信息和条件熵,以实现更全面的优化。在增量更新机制的设计中,可以引入更复杂的优化策略,如基于梯度下降的局部更新方法,以进一步提高计算效率。

综上所述,本文提出了一种面向广义多尺度区间值有序决策系统的知识获取框架,解决了现有方法在处理动态数据时存在的计算冗余问题。通过引入阈值自适应的支配关系和区间值支配条件熵(IvDCE)不变性原理,我们实现了更高效的尺度组合选择和属性约简。实验结果表明,该方法在分类准确率和运行效率上均优于现有方法,具有广泛的应用前景。未来的研究可以进一步探索该方法在其他复杂数据类型中的应用,以及如何结合更多的信息理论指标,以实现更全面的知识获取。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号