VCR-imputer:考虑变量因果关系的离散数据插补方法

《Expert Systems with Applications》:VCR-imputer: Discrete Data Imputation Considering Variable Causal Relationships

【字体: 时间:2025年08月07日 来源:Expert Systems with Applications 7.5

编辑推荐:

  针对离散数据缺失问题导致因果推断偏差,提出VCR-imputer方法,通过两阶段流程整合因果结构学习和大语言模型知识,有效消除伪依赖并提升填补精度,实验验证其在多场景下的优越性。

  
熊宇涵|马莉|朱晓敏|李雄
中山大学系统科学与工程学院,广州,510000,中国

摘要

因果结构学习是理解变量之间因果关系的重要工具。然而,处理离散观测数据时常面临数据缺失的挑战。现有的插补方法由于离散数据的强相关性和有限值域而失效,这会引入虚假的依赖关系。为了解决这个问题,本文提出了一种新的离散缺失数据插补方法——VCR-插补器(Variable Causal Relationships Imputer),该方法利用变量之间的因果关系进行插补。该框架分为两个阶段:(1)数据预插补,构建初始的因果框架;(2)数据重插补,利用因果特征和大型语言模型知识优化邻域。通过将此插补算法应用于不同的因果结构学习算法进行分析,实验结果表明该方法优于其他方法,并适用于多种因果结构学习算法。

引言

通过阐明不同变量之间的潜在因果关系,可以量化它们的因果效应并评估各种干预措施的有效性。传统的识别变量间因果关系的方法依赖于随机对照试验或现实世界中的直接干预。幸运的是,统计和人工智能技术的发展为从观测数据中学习因果结构提供了新的途径。
因果结构学习广泛应用于公共问题(Constantinou, Kitson, Liu, Chobtham, Amirkhizi, Nanavati, Mbuvha, Petrungaro, 2023; Karimi Dehkordi, Sattari, Lefsrud, 2025)、生物医学(Decruyenaere, Steen, Colpaert, Benoit, Decruyenaere, Vansteelandt, 2020; Tao, Chi, Chen, Ban, Tu, Gao, Wang, 2025; Yang, Gao, Qin, Wu, Sun, Zhang, 2025)、金融科技(Fukuyama, Tsionas, Tan, 2024; Liu, Tang, Zhao, 2025)以及工业制造(Dou, He, Zhang, Zhang, & Zheng, 2025)等领域。然而,大多数现有研究假设观测数据是连续的,忽略了现实世界数据的离散性。此外,现有的方法(包括基于约束的(Kalisch, Bühlmann, et al., 2007; Qi, Fan, Wang, Lin, Gao, 2021)、基于得分的(Chickering, 2003; Yan, Gao, Wang, Wang, Liu, 2025)和基于梯度的(Jiang, Shen, Zhao, Guan, Yu, Fu, 2025; Ng, Zhu, Chen, & Fang)方法)在很大程度上忽视了数据缺失的影响。在工业制造和医疗保健等领域,数据缺失现象尤为普遍(Kantardzic & Zurada, 2005),这一疏忽亟需对因果学习中数据缺失和离散性的影响进行批判性研究。
在数据缺失的情况下,数据集中的某些值可能因设备故障或收集过程中的遗漏而部分或完全丢失。如果缺失数据量较少,通常可以通过列表删除(Tu et al., 2019)来保证数据完整性。但当缺失率超过一定程度时,数据删除可能会引入偏差并扭曲数据分布和结构(Wang, Yuan, Chen, Shen, & Wu, 2019)。因此,为了减轻数据缺失的影响,数据插补技术被用来处理缺失值问题。这种称为数据插补的方法已成为解决缺失数据问题的主流方法。
现有的插补技术在应用于因果学习中的离散数据时常常失效。传统的插补方法依赖于相关性,将虚假的依赖关系传播到因果图中。离散数据的固有局限性(如值域受限和高度相关性)加剧了这一问题,尤其是在变量维度较多时。因此,传统的基于距离的度量方法难以准确评估变量之间的关系,从而阻碍了高质量领域变量的选择。在数据插补过程中,错误选择邻居变量可能导致错误的结果,进而在因果结构学习阶段引入错误的因果关系。在插补离散数据集中的缺失值时,必须考虑变量间的因果依赖关系,以确保插补过程的准确性和有效性。
本文介绍了一种名为VCR-插补器(Variable Causal Relationships Imputer)的数据预处理方法,该方法通过考虑变量间的因果关系来插补缺失的离散数据。它在插补过程中使用随机条件独立性测试(RCIT)识别因果关系,利用大型语言模型(LLM)知识解决模糊的依赖关系,并通过因果特征选择优化插补结果。
我们的主要贡献有三个方面:首先,我们提出了一个两阶段的插补框架(VCR-插补器),将因果结构学习独特地整合到缺失数据处理中;其次,我们通过结合LLM衍生的领域知识来解决模糊的因果关系;第三,我们在多种数据集上进行了广泛实验,以评估所提算法的效率和其与各种全局因果结构学习算法的兼容性。
本文的其余部分安排如下:第2节综述了有关缺失数据和离散数据的因果发现的相关工作;第3节阐述了我们的问题、符号和方法论,包括因果忠实性假设;第4节详细介绍了VCR-插补器的技术流程(预插补和重插补);第5节展示了在合成数据和真实数据上的实验结果,证明了我们框架优于基线方法;最后,第6节总结了研究并讨论了未来的工作方向。

相关研究

相关工作

我们回顾并总结了关于缺失数据和离散变量因果发现的相关研究,如表1所示。

问题、符号和方法论

本节介绍了因果结构学习中数据缺失所带来的挑战,介绍了研究中使用的符号,并概述了所采用的方法论。

技术实现

为了更好地理解数据插补方法的技术实现,本文详细描述了这一过程的细节。

实验

在本节中,我们使用三种因果发现算法作为基线,将提出的插补算法与其他方法进行基准测试,以验证其效率。
实验分为两部分:真实数据集和合成数据集。首先使用真实数据集验证算法的效率,然后在合成数据集上进行验证。在合成数据集实验中,由于缺乏变量的背景信息,我们没有使用LLM的知识。

结论

本研究提出了一种用于离散数据因果学习的新型插补方法VCR-插补器。该方法通过两阶段过程实现:使用RCIT计算观测数据之间的条件独立性;当显著性指标接近临界值时,引入大型语言模型来帮助识别和验证因果关系。我们的方法解决了离散数据中的缺失值问题,将观测数据与大型语言模型知识相结合。

未引用的参考文献

未引用图1以及算法1和算法2。

CRediT作者贡献声明

熊宇涵:概念化、方法论、软件设计、形式分析、研究调查、初稿撰写、审稿与编辑。马莉:方法论、审稿。朱晓敏:验证、项目管理、审稿。李雄:形式分析、项目管理、验证、监督、审稿与编辑。

利益冲突声明

作者声明他们没有已知的财务利益冲突或个人关系可能影响本文的研究结果。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号