通过阐明不同变量之间的潜在因果关系,可以量化它们的因果效应并评估各种干预措施的有效性。传统的识别变量间因果关系的方法依赖于随机对照试验或现实世界中的直接干预。幸运的是,统计和人工智能技术的发展为从观测数据中学习因果结构提供了新的途径。
因果结构学习广泛应用于公共问题(Constantinou, Kitson, Liu, Chobtham, Amirkhizi, Nanavati, Mbuvha, Petrungaro, 2023; Karimi Dehkordi, Sattari, Lefsrud, 2025)、生物医学(Decruyenaere, Steen, Colpaert, Benoit, Decruyenaere, Vansteelandt, 2020; Tao, Chi, Chen, Ban, Tu, Gao, Wang, 2025; Yang, Gao, Qin, Wu, Sun, Zhang, 2025)、金融科技(Fukuyama, Tsionas, Tan, 2024; Liu, Tang, Zhao, 2025)以及工业制造(Dou, He, Zhang, Zhang, & Zheng, 2025)等领域。然而,大多数现有研究假设观测数据是连续的,忽略了现实世界数据的离散性。此外,现有的方法(包括基于约束的(Kalisch, Bühlmann, et al., 2007; Qi, Fan, Wang, Lin, Gao, 2021)、基于得分的(Chickering, 2003; Yan, Gao, Wang, Wang, Liu, 2025)和基于梯度的(Jiang, Shen, Zhao, Guan, Yu, Fu, 2025; Ng, Zhu, Chen, & Fang)方法)在很大程度上忽视了数据缺失的影响。在工业制造和医疗保健等领域,数据缺失现象尤为普遍(Kantardzic & Zurada, 2005),这一疏忽亟需对因果学习中数据缺失和离散性的影响进行批判性研究。
在数据缺失的情况下,数据集中的某些值可能因设备故障或收集过程中的遗漏而部分或完全丢失。如果缺失数据量较少,通常可以通过列表删除(Tu et al., 2019)来保证数据完整性。但当缺失率超过一定程度时,数据删除可能会引入偏差并扭曲数据分布和结构(Wang, Yuan, Chen, Shen, & Wu, 2019)。因此,为了减轻数据缺失的影响,数据插补技术被用来处理缺失值问题。这种称为数据插补的方法已成为解决缺失数据问题的主流方法。
现有的插补技术在应用于因果学习中的离散数据时常常失效。传统的插补方法依赖于相关性,将虚假的依赖关系传播到因果图中。离散数据的固有局限性(如值域受限和高度相关性)加剧了这一问题,尤其是在变量维度较多时。因此,传统的基于距离的度量方法难以准确评估变量之间的关系,从而阻碍了高质量领域变量的选择。在数据插补过程中,错误选择邻居变量可能导致错误的结果,进而在因果结构学习阶段引入错误的因果关系。在插补离散数据集中的缺失值时,必须考虑变量间的因果依赖关系,以确保插补过程的准确性和有效性。
本文介绍了一种名为VCR-插补器(Variable Causal Relationships Imputer)的数据预处理方法,该方法通过考虑变量间的因果关系来插补缺失的离散数据。它在插补过程中使用随机条件独立性测试(RCIT)识别因果关系,利用大型语言模型(LLM)知识解决模糊的依赖关系,并通过因果特征选择优化插补结果。
我们的主要贡献有三个方面:首先,我们提出了一个两阶段的插补框架(VCR-插补器),将因果结构学习独特地整合到缺失数据处理中;其次,我们通过结合LLM衍生的领域知识来解决模糊的因果关系;第三,我们在多种数据集上进行了广泛实验,以评估所提算法的效率和其与各种全局因果结构学习算法的兼容性。
本文的其余部分安排如下:第2节综述了有关缺失数据和离散数据的因果发现的相关工作;第3节阐述了我们的问题、符号和方法论,包括因果忠实性假设;第4节详细介绍了VCR-插补器的技术流程(预插补和重插补);第5节展示了在合成数据和真实数据上的实验结果,证明了我们框架优于基线方法;最后,第6节总结了研究并讨论了未来的工作方向。