通过“仿冒操作”量化干预性因果关系

《SCIENCE ADVANCES》:Quantifying interventional causality by knockoff operation

【字体: 时间:2025年10月03日 来源:SCIENCE ADVANCES 12.5

编辑推荐:

  基因网络推断:基于虚拟干预的条件互信息方法

  在生物学研究中,因果推断是理解复杂生物过程网络机制的关键,然而,这仍然是计算生物学中的一个挑战。为了解决这一问题,我们提出了一种创新的因果标准,称为“敲除条件互信息”(KOCMI),旨在不依赖网络结构先验知识的情况下,准确推断干预性直接因果关系,适用于时间独立数据或时间序列数据。KOCMI通过在变量上执行“敲除”操作,生成其虚拟干预,从而保留原始网络结构。随后,通过估计虚拟干预前后变量分布的变化,来识别变量之间的因果关系。我们证明,从算法角度来看,KOCMI能够量化因果关系,即使在具有循环结构的网络中,也能有效进行推断。理论上,KOCMI与do-因果分析一致,但无需满足其对网络结构的先决条件。KOCMI在基准数据集和真实数据集上展现出优于现有方法的性能。总体而言,KOCMI为推断干预性因果关系提供了一个强大的工具,其理论性得到保证,并通过真实干预数据进行实验验证。

在许多自然科学和工程领域,包括生物学、地球科学、经济学、医学、神经科学和机器学习中,从观察数据中进行因果推断是一个基础性问题。揭示系统的因果图对于理解系统动态及其对环境变化的响应至关重要。在生物系统中,揭示基因调控网络(GRN)或机制对于理解细胞过程具有重要意义,但从观察数据中构建高质量的GRN仍然是计算生物学中的重大挑战。有效识别复杂生物系统中的因果关系可以为调控机制提供更深入的见解,并澄清生物功能,如基因调控、信号传递、代谢通路和疾病进展。具体来说,为特定疾病推导因果调控网络可以揭示其潜在的分子机制,从而实现对精准治疗的定量研究。

随着高通量测序技术的快速发展,许多方法被提出用于推断GRN。这些方法包括基于模型的方法,如布尔网络和贝叶斯网络,基于机器学习的方法,如GENIE3和GRNboost2,基于信息理论的方法,如CLR和ARACNE,以及基于整合的方法,如GENIMS和NIMEFI。然而,许多方法基于线性或树状模型,难以推广到更全面的非线性框架中,且由这些方法推断出的GRN通常是无向网络。此外,大多数方法依赖于相关性和回归分析进行GRN推断,这仍然停留在结构因果模型(SCM)框架的第一层,即关联,而非真正的因果关系。SCM框架的第二层是干预性因果关系。目前的干预性因果推断方法主要基于do-演算,这需要网络结构的先验知识,如后门和前门准则。然而,已知网络结构的前提条件大大限制了它们在真实生物网络中的适用性。此外,许多方法仅适用于推断无环网络,这并不适合现实世界的问题。

为了解决这些问题,我们提出了一种创新的方法,基于分布不变性来识别变量对之间的干预性直接因果关系,即KOCMI。该方法不依赖网络结构的先验知识,适用于时间独立数据或时间序列数据。KOCMI通过在变量上执行敲除操作,生成其敲除变量作为虚拟干预,从而保持原始网络结构不变。然后,通过估计虚拟干预前后变量分布的变化来识别因果关系。我们展示了KOCMI在多个基准数据集和真实数据集上的优越性能,与现有方法相比。KOCMI不仅在理论上有保障,而且在实验中也得到了验证,证明了其在推断干预性因果关系方面的有效性。

KOCMI与传统的敲除框架有所不同,其推断目标在于控制每个直接边的FDR(错误发现率)。传统的敲除框架在节点层面控制FDR,用于特征选择,而KOCMI则在边层面控制FDR,即针对每个有向边进行推断。尽管KOCMI可以扩展到系统地评估所有变量对以重建整个因果网络,但其主要的理论基础和统计保证集中在边层面的推断上。此外,KOCMI在低维场景中(如仅有两个或三个节点)依然有效,而传统的敲除过滤方法在这些情况下可能会失去统计效力。这使得KOCMI能够广泛应用于各种场景,无论数据维度高低。

KOCMI的有效性已在多个基准数据集和真实数据集上得到验证。例如,在合成网络IRMA数据集和E. coli的SOS DNA修复网络中,KOCMI展现出比其他方法更高的性能。在人类HeLa细胞数据集中,KOCMI也表现出卓越的性能。这些实验表明,KOCMI在推断因果关系方面具有显著的优势,能够准确识别真实的调控关系,而其他方法则在某些情况下表现不佳。KOCMI不仅适用于无环网络,还能处理包含循环结构的网络,这使其在复杂生物系统中具有更广泛的应用前景。

KOCMI在生物学中的应用也展示了其在疾病基因识别方面的潜力。通过虚拟干预推断出的因果关系与真实干预数据一致,这表明KOCMI能够准确捕捉生物系统中的因果关系。此外,KOCMI还被用于分析糖尿病患者在Roux-en-Y胃旁路手术后的恢复过程,通过识别与临床指标相关的蛋白质,揭示了糖尿病相关的调控机制。这些应用不仅验证了KOCMI在推断干预性因果关系方面的有效性,还展示了其在实际生物研究中的重要价值。

在理论上,KOCMI基于敲除理论,能够在不依赖网络结构的前提下推断出干预性分布。通过比较干预后的变量分布与原始变量分布,KOCMI能够判断是否存在因果关系。这一理论基础与do-演算一致,但无需满足其对网络结构的先决条件,从而使得KOCMI具有更广泛的应用范围。此外,KOCMI能够处理包含循环结构的网络,而许多传统方法则局限于无环网络的假设。

KOCMI的框架包括以下几个步骤:首先,生成变量的敲除变量,确保其与原变量具有相同的分布,并保持与其他变量的关联性,除了目标变量。然后,估计目标变量在原始变量和敲除变量条件下的分布变化。如果分布发生变化,则表明存在因果关系;如果分布保持不变,则不存在因果关系。通过这种分布不变性的判断,KOCMI能够有效地识别干预性直接因果关系。

KOCMI在实际应用中表现出色,尤其是在处理大规模数据集时。它能够准确识别真实的调控关系,并在多种数据类型中保持高效率。此外,KOCMI的计算框架基于非参数方法,适用于高维数据。通过比较不同变量对的因果关系,KOCMI能够系统地推断整个因果网络。这一方法不仅适用于时间独立数据,也适用于时间序列数据,具有较强的通用性。

KOCMI的实现方法基于对变量进行多次敲除操作,并使用排列检验来评估因果关系的显著性。通过计算原变量与目标变量之间的条件互信息(CMI)和敲除变量与目标变量之间的条件互信息,KOCMI能够量化因果关系的强度。这一过程不仅考虑了变量之间的直接关系,还考虑了其他变量的影响,从而提高了因果推断的准确性。

KOCMI的理论基础基于分布不变性,即如果干预后的变量分布发生变化,则说明存在因果关系。通过比较干预后的分布与原始分布,KOCMI能够判断是否存在因果关系。这一方法不仅适用于简单的因果推断,还能够处理复杂的生物网络。此外,KOCMI在处理具有循环结构的网络时表现出色,这使其在实际应用中具有更强的适应性。

在实际应用中,KOCMI的性能得到了验证。在多个基准数据集和真实数据集上,KOCMI展现出比其他方法更高的准确性。此外,KOCMI在处理生物数据时能够识别关键基因,这为疾病治疗提供了新的思路。通过分析这些关键基因的调控网络,KOCMI能够揭示生物系统中的关键调控机制,从而为生物医学研究提供新的工具。

KOCMI的实现过程包括生成多个敲除变量,计算这些变量与目标变量之间的条件互信息,以及通过排列检验来评估因果关系的显著性。通过这些步骤,KOCMI能够有效地识别干预性直接因果关系,并在不同的数据类型中保持高精度。这一方法不仅适用于时间独立数据,也适用于时间序列数据,具有较强的通用性。

KOCMI的理论基础和实际应用表明,它是一种有效的因果推断方法。通过比较干预后的分布与原始分布,KOCMI能够判断是否存在因果关系。这一方法不仅适用于简单的因果推断,还能够处理复杂的生物网络。此外,KOCMI在处理具有循环结构的网络时表现出色,这使其在实际应用中具有更强的适应性。

KOCMI的框架基于分布不变性,即如果干预后的变量分布发生变化,则说明存在因果关系。通过比较干预后的分布与原始分布,KOCMI能够判断是否存在因果关系。这一方法不仅适用于简单的因果推断,还能够处理复杂的生物网络。此外,KOCMI在处理具有循环结构的网络时表现出色,这使其在实际应用中具有更强的适应性。

KOCMI的实现过程包括生成多个敲除变量,计算这些变量与目标变量之间的条件互信息,以及通过排列检验来评估因果关系的显著性。通过这些步骤,KOCMI能够有效地识别干预性直接因果关系,并在不同的数据类型中保持高精度。这一方法不仅适用于时间独立数据,也适用于时间序列数据,具有较强的通用性。

KOCMI的理论基础和实际应用表明,它是一种有效的因果推断方法。通过比较干预后的分布与原始分布,KOCMI能够判断是否存在因果关系。这一方法不仅适用于简单的因果推断,还能够处理复杂的生物网络。此外,KOCMI在处理具有循环结构的网络时表现出色,这使其在实际应用中具有更强的适应性。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号