高维线性回归中隐藏混杂因素的解耦与去偏估计方法及其在组学数据分析中的应用

【字体: 时间:2025年07月15日 来源:Bioinformatics 4.4

编辑推荐:

  针对高维观测数据中隐藏混杂因素导致的因果效应估计偏差问题,研究人员提出了一种基于谱变换和KKT条件逆推的两步估计方法。该方法通过谱降维消除混杂效应,结合凸优化程序校正?1惩罚偏差,在DNA甲基化数据分析中成功揭示了脑脊液tau蛋白与阿尔茨海默病严重程度的显著关联(E-value=1.9262),为高维生物医学数据因果推断提供了新工具。

  

在生物医学研究中,观测性数据常因隐藏混杂因素(hidden confounders)导致因果推断偏差,这一挑战在高维组学数据分析中尤为突出。传统方法如回归调整、倾向性评分等仅能控制已知混杂因素,而现有高维回归方法(如lasso)又无法有效处理未观测的混杂变量。更棘手的是,当变量间存在固有相关性时,基于稀疏精度矩阵假设的现有去偏方法(如Guo et al. 2022提出的DDL)可能失效——正如ADNI数据库的DNA甲基化数据所示,其样本精度矩阵(如图3所示)呈现明显的非稀疏特征。

针对这一双重难题,复旦大学公共卫生学院生物统计学系(Department of Biostatistics, School of Public Health, Fudan University)的李昭阳、刘亚航等研究人员在《Bioinformatics》发表创新方法。研究团队通过谱变换矩阵Q(如公式2定义)压缩设计矩阵X的领先奇异值,将扰动项‖Xb‖2降至可忽略水平(图1-2直观展示奇异值分布),

随后通过求解凸优化程序(公式8)构造近似逆协方差矩阵Θ?,最终获得解耦去偏估计量β?(算法1)。该方法突破性地免除了对精度矩阵稀疏性的依赖,且无需预先知道混杂因素数量。

关键技术包括:1)基于ADNI数据库的313例样本队列,预处理865860个CpG位点的DNA甲基化数据;2)谱变换降维(ρ=0.5)结合加权?1惩罚回归获得初始估计;3)通过KKT条件逆推和矩阵优化(μ=0.5√(log p)/n)实现偏差校正。

主要研究结果体现在:

Deconfounded and debiased estimation

在模拟研究中,当协变量相关性?=0.5(非稀疏精度矩阵)且n=500、p=1000时,新方法的估计偏差(BIAS=-0.0211)显著低于传统去偏lasso(DL)的-0.1862,均方误差(RMSE=0.0766)比DDL方法降低16.3%。即使在无隐藏混杂的情境下(表3),新方法仍保持最优偏差控制性能。

Real data application

应用于ADNI数据集时,新方法测得CSF-tau对ADAS-11评分的影响系数为0.2938(95%CI:0.2494-0.3488),较DDL方法(0.2890)更精确且置信区间更窄。这一发现印证了tau蛋白异常磷酸化通过破坏神经元微管稳定性(Braak et al. 2011)加剧AD病理进程的假说。

该研究的突破性在于:首先,谱变换步骤通过压缩领先奇异值(如图1中前3个异常值)有效消除混杂偏差,且无需预先知道q=3个隐藏混杂因素;其次,优化程序构建的Θ?规避了节点回归对稀疏性的依赖,更适应生物医学数据固有相关性。正如讨论部分指出,该方法可拓展至生存分析(Cox模型)和分位数回归等场景,但非线性模型中的谱变换可行性仍需探索。这些创新为高维生物标志物研究提供了更可靠的因果推断框架,尤其适用于AD等复杂疾病的组学数据分析。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号