
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于轨迹推断的动态单细胞孟德尔随机化方法ti-scMR揭示表型差异的因果基因
【字体: 大 中 小 】 时间:2025年07月05日 来源:NAR Genomics and Bioinformatics 4.0
编辑推荐:
本研究针对单细胞差异表达分析无法建立因果关系、传统孟德尔随机化(MR)忽视细胞异质性和动态变化的局限,开发了轨迹推断驱动的动态单细胞孟德尔随机化方法ti-scMR。该方法整合群体基因组与单细胞转录组数据,通过功能主成分分析捕捉基因表达的时序累积效应,结合单细胞表达数量性状位点(sc-eQTL)筛选遗传工具变量,成功鉴定了免疫细胞分化和多发性硬化症相关的关键因果基因,为解析复杂性状的分子机制提供了新范式。
在生命科学领域,基因的选择性表达是细胞和个体表型差异的基础,也是连接基因型与表型的桥梁。虽然单细胞RNA测序(scRNA-seq)技术能揭示不同细胞状态的转录组差异,但传统差异表达分析无法区分相关性与因果关系。另一方面,群体遗传学中的孟德尔随机化(MR)等方法虽能推断因果关系,却忽略了细胞异质性和发育过程中的动态变化。这种"静态"分析方法与生物系统固有的动态特性存在根本矛盾,特别是在免疫细胞分化、神经发育等涉及连续时序变化的过程中。
上海交通大学生物信息学与生物统计学系的研究团队在《NAR Genomics and Bioinformatics》发表研究,提出了基于轨迹推断的动态单细胞孟德尔随机化方法ti-scMR。该方法创新性地整合了单细胞轨迹推断(TI)、功能主成分分析(FPCA)和孟德尔随机化框架,通过分析来自onek1k队列的982例外周血单核细胞和Roche多发性硬化症队列的82例脑组织样本,首次实现了在单细胞分辨率下对时序累积因果效应的量化,发现SOX基因家族、ATP8A2等基因通过Hippo通路影响寡突胶质细胞功能,鉴定出35个调控B细胞分化的关键基因,为免疫相关疾病的机制研究提供了新视角。
研究主要采用四大技术方法:(1)基于slingshot算法的单细胞轨迹重建;(2)采用PACE算法处理稀疏纵向数据,估算基因表达的时序累积效应;(3)开发五种sc-eQTL映射策略比较遗传工具变量筛选效果;(4)结合Lasso正则化的两阶段最小二乘法(2SLS)和两阶段残差包含法(2SRI)进行因果推断。所有分析均使用来自欧洲人群的UK BioBank真实基因型数据验证。
ti-scMR通过FPCA将基因表达量分解为均值函数和主成分函数的线性组合,利用PACE算法处理稀疏观测数据,计算时间累积偏移量作为暴露变量。与传统"伪批量"分析相比,该方法保留细胞发育时序信息,在模拟测试中使因果基因检测功效提升37%。
采用Seurat流程进行质量控制、log归一化和Harmony批次校正。针对Roche多发性硬化症数据集中的寡突胶质细胞,轨迹分析揭示健康对照组呈现线性分化模式,而患者组出现分支化发育异常。
通过FPCA将表达量xi(t)分解为μ(t)+Σξikφk(t),选取解释99%方差的K个主成分重构轨迹。在模拟的四种基因-表型效应模式中,该方法对周期性效应(Y2)的检测灵敏度达92%,显著优于传统均值法。
比较五种策略发现:当细胞沿轨迹分布不均时,时间累积eQTL(cum_eqtl)的精确度达0.83,召回率0.71,优于动态eQTL(dyn_eqtl)的0.52/0.49。QQ图显示交互动态eQTL(int_eqtl)存在严重P值收缩,而时间区间聚合eQTL(agg_eqtl)则出现过度膨胀。
采用Lasso-2SLS处理连续表型,2SRI处理二分类表型。在模拟数据中,当eQTL效应呈正弦变化时,pace_linear_lasso的FDR控制在0.05以下,而传统avg_linear的FDR高达0.21。对B细胞分化轨迹的分析鉴定出IGHG4、CCR2等基因通过V(D)J重组调控浆细胞分化。
在多发性硬化症分析中,发现ATP8A2表达下调通过影响脂质转运参与髓鞘形成,其MR检验P=3.2×10-4。SLC2A3编码的GLUT3葡萄糖转运体与神经免疫交叉对话相关,富集分析显示Hippo通路显著相关(Padj=7.8×10-6)。
该研究开创性地将动态建模引入单细胞因果推断,解决了传统方法无法捕捉时序累积效应的难题。技术层面,开发的PACE-MR框架可扩展至甲基化、蛋白质组等多组学数据;应用层面,鉴定的SOX-ATP8A2-SLC2A3轴为神经免疫疾病提供了新的干预靶点。局限性在于轨迹重建精度受限于样本量,未来可通过整合扰动测序(Perturb-seq)数据优化算法。随着单细胞eQTL联盟(SC-eQTLGen)数据的积累,ti-scMR有望成为解析复杂疾病时空因果关系的标准工具。
生物通微信公众号
知名企业招聘