基于空间信息矩阵正态模型的基因共表达分析新方法spMOCA揭示组织微环境中的基因调控网络

《Nucleic Acids Research》:A spatially informed matrix normal model for gene co-expression analysis in spatial transcriptomics studies

【字体: 时间:2025年12月11日 来源:Nucleic Acids Research 13.1

编辑推荐:

  本研究针对空间转录组学数据中基因共表达网络推断时难以区分真实生物学相互作用与空间邻近效应的问题,开发了spMOCA(空间信息矩阵正态模型)。该方法通过联合建模基因-基因协方差和空间协方差,在九大数据集上验证显示其能更准确识别转录因子靶基因,在肿瘤数据中发现与肿瘤发生和免疫相关的基因模块,在衰老大脑中捕捉神经退行性变的动态共表达变化,为理解组织微环境中基因协同作用提供了新工具。

  
随着空间转录组学技术的飞速发展,研究人员现在能够在保留空间背景的同时对组织不同位置的基因表达进行精准分析。这一突破性技术为理解基因在组织微环境中如何协同工作提供了前所未有的机会。基因共表达分析作为解析基因相互作用的关键工具,在传统转录组研究中已取得重要成果,如发现免疫反应和神经退行性疾病中的功能基因模块。然而,这些分析缺乏空间背景——批量RNA测序 homogenizes 组织样本,而单细胞RNA测序在测序前将细胞从其原生环境中分离,都无法捕捉空间组织对基因表达的影响。
在真实组织中,基因表达不仅受基因间调控相互作用的支配,还受到组织内空间结构化因素(如组织结构和微环境影响)的显著影响。例如,在癌症研究中,免疫细胞中的协调基因表达随其与癌细胞的空间 proximity 而变化,影响肿瘤进展和治疗反应。在大脑中,基因共表达模式受皮质和皮质下结构间空间依赖性的影响,塑造神经元功能和环路组织。这些研究充分表明,基因共表达模式不仅由调控机制驱动,还受空间组织的影响,因此在推断共表达网络时纳入空间依赖性至关重要。
尽管空间转录组学技术具有巨大潜力,当前用于推断基因共表达网络的方法仍存在明显局限。广泛使用的方法如Pearson相关或为单细胞数据开发的CSCORE等,在估计基因-基因相关性时未考虑空间组织。少数专门为空间转录组学设计的方法,如SpaceX和Giotto,试图通过加性框架调整空间效应或跨邻近位置平滑表达值来纳入空间信息,但这些方法都存在缺陷。平滑方法可能产生过平滑偏倚,过度空间平均会掩盖局部基因表达变异并引入人为相关性;而加性框架假设空间效应和基因依赖性独立作用,无法捕捉它们的相互作用,可能误导共表达网络推断。
这一方法学空白凸显了开发能够显式建模空间和基因依赖性相互作用的新方法的迫切需求。正如在微阵列基因共表达分析中,忽略情境依赖性(如实验条件或组织类型)会导致生物学上误导性结论,在空间转录组学中,如果空间依赖性未得到适当处理,推断的共表达模式可能受空间依赖性的影响而掩盖真实的基因间生物学相互作用。基因-基因相关性估计可能因共享组织结构而膨胀(基因仅因空间共定位而显得共表达),或因空间依赖性掩盖真实基因-基因关系而失真。
为解决这一挑战,研究人员开发了spMOCA(空间信息矩阵正态模型用于基因共表达分析),一个用于从空间转录组学数据推断基因共表达网络的统计框架。与现有方法不同,spMOCA利用矩阵正态分布,同时考虑基因-基因协方差和跨组织位置的空间协方差,从而能够区分内在共表达关系与空间诱导模式。这种联合建模方法确保推断的基因网络反映真实的生物学相互作用而非空间邻近的伪影。
在技术方法上,研究人员首先通过综合模拟评估spMOCA性能,设计了基因-空间交互依赖性和加性依赖性两种模拟场景,并设置不同空间依赖强度。使用均方根误差、中位数绝对偏差、Pearson相关系数、RV系数和调整兰德指数等指标评估基因-基因相关性估计准确性。在真实数据分析中,处理了九大空间转录组学数据集,包括四种癌症的10X Visium数据、三个年龄点的鼠脑10X Visium数据以及人和鼠脑皮层的MERFISH数据。数据分析流程包括基因共表达估计、基因模块检测、hub基因识别、模块评分计算、基因集富集分析、细胞类型反卷积等。关键算法基于矩阵正态分布和最大似然估计框架,使用高斯核函数建模空间依赖性,通过WGCNA进行基因模块检测,利用MsigDB进行通路富集分析,并整合TCGA数据评估临床相关性。
Simulation study
通过全面模拟评估显示,在基因-空间交互依赖性场景下,spMOCA在所有五种评估指标上均优于其他方法,无论空间依赖性强弱。spMOCA估计的基因-基因相关性与真实值的相关性最高,均值PCC在弱、中、强依赖性下分别为0.932、0.927和0.930,显著高于Pearson相关、SpaceX、Giotto和CSCORE。其他评估指标如RV系数、RMSE和MAD也一致表明spMOCA的估计更准确。在基因模块检测方面,spMOCA同样表现最优,均值ARI得分在弱、中、强依赖性下分别为0.584、0.62和0.696。热图可视化进一步证实spMOCA在不同空间依赖性水平下均能准确捕捉基因-基因相关模式。即使在无基因-基因相关性的模拟场景中,spMOCA也表现出更准确的相关性估计和更少的错误非零相关。
在基因-空间加性依赖性场景下,spMOCA尽管释放了基因-空间交互假设,仍在一系列评估指标中保持顶级性能。当使用真实带宽和估计带宽时,spMOCA的PCC和RV系数均显著高于其他方法,且在基因模块检测中取得最高ARI得分。重要的是,spMOCA在相关性估计稳定性方面表现优异,在无真实基因-基因相关性场景中产生的错误非零相关最少。这些结果凸显了spMOCA在准确估计基因-基因相关性和识别基因模块方面的优越性能,以及对带宽选择的稳健性。
10X visium cancer data
在10X Visium癌症数据分析中,spMOCA在恢复已知转录因子-靶基因关系方面表现最佳。与CSCORE、Giotto和Pearson相比,spMOCA在大多数肿瘤特异性转录因子中实现了最高的TF-TG恢复率,特别是在排名最前的靶基因中。例如,致癌转录因子ETS1在除LUSC外的所有肿瘤数据集中,spMOCA分析均显示出最高数量的已知靶基因恢复。
基因模块检测分析显示,spMOCA的基因共表达网络产生了更明显、更分离的基因模块。在OVCA数据集中,spMOCA显示出最高的模块间变异和最低的Davies-Bouldin指数,表明其检测的基因模块彼此区分更清晰。类似的高模块间变异和低Davies-Bouldin指数模式在其他癌症数据集中也观察到。基因集分析进一步证实,spMOCA的模块在功能上更具差异性,模块间通路重叠更少。
跨肿瘤分析发现,spMOCA识别的基因模块在不同癌症类型间共享相似通路。具体而言,第一个模块簇(BRCA Mod1、CRC Mod1、LUSC Mod1和OVCA Mod1)与肿瘤发生相关通路强烈相关,如角蛋白丝和质膜组成相关通路,以及MEL18和P53等致癌特征。关键hub基因如ERBB2、EPCAM、TP63和MUC16在恶性细胞增殖中起关键作用。第二个模块簇(BRCA Mod4、CRC Mod2、LUSC Mod2和OVCA Mod3)富集于免疫相关通路,如抗原加工和呈递以及免疫系统激活。关键hub基因包括CD68、CD74和TIMP1,在免疫-癌细胞相互作用和肿瘤发生抑制中起关键作用。
空间分布分析显示,肿瘤发生相关和免疫相关模块评分在组织内呈现明显不同的空间分布模式。在BRCA中,免疫相关模块评分在免疫细胞区域显著更高,而肿瘤发生相关模块评分在浸润癌区域显著更高。这些模块评分与特定细胞类型比例高度相关,进一步验证了其生物学相关性。
临床相关性分析发现,spMOCA的肿瘤发生相关模块hub基因与TCGA预后基因重叠最多,共发现66个这样的基因。特定预后基因如HSPD1被识别为spMOCA在所有四种癌症类型中的hub基因,扩展了其预后价值。类似地,免疫相关模块hub基因也与多种癌症的预后基因重叠,如PSAP在卵巢癌、乳腺癌和非小细胞肺癌中显示预后价值。
10X visium aging mouse brain data
在10X Visium衰老鼠脑数据分析中,spMOCA再次在恢复已知TF-TG关系方面表现优异。对于Neurod1,spMOCA在6月龄鼠数据中显示出最高的已知靶基因恢复率。基因模块检测显示,spMOCA的模块在6月龄鼠中具有最高的模块间变异,在18月龄和21月龄鼠中也保持高模块间变异和低Davies-Bouldin指数。功能分析显示,spMOCA的模块在衰老相关通路上保持高度分离。
通过分析网络度变化,研究人员识别了top度可变基因,这些基因与细胞衰老、功能障碍以及阿尔茨海默病、动脉粥样硬化、中风和自闭症谱系障碍等神经疾病通路相关。基因-基因相关性变化分析揭示了四种不同的共表达趋势模式:上-上、上-下、下-上和下-下。上-上基因对(如Apoe-C4b、Clu-Mt1和Cst3-Mt1)显示随年龄增长共表达增强,可能反映鼠脑中衰老相关神经退行性过程的协调反应。Apoe-C4b对的共表达稳步增加,与其在胼胝体区域表达模式的增长重叠一致。Apoe的邻近基因如Cst3和Clu在不同年龄点保持持续共表达,可能反映衰老相关脑过程中保守的调控网络。
相比之下,下-下基因对(如Ndrg2-Sparc和Ndrg2-Ttyb1)显示随年龄增长共表达下降,表明衰老大脑中神经调控功能逐渐恶化。Ndrg2-Ttyb1对的共表达稳步下降,其表达模式随时间变得越来越 distinct,可能由于细胞类型变化、基因调控改变或衰老相关神经元丢失。
Mouse and human MERFISH brain cortex data
在MERFISH跨物种基因共表达分析中,spMOCA在人类数据中再次显示优异的TF-TG关系恢复能力,对FOXO1和REST等脑特异性转录因子实现最高恢复率。基因模块检测显示,在人类和鼠数据中,spMOCA的基因模块分离度均优于其他方法。
通过计算细胞类型水平模块评分,研究人员发现人类和鼠之间存在共享基因模块。例如,Human Mod3(在内皮细胞和壁细胞中评分高)和Mouse Mod2(在壁细胞和血管平滑肌细胞中评分高)均与内皮细胞类型特异性通路显著相关,共享KCNJ8和TRPC6等基因。类似地,Human Mod2和Mouse Mod4均在少突胶质细胞中评分高,与少突胶质细胞分化通路相关,共享SOX10、OPALIN和ENPP6等基因。空间映射显示这些模块评分分布与相应细胞类型分布一致。
研究结论表明,spMOCA通过矩阵正态模型同时考虑空间和基因依赖性,为空间转录组学研究提供了准确的基因共表达推断工具。综合模拟证明其在交互和加性基因-空间依赖性场景下均能提供更准确的基因-基因相关性估计。在真实数据应用中,spMOCA衍生的基因共表达网络在测序基础和成像基础空间转录组学平台上均提供生物学相关见解,成功识别与不同生物通路显著相关的独特基因模块。
讨论部分强调,spMOCA识别的基因模块展示出不同的空间表达模式,肿瘤发生相关和免疫相关模块评分与其各自功能区域密切对应,提示基因共表达网络可能有助于改进空间域检测。未来发展方向包括探索替代核函数以捕捉不同的空间相关模式,以及将spMOCA扩展为混合模型,允许无监督推断区域特异性基因共表达网络而无需预定义空间域。
该研究的重要意义在于首次提供了一种能够显式建模空间和基因依赖性相互作用的基因共表达分析方法,解决了空间转录组学数据分析中的关键方法学挑战。通过准确区分真实生物学相互作用与空间邻近效应,spMOCA为理解组织微环境中基因协同作用机制提供了可靠工具,在癌症生物学、神经退行性疾病研究和发育生物学等领域具有广泛应用前景。该方法的开源实现(R包)也确保了其可访问性和可重复性,有助于推动空间转录组学领域的进一步发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号