基于超图生成模型推断基因调控网络:解锁细胞奥秘的新钥匙

【字体: 时间:2025年04月12日 来源:Cell Reports Methods 4.3

编辑推荐:

  推荐阅读:本文介绍的超图变分自编码器(HyperG-VAE),通过超图表示学习,能有效捕捉基因和细胞间潜在关联。该模型在基因调控网络(GRN)推断、单细胞聚类等任务中表现优异,为单细胞 RNA 测序(scRNA-seq)分析和 GRN 构建提供了高效解决方案。

  

一、研究背景与动机

基因调控网络(GRNs)在揭示基因表达调控和细胞功能方面意义重大,其能展现转录因子(TFs)与靶基因之间的复杂相互作用。单细胞 RNA 测序(scRNA-seq)技术的出现,为研究 GRNs 提供了有力手段,但当前从 scRNA-seq 数据推断 GRNs 面临诸多挑战。现有方法在处理细胞异质性和基因模块信息时存在局限,深度学习方法常忽略细胞和基因间内在关系,传统统计算法计算成本高且难以扩展到非线性范式。此外,scRNA-seq 数据存在噪声和不完整性,多组学数据整合也困难重重。为应对这些问题,研究人员提出超图变分自编码器(HyperG-VAE)算法,旨在更准确地推断 GRNs。

二、HyperG-VAE 模型框架

HyperG-VAE 是一种贝叶斯深度生成模型,将 scRNA-seq 数据表示为超图进行处理。在构建超图时,细胞被视为超边,细胞中表达的基因则作为节点。例如,给定 scRNA-seq 表达矩阵为细胞数量,为基因数量),通过 incidence 矩阵编码超图结构,若基因在细胞中表达(),则 。该模型包含细胞编码器和基因编码器。细胞编码器利用结构方程模型(SEM)来识别细胞异质性并构建 GRNs,通过可学习的因果相互作用矩阵实现 GRN 构建,还能以细胞特异性方式捕捉基因调控过程。基因编码器采用超图自注意力机制,用于分析基因模块。由于同一模块内基因在细胞中的表达谱通常一致,该机制能为同一细胞中表达的基因分配合适权重,增强对基因间复杂相互依赖关系的理解和整合能力。最后,超图解码器利用学习到的基因和细胞的潜在嵌入来重建超图的原始拓扑结构,并推断基因调控超图。

三、研究结果

  1. GRNs 预测准确性高:基于 BEELINE 框架,研究人员使用 7 个 scRNA-seq 数据集对 HyperG-VAE 在 GRN 推断方面的性能进行评估。评估采用 EPR(评估前个预测边中真阳性相对于随机预测的富集程度)和 AUPRC(衡量精确召回曲线下面积以考虑类别不平衡)两个指标,并在 4 种不同的真实数据集上进行。结果显示,HyperG-VAE 在 AUPRC 和 EPR 指标上均优于其他 7 种基准方法。在由所有显著变化的 TFs 和 500 个变化最大的基因组成的数据集上,HyperG-VAE 在 44 个评估条件中的 40 个(91%)超过其他基准方法;在由所有显著变化的 TFs 和 1000 个变化最大的基因组成的数据集上,HyperG-VAE 在 44 个基准测试中的 37 个(84%)取得最佳预测性能。此外,研究还发现 HyperG-VAE 在面对有限训练数据时表现出良好的稳健性。
  2. 揭示 B 细胞发育的基因调控模式:研究人员将 HyperG-VAE 应用于骨髓中 B 细胞发育的 scRNA-seq 数据。结果表明,HyperG-VAE 通过降维揭示了细胞嵌入,能清晰区分骨髓 B 细胞发育不同阶段的主要细胞类型,并有效捕捉 B 细胞从早期到成熟阶段的线性发育过程。同时,结合 SCENIC,HyperG-VAE 成功识别出与不同发育阶段相关的关键调控因子,如前 pro-B 阶段的 Runx2、pro-B 阶段的 Ebf1 和 Lef1 等。与 SCENIC 默认设置相比,HyperG-VAE 结合 SCENIC 在检测关键 TFs 的 TF - 靶基因模式时表现更优,且发现 GRNs 存在 TF 共结合共享预测增强子和 TF 特异性靶基因两种调控模式。
  3. 基因表达模块学习提升 GRN 推断能力:HyperG-VAE 通过整合基因空间学习增强了 GRN 预测能力。它能揭示基因表达模块,通过基因集富集分析(GSEA)验证了基因模块注释的准确性。例如,大 pre-B 细胞相关的基因模块与淋巴细胞增殖、细胞激活等信号通路相关;不成熟 B 细胞的基因模块涉及抗原加工和呈递、DNA 损伤反应等通路。这些基因模块与不同的生物学通路相关,影响细胞命运决定,而细胞聚类和基因模块检测相互整合,提高了 GRN 计算的准确性。
  4. 构建 B 细胞发育的细胞类型特异性 GRN:研究发现与不同生物学通路相关的基因模块对应于骨髓 B 细胞发育中的不同细胞类型。基于此,研究人员利用 HyperG-VAE 研究发育 B 细胞的各个状态,构建了特定发育阶段 B 细胞的更准确 GRN。例如,在 pro-B 状态下,Ebf1 和 Pax5 起重要作用;大 pre-B 状态中,Myc 突出;小 pre-B 状态下,Bach2 和 Btg1 关键;成熟状态时,Klf2 和 Ctcf 显著。这些 TFs 及其靶基因构成了不同细胞状态的调控子,有助于构建细胞聚类水平的基因调控超图,并识别出主要的标记基因。
  5. 处理细胞异质性并学习细胞表示:细胞异质性是复杂生物系统的特征,HyperG-VAE 的细胞编码器推断的潜在空间有望捕捉细胞间的生物变异性。研究人员将 HyperG-VAE 应用于阿尔茨海默病(AD)、结直肠癌和小鼠大脑(Zeisel 数据集)等 3 个 scRNA-seq 数据集,并与 6 种其他算法进行比较。结果显示,HyperG-VAE 在细胞聚类性能上优于其他算法,如在 Zeisel 数据集上,其归一化互信息(NMI)达到 83.1%,调整兰德指数(ARI)达到 83.7%。UMAP 可视化结果表明,HyperG-VAE 能有效区分不同细胞状态或类型,且保留了簇内异质性。

四、讨论

HyperG-VAE 利用超图框架表示 scRNA-seq 数据,与传统方法相比,在建模细胞异质性、分析基因模块、捕捉基因相关性以及可视化和解释 GRNs 等方面具有独特优势。它有效整合了基因模块和细胞异质性,在 GRN 推断、细胞类型分类和可视化等任务中表现出色。未来,HyperG-VAE 可通过整合更多组学数据(如单细胞 ChIP-seq)扩展为异质超图 VAE,还可将基因和细胞的元数据纳入模型,进一步优化节点和超边的表示。此外,探索时间 GRNs 的动态构建以及单细胞水平的精细基因共表达超图研究,将有助于更深入地理解单细胞数据集分析。不过,基于自注意力机制的 HyperG-VAE 存在计算复杂度高的问题,未来可通过注意力矩阵稀疏分解等技术优化。总体而言,HyperG-VAE 为 GRN 构建和相关下游研究提供了强大工具,有助于推动对复杂生物系统的理解。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号