CellUntangler:基于深度生成模型的单细胞数据生物信号解耦技术

《Cell Genomics》:CellUntangler: Separating distinct biological signals in single-cell data with deep generative models

【字体: 时间:2025年12月02日 来源:Cell Genomics 9

编辑推荐:

  本研究针对单细胞RNA测序(scRNA-seq)数据中多种生物信号相互干扰的难题,开发了CellUntangler深度生成模型。该模型通过构建多子空间潜结构,成功实现了细胞周期、空间分区、分化轨迹等信号的分离与增强,为单细胞多组学数据分析提供了创新工具。实验证明其在包含循环与非循环细胞的复杂数据集中均能有效去卷积生物信号,显著提升下游分析准确性。

  
随着单细胞RNA测序(scRNA-seq)技术的迅猛发展,科研人员得以在单个细胞水平解析基因表达模式,为发育生物学、肿瘤免疫等研究领域带来革命性突破。然而,每个细胞内部往往同时进行着多种生物过程——细胞类型特异性程序、分化轨迹、细胞周期进程以及环境应激响应等信号相互交织,形成复杂的表达图谱。这种多信号共存现象给数据分析带来两大挑战:强信号(如细胞周期)可能掩盖弱但重要的生物信号;而现有分析方法大多针对单一信号设计,缺乏统一框架实现多信号的同时捕获与分离。
传统方法如ccRemover仅专注于信号去除,tricycle、DeepCycle等工具虽能推断细胞周期伪时间但无法消除其影响,Cyclum模型强制将所有细胞嵌入圆形流形导致非循环细胞定位失真。更关键的是,这些方法通常需要多个独立步骤进行处理,不仅操作繁琐还可能引入偏差。如何开发一个能够同时捕获、分离并增强多种生物信号的统一框架,成为单细胞数据分析领域的迫切需求。
针对这一挑战,加拿大不列颠哥伦比亚大学等单位的研究团队在《Cell Genomics》发表了题为"CellUntangler: Separating distinct biological signals in single-cell data with deep generative models"的研究论文。该研究创新性地提出了CellUntangler模型,通过构建几何结构适配的多子空间潜表示,成功实现了多种生物信号的高效解耦。
本研究主要采用深度生成模型技术框架,结合变分自编码器(VAE)架构,使用旋转双曲缠绕正态分布(RoWN)等非欧几何空间建模方法。分析的数据集包括HeLa细胞系、小鼠胚胎干细胞、免疫细胞图谱、胰腺细胞、肝细胞以及卵巢癌样本等公共数据库资源,累计处理约百万个单细胞。
细胞周期信号的精确捕获与去除
研究人员首先在HeLa细胞数据集上验证模型性能。结果显示,CellUntangler的第一潜分量z1成功捕获了细胞周期信号,细胞按G1.S→S→G2→G2.M→M.G1阶段的正确顺序排列在双曲空间的庞加莱圆盘边缘。相比之下,标准预处理流程则使细胞周期信号与基因型信号相互纠缠。通过解码z1获得的基因表达数据显示出更平滑的细胞周期基因表达趋势,而基于z2的重建数据则有效消除了细胞周期效应。与Revelio、scPrisma等方法的比较表明,CellUntangler在细胞周期重建和去除任务上均表现优异,尤其在k近邻分类准确率方面优势明显。
混合细胞群体中的信号分离
在包含循环与非循环细胞的免疫细胞数据集分析中,CellUntangler展现出独特优势。循环细胞被精确放置在庞加莱圆盘边缘形成环形结构,非循环细胞则分布于圆盘内部。重新定位圆盘原点后,循环细胞形成完整的环形序列,而非循环细胞按细胞类型良好混合。尤为重要的是,在第二潜分量z2中,所有细胞(包括循环细胞)均按细胞类型清晰分离,同时有效消除了技术批次效应。通过k-NN分类器准确鉴定了循环细胞的细胞类型身份,证实了模型在复杂样本中的实用性。
分化轨迹与空间分区信号的解析
研究人员进一步探索了CellUntangler在处理非细胞周期信号方面的能力。在小鼠胰腺细胞数据中,模型使用两个双曲空间分别捕获细胞周期和内分泌细胞分化轨迹。结果显示,z2分量清晰展现了从导管细胞到Ngn3低/高表达细胞,再到Fev+前内分泌细胞最终分化为α、β、δ、ε细胞的完整轨迹,比传统UMAP可视化更能揭示精细发育路径。
在肝细胞空间分区分析中,模型使用欧几里得空间成功分离了肝小叶分区信号(门静脉到中央静脉轴)与昼夜节律信号。z1分量的y轴坐标与肝细胞分层位置呈单调关系,分区标志基因Cyp2f2和Cyp2e1在相反区域表达,而时间信号在z1中完全混合,在z2中则清晰分离。通过反事实推理,研究人员还预测了中央区和门静脉区特异性基因表达模式,发现了饥饿状态下上调的脂肪酸ω-氧化关键酶基因Cyp4a10和Cyp4a14。
多样化生物信号处理与大尺度数据应用
在嗜酸性食管炎(EoE)肥大细胞分析中,CellUntangler成功分离了组织解离信号与疾病状态信号,鉴定出ITGA2B等疾病相关基因。在干扰素刺激的PBMC数据中,模型有效去除了细胞类型信号干扰,显著增强了JAK-STAT通路活性差异。最后,在包含92.7万个卵巢癌细胞的超大尺度数据集上,CellUntangler在50个训练周期内即成功识别出肿瘤微环境中广泛的细胞类型均存在干扰素响应,展现了优异的可扩展性。
本研究开发的CellUntangler模型通过创新性地使用多几何结构潜空间,为解决单细胞数据中多信号交织这一长期挑战提供了有效方案。其核心优势在于能够根据信号特性灵活选择欧几里得、超球面或双曲空间等几何结构,实现多种生物过程的精确捕获与分离。与现有方法相比,该模型不仅支持信号增强和过滤的同步进行,还避免了多步骤处理带来的误差累积。
研究结果表明,CellUntangler在细胞周期分析、分化轨迹重建、空间信号解析等多个应用场景均表现优异,特别是在包含循环与非循环细胞的复杂样本中展现出独特价值。模型的成功应用为发现稀有细胞群体、解析发育动力学、理解肿瘤微环境异质性等前沿问题提供了强大工具。随着单细胞多组学数据的持续积累,这种能够自适应多种生物信号特性的分析方法将发挥越来越重要的作用,推动单细胞研究向更深入、更精确的方向发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号