编辑推荐:
为解决单细胞数据整合难题,上海交通大学等单位的研究人员开展 scCobra 相关研究。结果显示,scCobra 能有效校正批次效应、实现多组学整合等。该研究为单细胞研究提供有力工具,强烈推荐科研读者阅读。
上海交通大学生命科学与生物技术学院微生物代谢国家重点实验室(State Key Laboratory of Microbial Metabolism, School of Life Sciences and Biotechnology, Shanghai Jiao Tong University)的研究人员 Bowen Zhao 等人,在《Communications Biology》期刊上发表了题为 “scCobra allows contrastive cell embedding learning with domain adaptation for single cell data integration and harmonization” 的论文。这篇论文在单细胞数据整合与分析领域意义重大,为解决该领域长期存在的难题提供了全新的思路和方法,有望推动生命科学和医学健康等相关领域的深入研究。
研究背景
单细胞基因组学技术(Single-cell genomics technology)的飞速发展,为探索复杂且异质的生物系统带来了新契机,它能够高分辨率地测量细胞状态。近年来,大量涵盖多种生物组织和细胞类型的单细胞图谱不断涌现。然而,受当前单细胞测序技术限制、实验预算、样本可得性以及不同实验室数据集整合等因素影响,这些图谱往往是跨批次收集的。同时,不同的单细胞测序平台,如 10X Genomics、micro - well、Smart - seq 等的使用,使得单细胞测量数据之间产生了被称为 “批次效应(Batch effects)” 的系统性技术差异。
为了从这些单细胞图谱中获得更准确、更深入的生物学见解,减轻单细胞数据集之间的批次效应,并确保它们的整合与协调,以便进行全面分析,显得尤为关键。为此,科研人员开发了许多单细胞 RNA 测序(scRNA - seq)数据整合方法,像 Seurat、Harmony、Scanorama、scVI、scDML 和 scDREAMER 等。但这些方法存在诸多问题,例如基于互近邻(MNNs)的模型容易过度校正批次效应,忽略不同批次间潜在的生物学差异;深度学习方法通常假设基因表达遵循特定分布,然而找到适用于各种数据集的通用基因表达分布极具挑战性;部分方法在原始特征空间应用困难,导致模型可解释性降低。此外,现有方法在标签转移、多组学数据整合、模拟数据与真实数据差异等方面也存在不足。
关键技术方法
scCobra 是一种深度神经网络框架,采用对比变分自编码器 - 生成对抗网络(contrastive VAE–GAN)架构。它通过编码器将不同批次的 scRNA - seq 数据映射到低维潜在空间,再利用带有域特定批归一化(DSBN)层的解码器从潜在表示中重建原始输入数据。
scCobra 的训练分为三个阶段。第一阶段,优化域判别器(Domain Discriminator)和生成判别器(Generative Discriminator),域判别器用于判断编码器输出是否包含批次信息,生成判别器则区分生成数据与真实数据。第二阶段,以类似生成对抗网络(GAN)的方式训练生成器,同时优化编码器和解码器。第三阶段,使用对比学习损失进行优化,包括细胞级和聚类级对比学习,以确保原始输入与重建输出的一致性。此外,还添加了 KL 散度损失(KL Divergence Loss)和重建损失(Reconstruction Loss)来约束模型。
研究结果
- scCobra 模型概述:scCobra 通过细胞级和聚类级对比学习、VAE 和 GANs 实现跨批次单细胞数据整合,其重建目标包含对抗训练、重建损失和对比学习三个主要部分,在潜在空间和原始空间都能进行批次校正,适用于多种下游任务。
- scCobra 在批次效应校正方面优于基准方法:研究人员在多个数据集上对 scCobra 和其他基准方法进行测试。在人类肺图谱数据集(包含 16 个批次、17 种细胞类型和超 32,000 个细胞)、免疫细胞骨髓数据集(超 33,000 个细胞、12,303 个基因、10 个批次和 16 种细胞类型)以及人类胰腺数据集(来自不同测序平台)的测试中,通过 UMAP 可视化和定量指标评估发现,scCobra 在区分细胞类型和整合批次方面表现出色,在调整兰德指数(ARI)、归一化互信息(NMI)、细胞类型轮廓系数(CellType ASW)等指标上得分最高,证明其能有效保留生物信号并整合批次数据。
- scCobra 最小化批次校正中的过校正风险:研究人员利用模拟数据集和真实 scRNA - seq 数据集(肝癌和 COVID - 19 数据集)进行测试。在模拟数据中,调整 CD4 + T 细胞基因表达模拟病毒感染后的变化,结果显示 scCobra 能有效分离正常和扰动的 CD4 + T 细胞,通过标记基因可清晰区分,且其过校正得分较低。在肝癌数据集的生存分析中,scCobra 表现最佳,表明它能在去除批次效应的同时保留关键生物信号,减少过校正风险。
- scCobra 实现多组学批次校正:scCobra 可用于协调 scRNA - seq 和 scATAC - seq 数据集,将 scATAC - seq 峰矩阵转换为基因活性矩阵后进行整合。实验结果显示,校正后的融合数据能使相同类型细胞聚集,共享相似发育轨迹的细胞相邻。在与空间 MERFISH 数据整合时,scCobra 也表现出良好性能,在定量指标上优于其他方法,能有效整合数据并保留生物信息。
- scCobra 能够模拟具有批次效应的 scRNA - seq 数据:scCobra 可基于现有真实 scRNA - seq 数据集模拟批次效应,通过预训练编码器获取无批次信息的嵌入,再利用解码器和 DSBN 模块从潜在空间生成不同批次数据。研究人员以此生成模拟数据集,对多种方法进行测试,结果表明 scCobra 生成的数据可有效评估其他批次校正方法性能。
- scCobra 提供灵活的在线标签转移框架:scCobra 构建参考图谱并保存训练模型,无需重新训练即可直接推断未标记数据并进行注释。在对人类胰腺 scRNA - seq 数据集的测试中,scCobra 与其他方法对比,其加权 F1 分数达到 0.95,与 SCALEX 相同,优于 scVI 和 TOSICA,展现出卓越的在线注释能力。
- 关键组件对 scCobra 性能的影响:通过对胰腺 scRNA - seq 和脑 scATAC - seq 数据集进行消融实验发现,去除对比学习或对抗学习模块会显著降低 scCobra 在胰腺 scRNA - seq 数据集中校正批次效应的效果;在脑 scATAC - seq 数据集中,无对比学习或对抗学习的模型无法有效校正批次效应。adaBN 模块在多组学数据整合和标签转移中至关重要,无 adaBN 的模型在整合多组学数据和准确标注细胞类型时存在困难。
研究结论与讨论
scCobra 在单细胞数据整合和批次效应校正方面表现卓越。它有效降低了过校正风险,能准确区分不同疾病状态,识别真正的差异基因,为后续研究提供可靠数据基础。在处理多模态数据时,通过将 scATAC - seq 数据转换为基因活性矩阵,利用现有 scRNA - seq 分析流程统一处理数据,展现出强大的适应性和通用性。其在线标签转移功能无需重新训练模型,提高了数据处理效率,便于大规模 scRNA - seq 数据集的分析。此外,scCobra 无需对基因表达分布做出假设,且能基于真实数据模拟批次效应,为评估其他批次校正方法提供了更可靠的测试数据集。
不过,scCobra 也存在一定局限性。其多模态整合依赖于特定算法将 scATAC - seq 峰矩阵转换为基因活性矩阵,可能导致信息丢失;在处理如 CITE - seq 这类特征较少的单细胞蛋白质数据时,难以识别共享特征并优化模型;标签转移要求参考和查询数据集来自相同组织类型或包含相似细胞类型。未来研究可针对这些问题展开,进一步提升 scCobra 的性能和适用性。
总的来说,scCobra 为单细胞基因组学研究提供了强大工具,有助于深入理解复杂的生物机制和细胞状态,减少大规模 scRNA - seq 数据集整合、分析和利用的障碍,推动生命科学和医学健康领域的发展。