基于自监督ZINB核表示学习的单细胞RNA测序数据深度聚类模型scDKC研究

【字体: 时间:2025年09月03日 来源:Expert Systems with Applications 7.5

编辑推荐:

  这篇研究提出了一种创新的端到端深度核细胞聚类模型scDKC,通过自监督零膨胀负二项分布(ZINB)核表示学习,同步优化细胞核表示(kernel representation)与聚类任务。模型采用核辅助混合编码器(MKLs/ARLs)融合细胞表达特征与拓扑互作,结合ZINB解码器捕获全局概率结构,并通过四重自监督机制(聚类/表示/分布/核)提升非线性可分性。实验在15个scRNA-seq数据集上验证了其超越10种基线方法的性能,为癌症研究、表观遗传修饰(epigenetic modification)等提供了高分辨率分析工具。

  

亮点

• 我们提出首个端到端深度核细胞聚类模型scDKC,整合自监督ZINB核表示学习与细胞聚类。

• 首次将ZINB核表示引入深度聚类网络,实现细胞核表示与结构分区的联合优化。

• 开发核辅助混合编码器(MKLs/ARLs),通过GLU门控机制融合细胞表达特征与拓扑互作。

• 设计四重自监督机制(聚类/表示/ZINB分布/核),显著提升非线性可分性。

引言

单细胞RNA测序(scRNA-seq)已成为解码基因调控和细胞异质性的核心工具,在癌症研究、DNA甲基化检测(DNA methylation)和表观遗传修饰鉴定中发挥关键作用。然而,传统聚类方法因高维噪声和数据稀疏性面临挑战,而现有深度学习方法(如scTAG、scGCOT)往往忽略结构分区目标,导致非线性可分性不足(如图1所示)。

方法

数据预处理与细胞图

输入基因表达矩阵X∈RN×G(N=细胞数,G=基因数),基于Scanpy包筛选高变基因,并通过K近邻(KNN)构建细胞图。

scDKC框架概览

如图2所示,模型包含:

  1. 1.

    核辅助混合编码器:ARL层采用GLU门控融合细胞表达与拓扑表示,MKL层通过多核函数映射到可分核空间。

  2. 2.

    ZINB解码器:捕获数据全局概率结构,指导核表示学习方向。

  3. 3.

    联合自监督机制:四策略协同优化聚类标签分配与核表示学习。

实验

在15个真实数据集上验证:

  • Q1:scDKC显著优于10种基线方法(如scMCKC、scDASFK)。

  • Q2:核表示线性可分性提升(t-SNE可视化显示清晰簇边界)。

  • Q3:多核函数组合性能优于单一核。

  • Q4:混合编码器有效平衡表达与结构信息。

  • Q5:四重自监督策略贡献度分析揭示协同效应。

结论

scDKC通过ZINB核表示与自监督机制,解决了scRNA-seq数据非线性可分难题,为癌症异质性分析、生物标志物发现提供了新范式。未来可扩展至多组学数据整合分析。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号