
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自监督ZINB核表示学习的单细胞RNA测序数据深度聚类模型scDKC研究
【字体: 大 中 小 】 时间:2025年09月03日 来源:Expert Systems with Applications 7.5
编辑推荐:
这篇研究提出了一种创新的端到端深度核细胞聚类模型scDKC,通过自监督零膨胀负二项分布(ZINB)核表示学习,同步优化细胞核表示(kernel representation)与聚类任务。模型采用核辅助混合编码器(MKLs/ARLs)融合细胞表达特征与拓扑互作,结合ZINB解码器捕获全局概率结构,并通过四重自监督机制(聚类/表示/分布/核)提升非线性可分性。实验在15个scRNA-seq数据集上验证了其超越10种基线方法的性能,为癌症研究、表观遗传修饰(epigenetic modification)等提供了高分辨率分析工具。
亮点
• 我们提出首个端到端深度核细胞聚类模型scDKC,整合自监督ZINB核表示学习与细胞聚类。
• 首次将ZINB核表示引入深度聚类网络,实现细胞核表示与结构分区的联合优化。
• 开发核辅助混合编码器(MKLs/ARLs),通过GLU门控机制融合细胞表达特征与拓扑互作。
• 设计四重自监督机制(聚类/表示/ZINB分布/核),显著提升非线性可分性。
引言
单细胞RNA测序(scRNA-seq)已成为解码基因调控和细胞异质性的核心工具,在癌症研究、DNA甲基化检测(DNA methylation)和表观遗传修饰鉴定中发挥关键作用。然而,传统聚类方法因高维噪声和数据稀疏性面临挑战,而现有深度学习方法(如scTAG、scGCOT)往往忽略结构分区目标,导致非线性可分性不足(如图1所示)。
方法
数据预处理与细胞图
输入基因表达矩阵X∈RN×G(N=细胞数,G=基因数),基于Scanpy包筛选高变基因,并通过K近邻(KNN)构建细胞图。
scDKC框架概览
如图2所示,模型包含:
核辅助混合编码器:ARL层采用GLU门控融合细胞表达与拓扑表示,MKL层通过多核函数映射到可分核空间。
ZINB解码器:捕获数据全局概率结构,指导核表示学习方向。
联合自监督机制:四策略协同优化聚类标签分配与核表示学习。
实验
在15个真实数据集上验证:
Q1:scDKC显著优于10种基线方法(如scMCKC、scDASFK)。
Q2:核表示线性可分性提升(t-SNE可视化显示清晰簇边界)。
Q3:多核函数组合性能优于单一核。
Q4:混合编码器有效平衡表达与结构信息。
Q5:四重自监督策略贡献度分析揭示协同效应。
结论
scDKC通过ZINB核表示与自监督机制,解决了scRNA-seq数据非线性可分难题,为癌症异质性分析、生物标志物发现提供了新范式。未来可扩展至多组学数据整合分析。
生物通微信公众号
知名企业招聘