多视图双一致性图-谱嵌入联合学习算法在单细胞聚类中的应用研究

【字体: 时间:2025年07月31日 来源:Knowledge-Based Systems 7.6

编辑推荐:

  为解决单细胞RNA测序(scRNA-seq)数据高维度、高噪声和稀疏性导致的聚类难题,哈尔滨理工大学计算机科学与技术学院Ao Li团队提出DcGSE算法。该研究通过多视图相似图空间构建、双一致性谱嵌入学习和加权张量低秩约束,整合了视图间一致性与互补性信息。实验表明,DcGSE在8个真实数据集上超越12种基线方法,为揭示细胞异质性提供了新工具。

  

单细胞RNA测序(scRNA-seq)技术如同给每个细胞装上"分子显微镜",让科学家能观察单个细胞的基因表达图谱。然而这把"显微镜"拍出的照片却充满噪点——数据的高维度、高噪声和极端稀疏性,使得细胞类型聚类成为生物信息学领域的"拼图难题"。传统方法就像只用单一滤镜处理照片,难以全面捕捉细胞间的复杂关系。更棘手的是,现有算法将相似图构建与谱嵌入学习割裂处理,如同先画轮廓再填色,导致最终"画像"失真。

哈尔滨理工大学计算机科学与技术学院Ao Li团队在《Knowledge-Based Systems》发表的研究中,提出了名为DcGSE的创新算法。这项研究通过三大关键技术突破:首先采用三种异质特征构建多视图相似图空间,解决单视图表征局限;其次设计双一致性谱嵌入(共识嵌入+视图一致嵌入),通过低秩分解捕捉共享结构;最后创新性引入加权张量低秩约束,挖掘视图间高阶互补信息。通过统一优化框架实现图学习与嵌入学习的协同迭代,最终在8个真实数据集上实现聚类准确率(ACC)平均提升12.7%,为解析癌症机制等生物医学问题提供了新工具。

主要技术方法
研究使用8个人/鼠源scRNA-seq数据集,涵盖不同组织发育阶段。技术核心包括:多视图相似图空间构建(三种特征提取法)、共识相似图学习(过滤视图噪声)、双一致性谱嵌入分解(低秩约束)、加权张量秩最小化(挖掘高阶关联)。通过交替方向乘子法(ADMM)优化目标函数,最终结合共识嵌入与视图一致嵌入进行谱聚类。

研究结果
Graph-based Clustering for scRNA-seq Data
通过对比scGNN等图聚类方法,证实多视图整合能更全面表征细胞间关系。在人类胚胎干细胞数据集上,DcGSE的调整兰德指数(ARI)达0.812,较单视图方法提升29%。

Proposed Method
双一致性学习模块中,共识相似图保留跨视图共享结构(相似性相关系数提高0.45),视图特定嵌入通过3D张量形式捕获非线性关联。加权核范数约束使特征选择更具解释性。

Optimization algorithm
ADMM算法将目标函数分解为5个子问题,在100次迭代内收敛。计算复杂度分析显示,内存占用较传统方法降低37%。

Improved clustering performance
在Deng数据集上,DcGSE的标准化互信息(NMI)为0.784(第二名0.752),尤其在稀有细胞亚型识别中F1-score提升40%。肿瘤微环境分析揭示新的T细胞亚群。

结论与意义
该研究突破性地将双一致性学习与高阶张量分析引入单细胞聚类领域。生物学意义上,DcGSE能识别传统方法遗漏的1-5%稀有细胞群体,为癌症异质性研究提供新视角。方法学层面,统一的联合学习框架为多组学数据整合树立了新范式。研究者特别指出,未来可扩展至空间转录组等多模态数据,但当前版本在超百万级细胞数据集上的计算效率仍需优化。这些发现为精准医学时代的单细胞分析提供了可靠的计算工具。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号