JSNMFuP:单细胞多组学数据整合分析的创新利器

《BMC Genomics》:JSNMFuP: a unsupervised method for the integrative analysis of single-cell multi-omics data based on non-negative matrix factorization

【字体: 时间:2025年03月21日 来源:BMC Genomics 3.5

编辑推荐:

  研究人员针对单细胞多组学数据整合难题,开展 JSNMFuP 方法研究,结果显示其聚类性能佳且因子可解释,意义重大。

  在生命科学的微观世界里,单细胞多组学数据正逐渐揭开细胞的神秘面纱。随着测序技术突飞猛进,来自同一细胞的单细胞多组学数据日益丰富,这为人们理解细胞表型提供了前所未有的机遇。然而,不同分子模式的单细胞数据各具特点且噪声水平不同,使得数据整合分析困难重重。比如,在整合单细胞转录组和表观基因组数据时,如何有效处理两者的差异并挖掘潜在信息,成为了科研人员面临的一大挑战。为了攻克这一难题,江南大学的研究人员展开了深入研究,并将成果发表在《BMC Genomics》上。
研究人员提出了一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的无监督整合方法 —— 联合半正交非负矩阵分解利用先验知识(Jointly Semi-Orthogonal Nonnegative Matrix Factorization using Prior knowledge,JSNMFuP)。该方法主要运用了以下关键技术:一是通过共识图整合从各组学潜在变量中提取的信息;二是利用拉普拉斯图(Laplace graph)捕获原始数据的高维几何结构;三是引入邻接矩阵连接不同模态特征间的调控关系,并将其融入目标函数,通过正则化项优化模型 。

在研究结果方面:

  • 小鼠脑数据集应用:研究人员将 JSNMFuP 与 scAI、WNN、MOFA + 和 JSNMF 等方法对比,对小鼠脑细胞的组蛋白修饰和基因表达谱进行联合分析。通过均匀流形近似和投影(UMAP)可视化数据发现,JSNMFuP 能使相同细胞类型紧密聚集,在调整兰德指数(ARI)、归一化互信息(NMI)和剩余平均基尼指数(RAGI)这三项指标上表现最佳,聚类性能卓越。深入分析因子 17 和 14,发现它们分别与小鼠脑的室管膜细胞和表达生长抑制剂的脑抑制神经元密切相关。对因子 17 排名靠前的基因进行基因本体(Gene Ontology,GO)生物学过程(Biological Process,BP)富集分析,筛选出 20 个与纤毛和微管相关的生物学过程,这与室管膜细胞的特征相符。利用 GREAT 进行在线 GO BP 富集分析,得到与己糖代谢、单糖代谢和胰岛素反应相关的过程,进一步验证了富集分析为识别的细胞类型提供了丰富的功能见解。
  • 小鼠肾数据集应用:在对小鼠肾细胞的单细胞基因表达和染色质可及性进行整合分析时,JSNMFuP 同样展现出最佳的聚类性能。分析因子 9 和因子 3 发现,小鼠肾脏的远曲小管细胞因子 9 水平较高,近端小管 S3 细胞(2 型细胞)因子 3 水平较高。通过对因子特异性基因进行 GO BP 富集分析,识别出与钾离子稳态和钠离子运输相关的过程,还发现与应激激活的丝裂原活化蛋白激酶(MAPK)级联反应正调控相关的过程,这可能与小鼠肾脏远端弯曲小管细胞表面流体流动诱导的渗透压和剪切应力激活 MAPK 信号通路有关。
  • 三模态数据集应用:研究人员对 Hou 数据集的 31 个肝细胞数据进行整合分析,通过计算 Calinski-Harabasz(CH)指数和轮廓系数确定最佳聚类数。当因子数为 2、聚类数为 2 时,两项指标均达到最高值,此时 JSNMFuP 能正确区分 25 个肝癌(HCC)细胞和 6 个 HepG2 细胞;当因子数为 3、聚类数为 3 时,HCC 细胞被分为两个亚群。对各因子高表达基因进行 GO BP 分析发现,因子 2 与 HepG2 细胞相关,涉及蛋白质转录、翻译和内质网相关生物学过程;HCC 亚群 1 在凝血、酶调节和代谢方面表现突出,HCC 亚群 2 则侧重于中性粒细胞激活和解毒,这表明两个亚群在免疫反应方面存在差异。

研究结论和讨论部分指出,JSNMFuP 在聚类性能上表现优异,能有效整合多组学信息,且因子具有可解释性,有助于深入研究细胞异质性和相关疾病机制。同时,该算法对超参数和因子数量的变化具有稳健性,收敛性良好。不过,目前 JSNMFuP 在处理某些特定数据集(如 CITE-seq 数据集)时可能存在局限性,且其特征邻接矩阵的构建方式相对简单,未来可通过挖掘数据库寻找高可信度的特征关系进行优化。后续研究还将探索基于 NMF 的多组学数据整合方法与变量选择方法的相互作用,设计模拟研究评估该方法在不同场景下的性能,以及研究数据污染对方法稳健性的影响,致力于为生命科学研究提供更可靠、更强大的分析工具。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号