《BMC Genomics》:JSNMFuP: a unsupervised method for the integrative analysis of single-cell multi-omics data based on non-negative matrix factorization
编辑推荐:
研究人员针对单细胞多组学数据整合难题,开展 JSNMFuP 方法研究,结果显示其聚类性能佳且因子可解释,意义重大。
在生命科学的微观世界里,单细胞多组学数据正逐渐揭开细胞的神秘面纱。随着测序技术突飞猛进,来自同一细胞的单细胞多组学数据日益丰富,这为人们理解细胞表型提供了前所未有的机遇。然而,不同分子模式的单细胞数据各具特点且噪声水平不同,使得数据整合分析困难重重。比如,在整合单细胞转录组和表观基因组数据时,如何有效处理两者的差异并挖掘潜在信息,成为了科研人员面临的一大挑战。为了攻克这一难题,江南大学的研究人员展开了深入研究,并将成果发表在《BMC Genomics》上。
研究人员提出了一种基于非负矩阵分解(Non-negative Matrix Factorization,NMF)的无监督整合方法 —— 联合半正交非负矩阵分解利用先验知识(Jointly Semi-Orthogonal Nonnegative Matrix Factorization using Prior knowledge,JSNMFuP)。该方法主要运用了以下关键技术:一是通过共识图整合从各组学潜在变量中提取的信息;二是利用拉普拉斯图(Laplace graph)捕获原始数据的高维几何结构;三是引入邻接矩阵连接不同模态特征间的调控关系,并将其融入目标函数,通过正则化项优化模型 。
在研究结果方面:
- 小鼠脑数据集应用:研究人员将 JSNMFuP 与 scAI、WNN、MOFA + 和 JSNMF 等方法对比,对小鼠脑细胞的组蛋白修饰和基因表达谱进行联合分析。通过均匀流形近似和投影(UMAP)可视化数据发现,JSNMFuP 能使相同细胞类型紧密聚集,在调整兰德指数(ARI)、归一化互信息(NMI)和剩余平均基尼指数(RAGI)这三项指标上表现最佳,聚类性能卓越。深入分析因子 17 和 14,发现它们分别与小鼠脑的室管膜细胞和表达生长抑制剂的脑抑制神经元密切相关。对因子 17 排名靠前的基因进行基因本体(Gene Ontology,GO)生物学过程(Biological Process,BP)富集分析,筛选出 20 个与纤毛和微管相关的生物学过程,这与室管膜细胞的特征相符。利用 GREAT 进行在线 GO BP 富集分析,得到与己糖代谢、单糖代谢和胰岛素反应相关的过程,进一步验证了富集分析为识别的细胞类型提供了丰富的功能见解。
- 小鼠肾数据集应用:在对小鼠肾细胞的单细胞基因表达和染色质可及性进行整合分析时,JSNMFuP 同样展现出最佳的聚类性能。分析因子 9 和因子 3 发现,小鼠肾脏的远曲小管细胞因子 9 水平较高,近端小管 S3 细胞(2 型细胞)因子 3 水平较高。通过对因子特异性基因进行 GO BP 富集分析,识别出与钾离子稳态和钠离子运输相关的过程,还发现与应激激活的丝裂原活化蛋白激酶(MAPK)级联反应正调控相关的过程,这可能与小鼠肾脏远端弯曲小管细胞表面流体流动诱导的渗透压和剪切应力激活 MAPK 信号通路有关。
- 三模态数据集应用:研究人员对 Hou 数据集的 31 个肝细胞数据进行整合分析,通过计算 Calinski-Harabasz(CH)指数和轮廓系数确定最佳聚类数。当因子数为 2、聚类数为 2 时,两项指标均达到最高值,此时 JSNMFuP 能正确区分 25 个肝癌(HCC)细胞和 6 个 HepG2 细胞;当因子数为 3、聚类数为 3 时,HCC 细胞被分为两个亚群。对各因子高表达基因进行 GO BP 分析发现,因子 2 与 HepG2 细胞相关,涉及蛋白质转录、翻译和内质网相关生物学过程;HCC 亚群 1 在凝血、酶调节和代谢方面表现突出,HCC 亚群 2 则侧重于中性粒细胞激活和解毒,这表明两个亚群在免疫反应方面存在差异。
研究结论和讨论部分指出,JSNMFuP 在聚类性能上表现优异,能有效整合多组学信息,且因子具有可解释性,有助于深入研究细胞异质性和相关疾病机制。同时,该算法对超参数和因子数量的变化具有稳健性,收敛性良好。不过,目前 JSNMFuP 在处理某些特定数据集(如 CITE-seq 数据集)时可能存在局限性,且其特征邻接矩阵的构建方式相对简单,未来可通过挖掘数据库寻找高可信度的特征关系进行优化。后续研究还将探索基于 NMF 的多组学数据整合方法与变量选择方法的相互作用,设计模拟研究评估该方法在不同场景下的性能,以及研究数据污染对方法稳健性的影响,致力于为生命科学研究提供更可靠、更强大的分析工具。
婵炴垶鎸搁鍫澝归崶鈹惧亾閻熼偊妲圭€规挸瀛╃€靛ジ鏁傞悙顒佹瘎闁诲孩绋掗崝鎺楀礉閻旂厧违濠电姴娲犻崑鎾愁潩瀹曞洨鐣虹紓鍌欑濡粓宕曢鍛浄闁挎繂鐗撳Ο瀣煙濞茶骞橀柕鍥ㄥ哺瀵剟骞嶉鐣屾殸闂佽偐鐡旈崹铏櫠閸ф顥堥柛鎾茬娴狀垶鏌曢崱妤婂剱閻㈩垱澹嗗Σ鎰板閻欌偓濞层倕霉閿濆棙绀嬮柍褜鍓氭穱铏规崲閸愨晝顩烽柨婵嗙墦濡鏌涢幒鎴烆棡闁诲氦濮ょ粚閬嶅礃椤撶姷顔掗梺璇″枔閸斿骸鈻撻幋锔藉殥妞ゆ牗绮岄埛鏍煕濞嗘劕鐏╂鐐叉喘閹秹寮崒妤佹櫃
10x Genomics闂佸搫鍊瑰姗€骞栭—娓媠ium HD 閻庢鍠掗崑鎾绘煕濮樼厧鐏犵€规洜鍠撶槐鎺楀幢濮橆剙濮冮梺鍛婂笒濡粍銇旈幖浣瑰仢闁搞儮鏅滈悾閬嶆煕韫囧濮€婵炴潙妫滈妵鎰板即閻樼數鐓佺紓浣告湰濡炶棄螞閸ф绀嗛柛鈩冡缚閳ь兛绮欓弫宥夋晸閿燂拷
濠电偛妫庨崹鑲╂崲鐎n偆鈻旈悗锝庡幗缁佺櫉wist闂侀潧妫楅敃锝囩箔婢舵劕妫樻い鎾跺仜缂嶄線鏌涢弽銊у⒈婵炲牊鍘ISPR缂備焦绋掗惄顖炲焵椤掆偓椤︿即鎮ч崫銉ゆ勃闁逞屽墴婵″鈧綆鍓氶弳鈺呮倵濞戞瑥濮冮柛鏃撴嫹
闂佸憡顨嗗ú婊呭垝韫囨稒鍤勯柣鎰嚟閵堟挳骞栭弶鎴犵闁告瑥妫濆濠氬Ω閵夛絼娴烽柣鐘辩劍瑜板啴鎮ラ敓锟� - 濠电儑绲藉畷顒勫矗閸℃ḿ顩查柛鈩冾嚧閹烘挾顩烽幖杈剧秵閸庢垵鈽夐幘顖氫壕婵炴垶鎼╂禍婊冪暦閻旇櫣纾奸柛鈩冭壘閸旀帡鎮楅崷顓炰槐闁绘稒鐟ч幏瀣箲閹伴潧鎮侀梺鍛婂笧婢ф寮抽悢鐓庣妞ゆ柨鐏濈粣娑㈡煙鐠ㄥ鍊婚悷銏ゆ煕濞嗘ê鐏ユい顐㈩儔瀹曠娀寮介顐e浮瀵悂鏁撻敓锟�
婵炴垶鎸搁鍫澝归崶顒€违濠电姴瀚惌搴ㄦ煠瀹曞洤浠滈柛鐐存尦閹藉倻鈧綆鍓氶銈夋偣閹扳晛濡虹紒銊у閹峰懎饪伴崘銊р偓濠氭煛鐎n偄濮堥柡宀€鍠庨埢鏃堝即閻樿櫕姣勯柣搴㈢⊕閸旀帡宕濋悢鐓幬ラ柨鐕傛嫹