编辑推荐:
为解决细胞类型注释准确性问题,伦敦帝国理工学院的研究人员开展结合单细胞 ATAC 和 RNA 测序进行监督式细胞注释的研究,发现结合两种测序数据可提升 PBMC 数据注释质量,对神经元细胞无此效果,为单细胞研究提供重要参考。
在生命科学的微观世界里,细胞就像一个个神秘的 “小宇宙”,各自有着独特的 “身份” 和功能。单细胞测序技术的出现,让科学家们有机会深入探索这些 “小宇宙”,揭示细胞的秘密。然而,细胞类型注释这一关键步骤,却如同解谜过程中的一道难题,阻碍着研究的进展。传统的注释方法,有的如同 “大海捞针” 般低效,有的则因依赖单一数据类型而难以准确区分细胞类型。目前,虽然单细胞 RNA 测序在细胞注释中应用广泛,但它就像戴着有色眼镜看世界,无法全面捕捉细胞的特征。而单细胞 ATAC 测序虽能揭示染色质可及性的奥秘,却未被充分利用来提升细胞注释的准确性。此外,监督式注释方法的潜力也有待进一步挖掘。在这样的背景下,伦敦帝国理工学院等机构的研究人员决心攻克这一难题,开启了一场探索单细胞注释新方法的征程。
为了解决这些问题,来自伦敦帝国理工学院、阿斯利康等机构的 Jaidip Gill 等人开展了结合单细胞 ATAC 和 RNA 测序进行监督式细胞注释的研究。他们的研究成果为单细胞研究领域带来了新的曙光,让人们对细胞的认识更上一层楼。
研究人员在这项研究中用到了多个关键技术方法。他们采用 10x genomics 多组学技术,获取了人类外周血单个核细胞(PBMC)和神经元细胞的配对 ATAC 和 RNA 测量数据。通过加权最近邻(WNN)聚类和基于标记基因的注释,得到了用于监督分类模型的真实标签。运用主成分分析(PCA)和单细胞变分推理(scVI)自动编码器进行降维,同时利用随机森林(RF)、支持向量机(SVM)和逻辑回归(LR)等分类模型进行分析。此外,通过自助法(Bootstrapping)和袋外验证(Out-of-bag validation),有效控制了训练集和测试集数据划分的可变性。
研究结果如下:
- ATAC 增加细胞类型嵌入的分离度:通过对 PBMC 数据的分析,研究人员发现,在 PCA 和 scVI 嵌入中加入 ATAC 特征后,细胞类型的分离度显著提高。以 CD4 T 效应记忆细胞(CD4 TEM)、CD8 T 效应记忆细胞(CD8 TEM)和 CD8 初始细胞等细胞群体为例,它们与其他细胞群体的区分度明显增强。从定量分析来看,结合嵌入的轮廓系数得分显著高于仅使用 RNA 的情况,这表明 ATAC 特征在提升细胞类型分离度方面具有重要作用。
- ATAC 提高 scVI 嵌入的分类性能:研究发现,基于 PCA 的嵌入分类性能较弱,而 scVI 嵌入结合 RNA 和 ATAC 数据时,分类性能得到显著提升。具体来说,使用 scVI 嵌入和 RNA + ATAC 数据的 SVM 模型,其宏 F1 得分中位数达到 0.946,相较于仅使用 RNA 的模型有显著提高。这一结果表明,scVI 能够更好地捕捉 ATAC 特征中的信息,从而提升分类性能。
- T 细胞注释质量提升最为显著:在研究 ATAC 对不同细胞类型注释质量的影响时,研究人员发现 T 细胞亚型在使用 RNA + ATAC 特征后,F1 得分显著增加,其中 CD4 TEM 细胞的 F1 得分提升幅度最大,从仅使用 RNA 模型的 0.815 提升到了 0.926。同时,T 细胞的预测置信度也显著提高,PAP 得分大幅降低,这意味着 ATAC 特征能够更准确地识别 T 细胞亚型。
- ATAC 在注释细胞亚型时更具优势:当研究人员使用不同粒度的细胞亚型标签进行分析时发现,RNA + ATAC 特征仅在更细粒度的 WNN-L2 细胞亚型标签上,才能显著提高分类性能。对于较粗粒度的 WNN-L1 标签,虽然宏观精度有所提高,但整体分类性能并无显著提升。这说明 ATAC 的优势在注释细胞亚型时更为明显。
- ATAC 嵌入与 B 和 T 细胞亚型相关:通过计算 Pearson 相关系数和拟合多项 lasso 模型,研究人员发现 ATAC 组件与 RNA 组件的线性关联较弱。然而,T 细胞(除 CD8 TEM 外)与 ATAC 组件的关联相对较高,其中 CD4 T 中央记忆细胞(CD4 TCM)与 ATAC 组件的关联比例最高,达到 66.6%。这表明 ATAC 特征在区分 B 和 T 细胞亚型方面具有独特的作用。
- ATAC 对神经元细胞注释无优势:在对神经元细胞的研究中,尽管添加 ATAC 特征后,UMAP 聚类看起来更加清晰,但分类性能并未得到显著提升。对于 SVM 模型,添加 ATAC 特征后分类性能反而显著下降。即使是表现最佳的 scVI-LR 模型,在添加 ATAC 特征后,F1 和 PAP 得分也没有显著变化。这说明在神经元细胞注释中,ATAC 特征的作用不如在 PBMC 中明显。
研究结论和讨论部分表明,这项研究具有重要意义。在 PBMC 数据注释中,结合 ATAC 与 RNA 嵌入(特别是使用 scVI 自动编码器生成的嵌入),能够显著提升监督式注释的质量和预测置信度,尤其在区分 T 细胞亚型方面效果显著。然而,在神经元细胞中,ATAC 并未展现出类似的优势。这一发现揭示了 ATAC 在不同细胞类型和组织中的作用差异,为后续研究提供了重要的参考方向。此外,研究还发现,线性分类器在利用 ATAC 特征时,与非线性分类器性能相当,且具有更高的简约性和可解释性,这为研究人员在选择分类模型时提供了新的思路。同时,研究也指出了当前研究的局限性,如手动注释的不确定性和数据集的局限性等,为未来研究指明了改进的方向。这些成果为单细胞研究领域提供了新的方法和理论依据,有助于推动生命科学和健康医学领域的发展,让人们对细胞的奥秘有更深入的理解,为疾病的诊断和治疗提供更精准的支持。
濞戞挸顑堝ù鍥┾偓鐟邦槹瀹撳孩瀵奸敂鐐毄閻庢稒鍔掗崝鐔煎Υ婵犲洠鍋撳宕囩畺缂備礁妫滈崕顏呯閿濆牓妯嬮柟娲诲幘閵囨岸寮幍顔界暠闁肩瓔鍨虫晶鍧楁閸撲礁浠柕鍡楊儐鐢壆妲愰姀鐙€娲ゅù锝嗘礋閳ь剚淇虹换鍐╃閿濆牓妯嬮柛鎺戞閻庤姤绌遍崘顓犵闁诡喓鍔庡▓鎴︽嚒椤栨粌鈷栭柛娆愬灩楠炲洭鎯嶉弮鍌楁晙
10x Genomics闁哄倹婢橀幖顪渋sium HD 鐎殿喒鍋撻柛姘煎灠瀹曠喓绱掗崱姘姃闁告帒妫滄ご鎼佹偝閸モ晜鐣遍柛蹇嬪姀濞村棜銇愰弴鐘电煁缂佸本妞藉Λ鍧楀礆閸℃ḿ鈧粙鏁嶉敓锟�
婵炲棎鍨肩换瀣▔鐎n厽绁癟wist闁靛棗锕g粭澶愬棘椤撶偛缍侀柛鏍ㄧ墱濞堟厤RISPR缂佹稒鐩埀顒€顦伴悧鍝ヤ沪閳ь剟濡寸€n剚鏆╅悗娑欏姃閸旓拷
闁告娲滅划蹇涙嚄閻愬銈撮幖鏉戠箰閸欏棝姊婚妸銉d海閻犱焦褰冮悥锟� - 婵烇絽宕崣鍡樼閸℃鎺撶鎼达綆鍎戝☉鎾亾濞戞搩浜滃畷鐔虹磼閸℃艾鍔掗悗鍦仱閻涙瑧鎷嬮幑鎰靛悁闁告帞澧楅弳鐔煎箲椤斿灝绐涢柟璨夊倻鐟㈤柛娆樺灥椤宕犻弽顑帡寮搁敓锟�
濞戞挸顑堝ù鍥Υ婵犲嫮鐭庨柤宕囧仜閸炴挳鎽傜€n剚顏ら悹鎰╁妺缁ㄧ増鎷呭⿰鍐ㄧ€婚柡瀣姈閺岀喎鈻旈弴鐘虫毄閻庢稒鍔掗崝鐔煎Υ閿燂拷