转录组大小对单细胞RNA-seq归一化和大量反褶积很重要

【字体: 时间:2025年02月02日 来源:Nature Communications

编辑推荐:

  现有的细胞类型反卷积方法对研究肿瘤环境至关重要,但忽略了一些关键问题。在这里,作者分析了这些问题对反卷积的影响,并开发了对抗它们的方法,显著提高了混合物的细胞类型百分比预测精度。

  

转录组大小对单细胞 RNA 测序归一化和批量反卷积的影响研究解读


美国圣裘德儿童研究医院(St. Jude Children’s Research Hospital)的 Songjian Lu、Jiyuan Yang 等研究人员在《Nature Communications》期刊上发表了题为 “Transcriptome size matters for single-cell RNA-seq normalization and bulk deconvolution” 的论文。该研究聚焦于单细胞 RNA 测序(scRNA-seq)数据归一化和批量 RNA 测序细胞反卷积中常被忽视的转录组大小差异问题,开发了 ReDeconv 算法,为相关研究提供了新的标准和方法,对推动生物医学研究进展具有重要意义。

一、研究背景


在生物医学研究领域,深入了解组织内细胞组成对于揭示疾病发生发展机制至关重要。单细胞 RNA 测序技术的出现,使研究人员能够从单细胞层面解析基因组表达谱,极大地推动了对细胞异质性的研究。然而,如何对 scRNA-seq 数据进行合理归一化处理,以准确反映生物学信息,仍是一个备受争议的问题。

不同细胞类型的转录组大小存在显著差异,这种差异源于真实的生物学变化,但当前的 scRNA-seq 技术在测量转录组大小时,会受到样本制备、平台选择和测序深度等技术因素的影响。为解决数据可比性问题,现有 scRNA-seq 分析算法常采用每 10K 计数(CP10K)归一化方法,该方法虽能消除技术因素影响,但同时也去除了由生物变化引起的转录组大小差异,导致基因表达水平出现不均衡的缩放效应,影响了不同细胞类型间差异表达基因(DEGs)的准确识别。

批量 RNA 测序虽不能提供单个细胞的表达谱,但具有成本低、基因覆盖度高、对固定样本适用性强等优势。准确解析批量样本中各细胞类型的比例,能够挖掘大量现有批量数据集的潜在价值。然而,由于不同细胞类型转录组大小的差异、技术差异以及生物噪声等因素,当前的反卷积方法面临诸多挑战,现有方法无法有效解决这些问题,导致反卷积结果存在偏差,影响下游分析。

二、研究材料与方法


(一)数据来源


研究使用了多种单细胞和批量 RNA 测序数据集,包括小鼠全皮质与海马体、人类初级运动皮层的单细胞数据集,以及来自人类大脑、胶质母细胞瘤、血液和肺癌样本的批量 RNA 测序数据集等。这些数据集为研究转录组大小差异、评估算法性能提供了丰富的数据基础。

(二)关键技术路线


  1. ReDeconv 框架构建:开发 ReDeconv 框架,旨在改进 scRNA-seq 数据分析流程,并提高批量 RNA 测序细胞反卷积的准确性。该框架针对现有方法未解决的三类问题(Type-I、Type-II 和 Type-III 问题)进行设计,通过创新的归一化方法和建模策略来优化分析结果。
  2. CLTS 归一化方法:提出基于线性化转录组大小的计数(CLTS)归一化方法。对于单样本 scRNA-seq 数据,CLTS 直接利用原始计数进行下游分析;对于多样本数据,CLTS 依据不同样本间相同细胞类型平均转录组大小的线性关系进行归一化,在消除技术效应的同时保留细胞类型间转录组大小的差异。
  3. 解决三类问题的策略:针对 Type-I 问题,使用 CLTS 对参考 scRNA-seq 数据进行归一化;针对 Type-II 问题,对批量 RNA-seq 数据选择性应用 TPM 或 RPKM/FPKM 归一化;针对 Type-III 问题,将表达方差信息整合到反卷积建模中,并选择表达稳定的特征基因构建 scRNA-seq 参考。
  4. 合成数据与真实数据评估:构建多个合成批量 RNA-seq 数据集,模拟不同的细胞组成情况,同时使用公开的真实批量 RNA-seq 数据,对比 ReDeconv 与 BayesPrism、CIBERSORTx 和 MuSiC 等流行反卷积算法的性能,评估指标包括预测细胞比例与真实值的误差、相关性等。

三、研究结果


(一)ReDeconv 框架


ReDeconv 框架主要致力于改进 scRNA-seq 数据分析流程,提供转录组大小校正的归一化算法,并解决影响批量 RNA-seq 细胞反卷积准确性的关键问题。研究发现,应用 CP10K 归一化的 scRNA-seq 数据作为批量 RNA-seq 反卷积的参考时,会产生缩放效应(Type-I 问题),影响细胞反卷积结果,尤其对肿瘤微环境中的稀有细胞类型影响显著;批量 RNA-seq 样本文库制备过程中的基因长度效应(Type-II 问题)以及参考样本和混合样本中相同细胞类型基因表达差异被忽视(Type-III 问题),也会对反卷积产生不良影响。ReDeconv 通过独特的建模方法,分别针对这三类问题进行处理,以提高细胞分解结果的可靠性和精确性。

(二)ReDeconv 整合转录组大小用于 scRNA-seq 归一化


通过分析小鼠和人类的单细胞数据集,研究人员发现不同细胞类型的转录组大小存在显著差异,且同一细胞类型在不同样本间的转录组大小具有很强的线性相关性,这表明转录组大小差异是细胞的固有生物学特征。与广泛使用的 CP10K 归一化方法相比,CLTS 归一化方法不仅能保留不同细胞类型的转录组大小信息,还能有效减轻技术因素对转录组大小的影响。在处理来自不同样本的相同细胞类型时,CLTS 归一化后的数据能使这些细胞保持相似的转录组大小均值,同时保留不同细胞类型之间的转录组大小多样性,为后续分析提供更准确的数据基础。

(三)ReDeconv 纠正 CP10K 误识别的差异表达基因


以小鼠脑样本中的星形胶质细胞(AS)和 L5 IT CTX 神经元细胞(L5)为例,研究对比了 CLTS 和 CP10K 归一化对基因表达的影响。结果显示,CP10K 归一化会导致不同细胞类型基因表达的缩放效应,使基因表达失去可比性,例如某些基因在 L5 和 AS 细胞中的表达趋势在 CP10K 归一化后出现反转。而 CLTS 归一化能够有效避免这种情况,忠实反映基因的真实表达水平。通过与 CosMx 数据对比,CLTS 归一化数据在基因表达倍数变化方向上与 CosMx 数据的一致性更高,能更准确地识别差异表达基因。在人类脑样本数据中,也得到了类似的验证结果,进一步证明了 CLTS 归一化在识别差异表达基因方面优于 CP10K 归一化。

(四)ReDeconv 在合成数据中提供准确的批量细胞反卷积


研究构建了六个合成批量 RNA-seq 数据集,对比 ReDeconv 与 BayesPrism、CIBERSORTx 和 MuSiC 的性能。在合成数据测试中,ReDeconv 的预测结果与真实值极为接近,平均细胞类型比例与理论值一致,标准差极小,相对误差也最低。而其他三种方法的预测结果与真实值偏差较大,例如 BayesPrism 高估了某些神经元细胞的比例,MuSiC 则低估了星形胶质细胞的丰度。在不同细胞比例混合的合成数据集中,ReDeconv 均表现出卓越的准确性和稳健性,其预测结果不受细胞类型数量和比例的影响,始终能准确推断细胞组成。

(五)ReDeconv 在真实数据中优于其他反卷积方法


在真实批量 RNA-seq 数据评估中,使用含有不同数量六种细胞系的混合样本数据和主要由一种细胞类型组成的排序样本数据进行测试。结果表明,ReDeconv 在预测细胞类型比例与真实值的相关性方面表现最佳,在预测稀有和丰富细胞类型时的相对误差均最小。在识别主要细胞类型的任务中,ReDeconv 在多数样本中能准确识别,而其他方法则存在较多错误。这充分证明了 ReDeconv 在处理真实数据时,能够更准确地推断细胞类型比例,为下游分析提供更可靠的结果。

(六)Type-I 和 Type-II 问题对批量反卷积的影响


通过向 ReDeconv 输入不同格式的批量和 scRNA-seq 数据对,以及对 BayesPrism、CIBERSORTx 和 MuSiC 使用不符合其手册指南的 scRNA-seq 和批量 RNA-seq 数据格式,研究评估了 Type-I 和 Type-II 问题对细胞反卷积的影响。结果发现,Type-I 问题会导致所有方法产生相似且一致的偏差,使反卷积结果高估大转录组大小细胞类型的比例,低估小转录组大小细胞类型的比例,且这种偏差与细胞类型的转录组大小呈强正相关。Type-II 问题同样对反卷积结果有显著影响,不同的归一化策略会导致预测分数发生变化,且与所选的特征基因有关。综合评估发现,这两类问题对反卷积结果的影响不容忽视,且它们的影响并非简单的累积效应。

(七)解决 Type-III 问题提高稀有细胞类型的反卷积效果


对比 ReDeconv 和 MuSiC 在处理 Type-III 问题上的表现,结果显示,在合成数据和真实数据评估中,ReDeconv 通过解决 Type-III 问题,在预测稀有细胞类型比例时相对误差更小,结果更稳定。在使用不同参考数据对相同批量 RNA-seq 样本进行反卷积时,ReDeconv 的结果相对稳定,而 BayesPrism、CIBERSORTx 和 MuSiC 的结果则变化较大。这表明解决 Type-III 问题对提高反卷积的稳健性和可靠性至关重要,ReDeconv 在处理此类问题上具有明显优势,即使在其他方法不存在 Type-I 和 Type-II 问题的情况下,仍能表现出更好的性能。

四、研究结论与讨论


ReDeconv 算法通过引入 CLTS 归一化方法,有效解决了 scRNA-seq 数据归一化和批量 RNA-seq 细胞反卷积中因转录组大小差异引发的一系列问题,在识别差异表达基因和批量反卷积分析中展现出显著优势,为传统 scRNA-seq 数据分析流程提供了重要补充。

当前常用的 CP10K 归一化方法虽能使数据具有可比性,但并非最优选择,在处理不同细胞类型基因表达差异时存在局限性。CLTS 归一化方法在保留细胞间生物学差异的同时,有效减轻了技术因素的影响,为后续分析提供了更准确的数据。同时,ReDeconv 还解决了批量 RNA-seq 反卷积过程中的 Type-II 和 Type-III 问题,提高了反卷积的准确性和稳健性。

在实际研究中,Type-I 和 Type-II 问题常被忽视,这可能导致反卷积结果出现偏差,影响对实验结果的解读。未来研究可以进一步探索 ReDeconv 在去除 “批次效应” 方面的能力,以及优化算法以提供推断的表达谱功能,为生物医学研究提供更全面、准确的分析工具。此外,研究中总结的不同单细胞和批量 RNA-seq 数据输入组合下的反卷积场景,可为后续研究选择合适的归一化方法提供重要参考,有助于推动生物医学领域对细胞组成和功能的深入理解,促进相关疾病诊断和治疗研究的发展。

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
    生物通微信公众号
    微信
    新浪微博
    • 搜索
    • 国际
    • 国内
    • 人物
    • 产业
    • 热点
    • 科普

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号