A realistic FastQ-based framework FastQDesign:开启单细胞 RNA 测序研究设计新篇章

《Communications Biology》:A realistic FastQ-based framework FastQDesign for ScRNA-seq study design issues

【字体: 时间:2025年04月03日 来源:Communications Biology 5.2

编辑推荐:

  在单细胞 RNA 测序(scRNA-seq)研究设计中,现有方法存在局限。研究人员开展了基于 FastQ 的研究,提出 FastQDesign 框架。结果显示该框架能有效学习知识、提供设计指导。这为 scRNA-seq 实验设计提供了实用方案,助力相关研究。

  在生命科学研究领域,单细胞 RNA 测序(single-cell RNA sequencing,scRNA-seq)宛如一把精准的手术刀,能深入到单个细胞层面剖析转录组特征,为探索细胞的奥秘立下汗马功劳。它在揭示细胞异质性、细胞分化以及基因调控等关键生命过程中发挥着不可替代的作用,已然成为现代生物学和生物医学研究的核心技术之一。然而,这项技术在实际应用时却遭遇诸多难题。
成功开展 scRNA-seq 实验,精确考量细胞数量和测序深度至关重要,这两个因素直接关乎实验结果的准确性、灵敏度以及成本效益。可现有的实验设计方法大多依赖于模拟,并且以独特分子标识符(Unique Molecular Identifier,UMI)矩阵为基础。这些方法存在不少漏洞,比如无法精准地将基于 UMI 矩阵的设计转化为实际的原始 FastQ reads 数据。在文库制备环节,UMI 添加到序列后经过 PCR 扩增,这就导致多个 FastQ reads 可能对应同一个 UMI,而且由于扩增偏差,不同 UMI 对应的 reads 数量差异很大。所以,单纯假定所有转录本的 read-to-UMI 比例恒定,根本无法如实反映真实的数据结构。另外,现有方法探索的设计选项有限,常聚焦于特定细胞类型频率或单一细胞类型内的差异表达标记,难以适应真实数据的多样性和复杂性。而且,基于模拟的方法还依赖一些参数模型,这些模型可能无法很好地契合数据,遗漏了真实的生物复杂性。

为了突破这些困境,来自美国威斯康星医学院(Medical College of Wisconsin)的研究人员勇挑重担,开展了一项意义非凡的研究。他们提出了首个基于 FastQ 的研究设计框架 ——“FastQDesign”,并将相关成果发表在《Communications Biology》上。这一研究成果犹如一颗璀璨的新星,为 scRNA-seq 研究设计带来了新的曙光。

研究人员为开展这项研究,运用了多种关键技术方法。他们利用从公开可用数据集获取的原始 FastQ 文件作为参考,借助下采样技术生成不同细胞数量和测序深度的伪设计数据集。通过计算调整兰德指数(Adjusted Rand Index,ARI)、杰卡德指数(Jaccard index)和肯德尔 tau 系数(Kendall’s τ)等稳定性指标,来评估伪设计数据集与参考数据集的相似性。同时,使用形状约束加性模型(shape-constrained additive model,SCAM)对相似性表面进行拟合,以实现二维设计优化,并进行成本效益分析。此外,研究中还使用了 R 包 Seurat 进行数据预处理、细胞聚类和差异表达基因分析,以及使用 monocle3 计算细胞伪时间。在模拟研究中,运用 R 包 Splatter 模拟 UMI 矩阵,并通过特定的负二项分布模拟 UMI 重复数来代表有效 FastQ reads。

下面我们详细看看具体的研究结果:

  1. FastQDesign 框架设计 scRNA-seq 实验:该框架主要包含三个核心步骤。第一步是准备参考数据集并获取伪设计样本,利用 10X genomics 的 Cellranger 软件处理原始 FastQ reads,通过下采样技术从参考数据中生成伪设计数据集。第二步是评估伪设计数据集与参考数据集的相似性,从细胞聚类、聚类标记基因和细胞伪时间排序三个方面进行考量,定义相似性指数为所有稳定性指数的平均值,进而生成三维相似性表面。第三步是在预算或相似性约束下进行二维设计优化,将设计成本表示为细胞数量和测序深度的函数,作为优化的约束条件,评估共享设计和个体设计两种策略。
  2. FastQ reads 预处理及相关关系探究:研究人员定义了一系列评估数据集质量的关键术语,对非肥胖糖尿病(NOD)小鼠数据集进行预处理后发现,原始 FastQ reads 与 UMI 计数矩阵之间并非线性关系,大多数 UMI 有多个对应 reads,且随着下采样率变化,UMI 恢复率与下采样率呈非线性关系,这表明设计实验时不能简单假设两者为线性关系。
  3. fastF 软件的开发及优势:为解决现有 FastQ reads 下采样管道的不足,研究人员开发了高效软件 fastF。benchmark 测试显示,与现有管道相比,fastF 在 CPU 时间、内存和存储缓存使用上显著降低,分别减少 73.3%、96.1% 和 72.4%,极大提升了下采样计算效率。
  4. 伪设计数据集的稳定性评估
    • 细胞聚类稳定性:研究发现,在仅使用 10% 总 reads 的情况下,基于 FastQ 的下采样得到的细胞聚类识别依然稳定(ARI = 0.945),而直接对 UMI 矩阵下采样则会严重干扰细胞聚类(ARI = 0.671),且细胞数量对细胞聚类稳定性的影响比测序深度更大。
    • 聚类标记基因稳定性:通过计算 Jaccard 指数评估聚类标记基因的稳定性,结果表明,在不同设置下,测序深度对聚类标记基因稳定性的影响大于细胞数量。例如,当 FastQ 时,伪设计数据集与完整数据集的聚类标记基因一致性较强(Jaccard = 0.53);而当 UMI 时,一致性较弱(Jaccard = 0.09)。
    • 条件间标记基因稳定性:使用 Jaccard 指数量化条件间(AI vs. BM)标记基因的稳定性,发现当前的细胞数量和测序深度在维持条件间标记基因稳定性方面饱和度较低,信号相对较弱。

  5. 稳定性指数与细胞数量和测序深度的关系:系统分析表明,随着测序深度降低,所有稳定性指数均下降,且 reads 对 ARI 的影响明显弱于对 Jaccard 指数的影响,UMI 下采样时 Jaccard 指数下降更快。而细胞数量变化对 Jaccard 指数的影响大于 ARI,尤其是在跨条件比较时,细胞数量下降会使 Jaccard 指数迅速降低。
  6. 二维最优设计及约束条件:定义相似性分数 S 来衡量伪设计数据集与完整数据集的整体稳定性,通过拟合 SCAM 模型进一步平滑二维表面。以预算或期望相似性分数为约束条件,进行二维优化设计。结果显示,共享设计和个体设计在不同约束下有不同的最优设计方案。
  7. FastQDesign 的模拟研究验证:通过模拟研究验证 FastQDesign 框架的有效性,结果表明其与 scDesign2 和 scDesign3 性能相当,且在生成伪设计数据集时计算效率更高、内存使用量更低,还能计算 ARI 评估细胞聚类稳定性。
  8. 真实数据示例
    • 野生型与敲入数据集:对野生型和敲入小鼠模型数据集分析发现,FastQDesign 在细胞数量和测序深度降低时,细胞聚类和聚类标记基因稳定性变化趋势明显,成本效益分析得出不同约束下的最优设计方案。
    • 时间序列数据集:在研究 CD4+ T 细胞调节 CD8+ T 细胞分化的时间序列数据集上,FastQDesign 同样展现出良好性能,不同稳定性指数受细胞数量和测序深度影响各异,成本效益分析也确定了相应的最优设计。

  9. 细胞注释工具与研究设计的关系:以 Azimuth 为例,研究发现细胞注释工具的性能受细胞数量和测序深度影响较大,即使有参考映射工具,合理的研究设计依然不可或缺。
  10. 其他参考数据集的分析:对六个来自 10X Genomics 的参考数据集分析发现,不同数据集受细胞数量和测序深度的影响不同,部分数据集可通过优化设计降低成本并保持性能。

在讨论部分,研究人员再次强调考虑 FastQ reads 而非 UMI 计数矩阵进行 scRNA-seq 研究设计的必要性。基于 UMI 计数矩阵的稳定性分析可能导致获取更深的序列深度,且无法准确估计实际所需 reads 数量。相比之下,FastQDesign 能从任何输入数据中提取经验信息,适应不断增加的公开数据集。同时,研究也揭示了参考注释工具 Azimuth 的局限性,表明合理研究设计的重要性。此外,fastF 软件为单细胞研究提供了灵活准确的下采样能力。虽然 FastQDesign 目前存在一些局限性,如预训练参考数据集数量有限、仅适用于 10X Genomics 单细胞测序 UMI - 基于的协议,但研究人员计划未来进行改进和扩展,致力于创建一个全面的 scRNA-seq 研究设计图谱。这项研究为 scRNA-seq 实验设计提供了创新的方法和实用的指导,有力推动了单细胞研究领域的发展,让我们对细胞的微观世界有了更深入、更准确的认识,为生命科学和医学研究奠定了更坚实的基础。

娑撳娴囩€瑰宓庢导锔炬暩鐎涙劒鍔熼妴濠団偓姘崇箖缂佸棜鍎禒锝堥樋閹活厾銇氶弬鎵畱閼筋垳澧块棃鍓佸仯閵嗗甯扮槐銏狀洤娴f洟鈧俺绻冩禒锝堥樋閸掑棙鐎芥穱鍐箻閹劎娈戦懡顖滃⒖閸欐垹骞囬惍鏃傗敀

10x Genomics閺傛澘鎼isium HD 瀵偓閸氼垰宕熺紒鍡氬劒閸掑棜椴搁悳鍥╂畱閸忋劏娴嗚ぐ鏇犵矋缁屾椽妫块崚鍡樼€介敍锟�

濞嗐垼绻嬫稉瀣祰Twist閵嗗﹣绗夐弬顓炲綁閸栨牜娈慍RISPR缁涙盯鈧鐗哥仦鈧妴瀣暩鐎涙劒鍔�

閸楁洜绮忛懗鐐寸ゴ鎼村繐鍙嗛梻銊ャ亣鐠佹彃鐖� - 濞e崬鍙嗘禍鍡毿掓禒搴n儑娑撯偓娑擃亜宕熺紒鍡氬劒鐎圭偤鐛欑拋鎹愵吀閸掔増鏆熼幑顔垮窛閹貉傜瑢閸欘垵顫嬮崠鏍掗弸锟�

娑撳娴囬妴濠勭矎閼崇偛鍞撮摂瀣鐠愩劋绨版担婊冨瀻閺嬫劖鏌熷▔鏇犳暩鐎涙劒鍔熼妴锟�

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号