单细胞长读长测序生物信息学框架:解锁异构体分辨率的新纪元
《Briefings in Bioinformatics》:Bioinformatics frameworks for single-cell long-read sequencing: unlocking isoform-level resolution
【字体:
大
中
小
】
时间:2025年12月12日
来源:Briefings in Bioinformatics 7.7
编辑推荐:
本研究针对单细胞RNA测序(scRNA-seq)在异构体分辨率方面的技术瓶颈,系统综述了单细胞长读长测序(SCLR-seq)的生物信息学分析框架。研究人员详细评估了Pacific Biosciences和Oxford Nanopore Technologies等第三代测序平台的技术特点,开发了包括FLAMES、SiCeLoRe等在内的专用分析工具,实现了从细胞条形码识别到异构体定量分析的全流程优化。该研究为在单细胞水平全面解析选择性剪接(AS)和转录本多样性提供了重要方法论支持,对揭示疾病相关剪接异常具有重大意义。
在分子生物学研究领域,基因表达调控的核心机制之一——选择性剪接(Alternative Splicing, AS)长期以来一直是科学家关注的焦点。这种机制使得单个基因能够产生多个不同的转录本异构体,从而极大地扩展了蛋白质组的多样性。研究表明,超过95%的多外显子人类基因都会经历选择性剪接,平均每个基因产生约14.6个不同的异构体。这种精细的调控机制在细胞分化、发育过程以及组织特异性功能中发挥着至关重要的作用。
然而,当选择性剪接调控出现异常时,就会导致多种人类疾病的发生。从神经发育障碍到癌症,从代谢性疾病到心血管疾病,剪接异常都与疾病的发生发展密切相关。例如,在凋亡相关基因BCL2L1和CASP2中,不同的异构体甚至可能具有完全相反的功能,一些促进细胞凋亡,而另一些则抑制凋亡,这些异构体的相对表达水平直接决定了细胞的命运。
传统的转录组研究方法面临着重要技术挑战。虽然批量RNA测序能够提供基因表达的整体视图,但它无法捕捉到组织内不同细胞类型之间的异质性。而单细胞RNA测序(scRNA-seq)虽然能够解析细胞间的差异,但由于短读长测序技术的限制,往往难以准确重建全长转录本异构体。这种技术局限性严重制约了我们对细胞特异性剪接事件的理解,特别是在复杂疾病如癌症研究中,不同细胞亚群可能表现出独特的剪接模式,这些细微的差异在批量测序数据中很容易被掩盖。
随着第三代测序技术(Third-Generation Sequencing, TGS)的快速发展,单细胞长读长测序(Single-Cell Long-Read Sequencing, SCLR-seq)应运而生。这项技术结合了单细胞分辨率和高通量全长转录本测序的优势,能够直接观测单个细胞中的完整RNA分子,有些甚至超过10万个核苷酸的长度。SCLR-seq不仅能够更准确地表征异构体多样性,识别新的剪接变异体,还能定量分析剪接百分比(Percent Spliced-In, PSI)值和检测融合转录本,为研究细胞特异性剪接调控提供了前所未有的机会。
在这篇发表在《Briefings in Bioinformatics》上的综述文章中,Saloni Bhatia等人系统梳理了SCLR-seq技术的最新进展,特别关注了专门为此技术设计的生物信息学工具和分析流程。研究人员详细介绍了从原始信号处理到下游分析的全套计算方法,包括细胞条形码(Cell Barcode, CB)和唯一分子标识符(Unique Molecular Identifier, UMI)提取、转录本组装与定量、细胞聚类与注释等关键步骤。同时,文章还重点讨论了SCLR-seq在人类健康研究中的具体应用,特别是在癌症、神经发育 disorders 和免疫细胞多样性研究中的重要发现。
关键技术方法方面,研究人员主要采用了系统文献综述和生物信息学工具评估的方法。他们全面调研了Pacific Biosciences(PacBio)和Oxford Nanopore Technologies(ONT)两大主流长读长测序平台的技术特点,分析了包括10x Genomics Chromium、Smart-seq2和Parse Biosciences等多种单细胞文库制备方法的优缺点。通过对FLAMES、SiCeLoRe、SCOTCH等专用分析工具的深入比较,建立了完整的SCLR-seq数据分析框架。研究还特别关注了临床样本(如卵巢癌、结直肠癌组织)的分析应用,验证了这些方法在真实世界数据中的有效性。
研究人员系统比较了多种SCLR-seq文库制备策略,包括基于液滴的、基于平板的和基于微孔的方法。其中,10x Genomics Chromium平台因其高通量特性而广泛应用,但存在3'或5'捕获偏差的问题。相比之下,平板式全长protocols如SMART-seq2能够提供更均匀的转录本覆盖,但通量较低。文章还详细介绍了ScISOr-Seq、ScNaUmi-seq、FLT-Seq等新兴protocols的技术特点和应用场景,为不同研究需求提供了方法学参考。
SCLR-seq数据分析面临诸多独特挑战,包括较高的单读错误率、条形码或UMI丢失、缺乏明确的读长结构等。文章详细介绍了从原始信号处理开始的全套分析流程:首先通过basecaller软件将原始信号转换为FASTQ格式,然后使用BLAZE、Flexiplex等工具提取和校正CB与UMI。在转录本组装和定量阶段,工具如FLAMES、SiCeLoRe采用不同的策略处理长读长数据特有的技术问题,如嵌合读长的识别和分割。
获得定量结果后,使用SQANTI3等工具进行详细的异构体分类和过滤至关重要。这些工具能够区分高质量异构体与技术假象,通过比较转录本结构特征与外部注释,将异构体分类为完全剪接匹配、不完全剪接匹配、目录中新奇(NIC)和非目录中新奇(NNIC)等类别。这一步骤确保了后续分析的可靠性,为下游功能注释提供了坚实基础。
在单细胞水平进行聚类和注释后,研究人员能够深入探索不同细胞类型或状态下的转录组多样性。SCLR-seq使得识别差异性和细胞类型特异性剪接事件成为可能,同时能够定量相对异构体丰度。文章特别介绍了percent spliced-in(PSI)指标的应用,该指标能够阐明所有类型的AS事件,包括外显子跳跃、互斥外显子、替代3'/5'剪接和内含子保留等。
文章通过多个具体案例展示了SCLR-seq的强大应用价值。在癌症研究领域,Dondi等人通过对卵巢癌临床样本进行SCLR-seq分析,发现间皮细胞通过TGF-β(transforming growth factor-beta)/miR-29/胶原蛋白轴转化为癌症相关成纤维细胞。Li等人利用SCLR-seq探索结直肠癌的转录组复杂性,生成了全面的异构体图谱,发现了肿瘤上皮细胞中的新异构体,其中一些能够产生与MHC分子具有强结合亲和力的新抗原表位,为开发广泛适用的新抗原癌症疫苗提供了可能。
在神经发育研究方面,Yang等人通过对脑类器官进行单细胞测序发现,自闭症大脑的AS事件更接近祖细胞状态而非分化神经元状态,突出了细胞类型特异性剪接在自闭症中的重要性。此外,SCLR-seq还能够与空间转录组学技术结合,如Spl-ISO-seq方法将分辨率提高到约10μm,近乎单细胞水平,进一步解析了异构体表达的空间模式。
研究结论表明,SCLR-seq技术正在快速成熟并多样化发展,多个代表性数据集的出现为跨平台性能评估提供了标准化参考。尽管SCLR-seq面临着计算资源需求大、技术复杂性高、成本较高等挑战,但其在解析细胞异质性和转录组复杂性方面的独特优势使其成为未来生物医学研究的重要工具。随着专用计算流程的持续开发和优化,SCLR-seq有望在转化研究和精准医疗中发挥更大作用,特别是在复杂疾病机制解析和新型治疗靶点发现方面具有巨大潜力。
该研究的重大意义在于首次系统整合了SCLR-seq领域的生物信息学方法学进展,为研究人员提供了全面的技术指南和分析框架。通过详细比较不同平台和工具的优缺点,文章为后续研究的方法选择提供了重要参考。随着SCLR-seq技术的不断发展和成本的降低,预计将在不远的将来独立于短读长测序而广泛应用,从而更深入地揭示转录组多样性在生理和病理条件下的调控机制。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号