综述:利用血浆转录组学进行非侵入性癌症生物标志物识别的全面评述
《Hormones & Cancer》:Harnessing plasma transcriptomics for non-invasive cancer biomarker identification: a comprehensive review
【字体:
大
中
小
】
时间:2025年12月09日
来源:Hormones & Cancer
编辑推荐:
本综述系统阐述了血浆转录组学(Plasma transcriptomics)在非侵入性癌症生物标志物发现中的前沿进展。文章重点探讨了高通量测序(RNA-seq)、单细胞RNA测序(scRNA-seq)等核心技术,并详细解析了差异表达基因(DEGs)分析、通路富集、蛋白质相互作用(PPI)网络构建等生物信息学流程。同时,综述展望了人工智能(AI)辅助的多组学(multi-omics)整合分析等新兴趋势,为推进血浆液体活检(liquid biopsy)在精准肿瘤学(precision oncology)中的临床转化提供了深刻见解。
转录组学(Transcriptomics)是研究细胞中全部转录本的科学,包括信使RNA(mRNA)和各种非编码RNA。在癌症中,转录组的表达水平常常发生改变,分析这些差异表达的转录本有助于识别癌症特异性的基因,这些基因可能作为生物标志物或治疗靶点。此外,转录组分析在预测治疗耐药性、监测疾病进展、识别分子亚型等方面也扮演着关键角色。
与传统组织活检相比,利用血浆进行液体活检(liquid biopsy)为癌症研究提供了一种侵入性更小的替代方案。血浆易于通过静脉穿刺获取,便于重复采样和实时疾病监测,支持癌症的早期发现和治疗反应追踪。本综述旨在概述利用血浆进行转录组分析以用于癌症研究的新兴方法。
RNA测序(RNA-seq)因其高灵敏度和捕获多种RNA的能力,已成为分析血浆样本基因表达谱的强大技术。它能够详细分析生物样本中所有转录的基因,并有效识别疾病状态与健康状态之间的差异表达基因(DEGs),从而支持生物标志物发现和治疗靶点识别。
然而,血浆来源的RNA,尤其是循环细胞游离RNA(cfRNA),通常高度碎片化、含量低且易降解,这对样本处理和RNA提取方法提出了优化要求。此外,原始RNA-seq数据中的接头污染、低质量读数等问题可能影响下游分析,因此在数据分析前进行严格的质量控制至关重要。
多项研究已利用血浆RNA-seq进行癌症研究。例如,在非小细胞肺癌患者血浆中鉴定出COX1、COX2、COX3、ND1、ND2、ND4L、ATP6等差异表达基因。类似地,在结直肠癌患者手术前后血浆的比较中也发现了HPGD、PACS1、TDP2等预后生物标志物。这些研究凸显了血浆RNA-seq在非侵入性癌症生物标志物发现方面的潜力。
单细胞RNA测序(scRNA-seq)能够在单个细胞水平分析基因表达,对于评估肿瘤内异质性具有重要价值。虽然scRNA-seq通常应用于肿瘤组织样本,但它也被用于研究来自组织、外周血单核细胞和血液样本的细胞外囊泡(EVs)。将其应用于血浆来源的EVs,有望探索癌症患者不同EV亚群中的RNA异质性。
然而,scRNA-seq用于血浆分析存在技术挑战,包括RNA含量低、血浆的无细胞特性以及潜在的背景噪音。此外,scRNA-seq的高成本和方法复杂性限制了其在血浆转录组学中的常规应用。
空间转录组学(Spatial Transcriptomics, ST)能够在完整组织切片中分析基因表达的同时保留空间背景信息。该技术对于研究基因表达的空间变异、肿瘤异质性、预后因素和组织特异性相互作用非常有价值。与scRNA-seq在单细胞制备过程中丢失空间信息不同,ST保留了位置信息,能够详细分析肿瘤结构和微环境相互作用。
但是,空间转录组学不适合基于血浆的转录组分析。因为ST需要结构化的组织切片来维持空间基因表达图谱,而血浆作为一种缺乏空间组织的液体基质,与之不兼容。
转录组数据的计算分析通常遵循一个顺序工作流程,包括原始测序读长的质量控制、参考基因组比对、基因表达量化、差异表达分析、通路富集分析和蛋白质-蛋白质相互作用(PPI)网络构建等步骤。
Galaxy和GEO2R是血浆转录组学中最常用的差异表达基因(DEG)分析平台。两者都是高级别、用户友好的平台,使研究人员无需高级计算专业知识即可执行分析。
Galaxy是一个用于科学计算的开源平台,集成了RNA-seq分析的一系列工具,包括质量评估、读长比对、基因量化、DEG分析和数据可视化。其模块化设计和图形界面使其易于被编程背景有限的研究人员使用。
GEO2R是一个基于网络的工具,允许直接比较基因表达库(GEO)中两个或多个组的基因表达。它生成DEG列表和可视化输出,如火山图、维恩图和箱线图,特别适用于快速探索性分析。
除了这些平台,DESeq2、edgeR和limma等统计软件包为具有计算专业知识的研究人员提供了更大的灵活性和精确性。比较评估表明,DESeq2通常比limma识别出更多的DEG,各工具之间具有高度一致性。重要的是,所有这些方法都已成功应用于血浆转录组研究。
DAVID和ShinyGO是癌症研究中用于DEGs通路富集和功能注释的最常用工具。DAVID提供详细的通路名称和统计数据,可与SR Plot等可视化工具结合使用生成富集图。ShinyGO提供了一个更用户友好的界面,可直接生成图形输出,提高了可用性和效率。
其他可用的富集工具包括商业软件Ingenuity Pathway Analysis (IPA)、专家策划的Reactome数据库、开源社区驱动的WikiPathways以及整合多基因集库的EnrichR。这些工具各有特点和局限性,在血浆转录组研究中的应用程度也不同。
STRING是构建基于转录组分析DEGs的蛋白质-蛋白质相互作用(PPI)网络最广泛的资源之一。它整合了计算预测、实验数据和策划知识,提供蛋白质之间的功能和物理关联。这些网络有助于揭示DEGs在蛋白质水平的生物学联系,为疾病潜在通路和机制提供见解。
STRING生成的PPI网络可以使用StringApp插件在Cytoscape中进一步可视化和分析。在网络中,节点代表基因或蛋白质,边代表分子相互作用。CytoHubba等插件可通过排序算法(如度、最大邻域成分密度DMNC、最大团中心性MCC、介数中心性)识别枢纽基因(hub genes)。跨多种排序方法一致识别的基因通常被视为核心枢纽基因,可能是强有力的生物标志物候选者。
除了STRING和Cytoscape,还有其他可用于PPI网络分析的资源,如PiSITE、ComPPI、IntAct和BioGRID,但它们在血浆转录组研究中的应用仍然有限。
评估候选生物标志物的临床潜力通常涉及测试其诊断性能和预后价值。两种常用方法是受试者工作特征(ROC)曲线分析和生存分析。
ROC曲线绘制灵敏度(真阳性率)与1-特异度(假阳性率)的关系,以图形方式表示诊断准确性。曲线下面积(AUC)是关键性能指标,值越接近1.0表示判别能力越强。AUC值高于0.8的生物标志物通常被认为具有临床相关性。easyROC、SR Plot等在线工具常被用于生成ROC曲线。此外,pROC R包或基于Python的实现(如scikit-learn)提供了高级定制和更好的数据控制能力。
生存分析对于评估预后价值同样重要。KM Plotter等工具允许研究人员评估基因表达水平与患者生存结果之间的关联。Kaplan-Meier图可以指示高表达或低表达是否与良好或不良预后相关。更先进的策略,如多基因风险评分模型,可进一步提高预后分层能力。
Meta分析将具有相似目标的多项研究数据结合起来,产生一个更精确的整体效应量估计。在基于血浆的转录组分析中,研究通常在患者人群、样本处理程序和分析技术方面存在差异。Meta分析有助于标准化这些差异,减少异质性,并提供更平衡、可靠的结果综合。
通过整合数据集,Meta分析可以提高癌症生物标志物的诊断准确性,增强统计效能,并提高研究结果的稳健性。这对于样本量较小的血浆研究尤其有益,因为合并多个来源的数据可以克服统计显著性的限制。此外,Meta分析是一种具有成本效益的策略,因为它依赖于现有数据集,而不需要新的、通常昂贵的测序实验。
近年来,涉及血浆、血清和血液差异基因表达数据的癌症生物标志物Meta分析显著增加,表明Meta分析是整合转录组数据以推进我们对癌症生物标志物及其临床应用理解的有力工具。
人工智能(AI)已成为转录组数据分析的重要工具,特别是在管理和解释使用常规方法难以处理的大规模复杂数据集方面。例如,机器学习(ML)算法如XGBoost和Boruta已被应用于利用531例肾透明细胞癌和72例正常对照样本的转录组数据识别肾癌的预后生物标志物。此外,一系列ML方法已被用于分析356例癌组织和345例正常乳腺组织样本的转录组谱,以检测乳腺癌的诊断和预后生物标志物。
除了转录组学,深度学习等AI技术已被用于整合多组学数据(如转录组、蛋白质组、基因组、表观基因组和代谢组学),以增强癌症分类、诊断、预后预测和治疗反应建模。例如,基于AI的深度学习工具——连接自编码器(concatenation autoencoder)被用于整合来自60,000个样本的多组学数据来预测乳腺癌患者的生存率。
研究人员利用深度学习和ML工具整合了肝细胞癌(HCC)患者和正常对照的血浆转录组和脂质组谱,并确定了12个脂质标记物作为HCC诊断标志物。另一项研究利用ML确立了血浆miR-15a/16作为潜在的早期HCC诊断生物标志物。利用AI整合癌症患者血浆来源的多组学数据,特别是在使用大样本量时,在发现用于癌症诊断的、基于血浆的、侵入性更小的新型生物标志物方面具有巨大潜力。
尽管AI在准确性、效率和减少人为错误方面具有显著优势,但其有效实施需要先进的技术专业知识。与传统方法相比,AI辅助方法学习曲线陡峭,使得没有专业计算背景的研究人员难以使用。
整合多组学数据提供了对癌症生物学更全面的视角,使得能够识别通过单组学分析可能遗漏的新型生物标志物。虽然基于组织的研究已经证明了结合转录组和蛋白质组分析的力量,但基于血浆的多组学研究仍未得到充分探索。
例如,一项研究整合了HCC患者血沉棕黄层(buffy coat)的转录组分析和血浆蛋白质组学,并确立了SH3PXD2B和CD70作为潜在的基于血液的HCC生物标志物。类似地,组织转录组分析与血液和血浆蛋白质组分析的结合,在识别乳腺癌不同阶段的生物标志物方面发挥了关键作用,有助于早期诊断和治疗计划。然而,尽管对循环细胞游离RNA(cfRNA)的兴趣日益增长,但专注于 solely 从血浆样本中发现癌症生物标志物的整合转录组研究仍然有限。这一空白可能源于与血浆中cfRNA相关的技术和生物学挑战,包括其低丰度、碎片化以及来自裂解血细胞的潜在污染。尽管如此,未来关于整合血浆转录组分析的研究可能为癌症的微创生物标志物发现开辟新途径。
尽管前景广阔,但基于血浆的转录组分析面临若干挑战。RNA在样本采集和处理过程中极易降解,不当的储存和处理延迟会显著损害RNA完整性。降解的RNA片段可能导致不准确的RNA-seq读数。此外,血浆样本中循环RNA固有的低丰度会损害数据质量。低输入RNA增加了接头二聚体形成和包含非目标读数的风险,这可能污染测序结果。适当的处理方案和高灵敏度的RNA提取方法对于解决这些问题至关重要。
另一个主要挑战是缺乏血浆转录组分析的标准化方案。血液采集储存条件、数据处理流程的可变性会显著影响RNA谱并损害可重复性。用于读长比对、量化和DEGs分析的生物信息学工具的差异进一步导致了不一致的结果。建立标准化方案将有助于最小化研究间的变异性。
将转录组学与其他组学整合也带来了计算挑战,需要先进的统计和分析工具进行有效解释。资源匮乏环境下的研究人员可能在获取所需的技术基础设施和专业知识方面面临困难。此外,测序的高成本仍然是广泛实施的障碍。
以下为未来研究提出一些关键建议,以进一步推进基于血浆的转录组分析:
- •增加基于AI的技术应用,以整合转录组数据与其他组学层面,从而提高癌症诊断、预后和治疗计划的模型准确性。
- •通过开发可重复的生物标志物、在大型多样化患者队列中验证它们、以及标准化RNA提取和分析方案,来推进血浆转录组学的临床转化。
转录组分析是癌症研究中的强大工具,为理解疾病机制、发现生物标志物和识别治疗靶点提供了见解。然而,其在基于血浆的研究中的应用带来了特定挑战,包括RNA降解问题、数据处理的可变性以及整合不同数据类型的复杂性。
尽管存在这些挑战,整合的转录组分析在提高诊断精度和实现个性化治疗方法方面具有巨大潜力。持续努力改进标准化、采用先进的分析工具并在临床环境中验证发现,对于实现血浆转录组学在癌症研究中的全部潜力至关重要。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号