编辑推荐:
在癌症研究中,基因表达谱是识别生物标志物的有效方法,但易受预分析变量干扰。研究人员收集 18 个数据集,评估 10 个预分析变量对基因表达测量和相对表达排序(REOs)的影响。结果显示 REOs 更具稳健性,为转录组学和生物标志物研究提供新方向。
癌症,这个全球范围内人类健康的 “头号杀手”,时刻威胁着人们的生命。在与癌症的斗争中,基因表达谱成为了科学家们探索肿瘤奥秘的有力武器。通过同时测量数千个基因的活性,它能揭示肿瘤的分子特征,帮助找到用于诊断、预测预后和治疗反应的生物标志物,像获批用于评估乳腺癌复发风险的 Oncotype DX Breast Recurrence Score,还有用于前列腺癌预测治疗反应和复发可能性的 Prolaris。
然而,看似强大的基因表达测量却有着 “致命弱点”。在实际操作中,从样本采集到数据生成的一系列过程中,存在着众多预分析变量,如采样方法、肿瘤样本异质性、固定时间延迟、保存条件、降解水平、文库制备试剂盒、扩增试剂盒、RNA 数量、测量平台以及实验室地点等。这些变量就像隐藏在黑暗中的 “捣蛋鬼”,让基因表达测量变得不准确、充满不确定性,极大地限制了像 Oncotype DX 和 Prolaris 这类检测方法的应用。此前虽然有研究关注到相对表达排序(Relative Expression Orderings,REOs)在部分预分析变量影响下的稳健性,但多基于模拟数据,且未全面考虑多个变量的综合作用。因此,全面评估这些预分析变量对基因表达分析的影响迫在眉睫。
为了解开这些谜团,赣南医学院第一附属医院医学大数据与生物信息学研究中心等机构的研究人员挺身而出,开展了一项极具意义的研究。他们收集了 18 个数据集,涵盖 800 多对样本,通过单变量和多变量分析,评估 10 个预分析变量对基因表达测量和基因对 REOs 的影响。最终,他们发现这些预分析变量会使数千个基因的表达测量发生两倍变化,然而基因对的 REOs 在这些变量的影响下却展现出更高的稳健性。这一发现意义重大,为转录组学研究和生物标志物研究开辟了新的道路,有望推动癌症临床实践的发展,该研究成果发表在《Scientific Reports》上。
研究人员在研究过程中运用了多种关键技术方法。首先,从公共数据库(如 Gene Expression Omnibus(GEO)、The Cancer Genome Atlas(TCGA)和 Sequence Read Archive(SRA))筛选出基于寡核苷酸技术或 Illumina 测序技术的基因表达数据,且只选择配对样本以减少不可观测变量的影响。接着,进行差异表达分析,计算基因表达的倍数变化(Fold Change,FC)来确定差异表达基因(Differentially Expressed Genes,DEGs);同时,通过特定公式量化 REOs 的一致性分数,以此评估预分析变量的影响。
下面来详细看看研究结果:
- 单预分析变量的影响:
- 采样方法:对比食管癌和乳腺癌的手术、活检及细胞学样本,发现活检和细胞学样本(作为病例组)与手术样本(对照组)相比,平均有数千个基因表达值出现两倍变化,但 REOs 平均一致性分数超 86%,排除 10% 表达最接近的基因对后,该分数进一步上升。
- 肿瘤样本异质性:以胃癌和结肠癌样本为例,肿瘤上皮细胞比例低的样本(病例组)与比例高的样本(对照组)相比,大量基因表达改变,不过 REOs 平均一致性分数达 89.24%,排除部分基因对后分数提高。
- 固定时间延迟、保存条件和降解水平:对骨髓、肺癌、乳腺癌等样本研究发现,随着固定时间延迟增加、样本降解程度加深,基因表达改变的数量增多,REOs 一致性分数虽有所下降,但整体仍较高,且降解样本的 REOs 一致性分数高于高度降解样本。
- RNA 数量:比较不同 RNA 输入量的样本,发现低输入量样本与高输入量样本相比,许多基因表达变化,REOs 一致性分数随 RNA 输入量降低而下降,但排除部分基因对后,多数 REOs 仍稳定。
- 测量平台:分析乳腺癌样本在不同测量平台的数据,发现平台差异使大量基因表达改变,样本 REOs 平均一致性分数为 73.28%,排除部分基因对后分数有所上升。
- 实验室地点:研究不同实验室测量的样本,发现基因表达有变化,REOs 平均一致性分数在 80% 左右,排除部分基因对后分数提高。
- 文库制备试剂盒:研究不同试剂盒处理的样本,部分组 REOs 一致性分数受 RNA 类型影响,排除特定组后分数上升,且在不同降解程度样本中也有类似趋势。
- 扩增试剂盒:分析淋巴瘤和结肠癌样本,使用不同扩增试剂盒的样本有基因表达变化,REOs 一致性分数在 77% - 81% 之间,排除部分基因对后分数增加。
- 多预分析变量的影响:评估多个变量组合的影响时发现,不同变量组合会使基因表达测量发生变化,同时 REOs 一致性分数虽有所波动,但在排除部分基因对后仍呈现上升趋势,表明 REOs 在多变量影响下也具有一定稳健性。
- REOs 与基因表达测量的稳健性比较:通过计算多个指标进行量化分析,发现无论是单变量还是多变量分析,预分析变量对基因表达测量的影响都大于对 REOs 的影响,且涉及 DEGs 的基因对中,显著反转基因对的比例较低,进一步证明 REOs 的稳健性更高。
研究结论表明,单变量和多变量分析都显示 10 个预分析变量会导致数千个基因表达测量发生两倍变化,而基因对的 REOs 在这些变量影响下表现出更高的稳健性。这意味着基于 REOs 的特征在临床实践中具有很大的潜力,可能为癌症的诊断、预后评估和治疗方案选择提供更可靠的依据。
在讨论部分,研究人员指出,虽然预分析变量对基因表达测量影响显著,但 REOs 的稳健性可能源于其定性特征,尽管它可能忽略基因表达的细微定量信息,但这些细微信息本身就不太可靠,所以这反而成为了 REOs 的优势。同时,研究也存在一些局限性,如数据仅来自人类肿瘤组织或参考 RNA,多变量分析无法涵盖所有变量组合,部分单变量分析样本量有限等。不过,这项研究为后续研究指明了方向,后续研究可设计更完善的实验,增加样本数量,进一步探索 REOs 在癌症研究及其他领域的应用,有望为癌症治疗带来新的突破,推动生命科学和健康医学领域的发展。