揭秘 PDX 模型测序数据 “杂质”:小鼠读段污染影响几何与高效清除策略

【字体: 时间:2025年04月18日 来源:npj Precision Oncology 6.8

编辑推荐:

  在癌症研究中,患者来源的异种移植(PDX)模型基因组和转录组测序受小鼠读段污染困扰。研究人员对 21 个 PDX 模型测序数据展开研究,评估 12 种去除小鼠读段的计算协议。结果显示 Xengsort 表现最佳。该研究为 PDX 基因组研究提供了重要参考 。

  在癌症研究的奇妙世界里,患者来源的异种移植(Patient-Derived Xenograft,PDX)模型堪称 “明星”,它就像一个桥梁,连接着临床肿瘤样本和实验室研究,让科研人员能更深入地探究癌症的奥秘。PDX 模型是将人类肿瘤细胞或肿瘤碎片移植到宿主动物(通常是小鼠)体内构建而成,为罕见癌症研究保存肿瘤组织立下汗马功劳。
然而,这座 “桥梁” 却遭遇了一个棘手的问题。当科研人员对 PDX 模型进行基因组和转录组测序,试图解读其中的遗传信息时,却发现测序数据里混入了大量来自小鼠细胞的测序读段。这就好比在一幅珍贵的画作上泼洒了颜料,干扰了对肿瘤真实信息的判断。此前小规模研究已发现,这些 “不速之客” 会大幅增加人工突变的误判,还会扭曲基因表达水平。要是在分析时不把这些小鼠读段 “清理” 掉,后续基于测序数据的研究结论很可能就像建在沙滩上的城堡,根基不稳。

为了攻克这个难题,来自美国圣安东尼奥市 Greehey 儿童癌症研究所(Greehey Children’s Cancer Research Institute)等机构的研究人员踏上了探索之旅。他们精心收集了 21 个来自儿童实体瘤的 PDX 模型的全外显子测序(Whole Exome Sequencing,WES)、低通量全基因组测序(Whole Genome Sequencing,WGS)和 mRNA 测序(RNA sequencing,RNAseq)数据,还准备了匹配的正常样本数据,为后续研究打下坚实基础。

研究人员为开展研究,主要运用了以下几种关键技术方法:首先,通过混合小鼠和人类 RNA 测序数据,构建 “金标准” 数据集来模拟 PDX 测序数据;接着,选用三种伪比对和三种基于比对的协议,用默认参数运行相关工具去除小鼠读段;然后,运用多种生物信息学工具,如 Kallisto 计算转录本每百万 reads 数(Transcripts Per Million,TPM)评估基因表达,MuTect2 识别体细胞突变等 。

下面来看看具体的研究结果:

  • 小鼠读段污染对 PDX 转录组数据的影响:研究人员对比了去除和未去除小鼠读段的样本基因表达情况。多数基因在两种样本中的表达水平相似,但部分基因在未去除小鼠读段的样本中表达更高。深入分析发现,这些受影响的基因主要富集在基质相关、免疫细胞相关以及 KRAS 信号通路相关的基因集里。这表明小鼠免疫细胞和基质细胞是 PDX 模型中小鼠读段污染的主要 “源头”。而对癌细胞特征相关的基因集影响较小。在基因融合检测方面,去除小鼠读段前后差异不显著,说明小鼠读段污染对融合识别影响有限。此外,研究人员将工具应用于 PDX 单细胞 RNA 测序(single cell RNA sequencing,scRNAseq)数据,发现能有效区分人和小鼠细胞。
  • 小鼠读段污染对 PDX 基因组数据的影响:在对体细胞突变的研究中,未去除小鼠读段时检测到的外显子突变数量比去除后高出约 30 倍,这些突变的变异等位基因频率较低,且在不同 PDX 样本间有较高的重复性。突变特征分析显示,只有 SBS46 突变特征在去除小鼠读段前后有显著差异。在拷贝数变异方面,去除小鼠读段前后,样本的拷贝数模式相似,说明小鼠读段污染对拷贝数变异影响较小。
  • 小鼠读段污染对不同测序数据的影响差异:对比三种测序数据,WES 数据中的人类读段比例更高,RNAseq 数据中无法分类的读段更多。不过,三种数据类型中人类读段比例显著相关,这意味着小鼠读段污染主要受样本采集环节影响。
  • 去除小鼠读段协议的性能评估:在 “金标准” 数据集上测试各协议,结果显示所有协议都能有效去除小鼠读段,但伪比对工具 Xengsort 表现最为出色,在预测准确性和计算效率上都优于其他工具,紧随其后的是 BBSplit。而且,不同比对工具与协议搭配会影响性能,例如 Disambiguate 和 Bamcmp 与 STAR 搭配时预测准确性更高。研究还发现,不同小鼠参考基因组对读段分类影响不大,且伪比对协议计算时间更短,Xengsort 尤其高效。

综合研究结果,研究人员得出结论:小鼠读段污染会显著干扰 PDX 模型基因组和转录组分析,去除小鼠读段势在必行。在众多去除小鼠读段的协议中,Xengsort 脱颖而出,无论是预测准确性还是计算效率都表现优异,能节省大量计算资源。这一研究成果为 PDX 研究领域指明了方向,建议科研人员在处理 PDX 测序数据时选用 Xengsort,让后续研究能更精准地揭示癌症奥秘,为癌症治疗和药物研发提供更可靠的依据,推动精准肿瘤学(Precision Oncology)不断向前发展。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号