《npj Precision Oncology》:Uncovering gene and cellular signatures of immune checkpoint response via machine learning and single-cell RNA-seq
编辑推荐:
免疫检查点抑制剂(ICI)虽变革了癌症治疗,但仅部分患者受益。为解决患者反应差异难题,研究人员开展通过单细胞 RNA 测序(scRNA-seq)数据和机器学习预测患者对 ICI 反应的研究。结果发现 11 基因特征可跨癌种预测,还开发了相关模型。该研究助力理解癌症免疫,提升治疗结果预测能力。
在癌症治疗领域,免疫检查点抑制剂(ICI)的出现无疑是一场重大变革。它就像一把神奇的钥匙,能够重新激活肿瘤微环境(TME)中疲惫的 T 细胞,让免疫系统得以重新发挥作用,对肿瘤细胞发起攻击,为部分癌症患者带来了长期缓解的希望。然而,这把 “钥匙” 并非对所有患者都有效,大部分患者在接受 ICI 治疗后并没有明显的效果。这一现象背后的原因十分复杂,主要是由于肿瘤微环境本身是一个高度复杂的生态系统,其中各种细胞和分子之间相互作用,使得患者对 ICI 治疗的反应存在很大差异。这种差异给癌症治疗带来了巨大的挑战,也促使科学家们不断探索新的方法,以找到能够预测患者对 ICI 治疗反应的生物标志物,从而实现精准治疗。
为了攻克这一难题,来自以色列理工学院(Technion - Israel Institute of Technology)的研究人员开展了一项重要研究。他们利用单细胞 RNA 测序(scRNA-seq)技术和机器学习算法,深入挖掘肿瘤微环境中免疫细胞的基因表达信息,试图找到与 ICI 治疗反应相关的基因和细胞特征。这项研究成果发表在《npj Precision Oncology》杂志上,为癌症免疫治疗领域带来了新的突破。
研究人员在这项研究中运用了多种关键技术方法。首先,他们使用了公开可用的黑色素瘤患者免疫细胞的 scRNA-seq 数据集,这些数据来自接受 ICI 治疗的患者的肿瘤活检样本。通过对数据进行预处理和质量控制,去除了非编码基因、线粒体基因等无关信息,保留了 10,082 个基因。接着,他们运用 XGBoost(eXtreme Gradient Boosting)算法构建机器学习模型,并采用留一法交叉验证(leave-one-out, LOO)的方式训练模型,以预测患者对 ICI 治疗的反应。此外,为了进一步筛选重要基因,他们还使用了 Boruta 特征选择方法。同时,利用 SHAP(SHapley Additive exPlanations)值分析基因的作用和相互作用,并开发了强化学习(RL)模型来评估单个细胞对预测的贡献。
研究结果如下:
- 基础模型特征选择和单细胞类型预测:研究人员基于 16,291 个 CD45+细胞构建 XGBoost 模型,该模型在预测患者对 ICI 治疗反应时,受试者工作特征曲线下面积(AUC)达到 0.84,显示出较高的预测准确性。通过特征重要性分析,确定了如 GAPDH、IFI6、LILRB4 等多个与 ICI 治疗反应相关的重要基因,这些基因此前已被发现与 ICI 和肿瘤免疫相关。同时,研究发现不同免疫细胞类型在预测患者反应中的能力存在差异,T 细胞亚群的预测得分明显高于其他细胞类型。
- 探索细胞和基因子集以提高模型性能:研究人员对不同细胞类型和基因子集进行分析,发现使用 Boruta 特征选择方法可显著提高模型性能,AUC 得分提升至 0.89。在不同细胞类型中,如 NK 细胞中的 FCGR3B(CD16b)、B 细胞中的 CXCR4 等基因,在癌症免疫和激活中发挥重要作用。
- SHAP 值研究揭示复杂基因行为和相互作用:通过 SHAP 值分析,研究人员发现基因与治疗反应之间存在复杂的关系。例如,GAPDH 和 STAT1 的表达与非反应相关,但二者关系不同,GAPDH 呈连续关系,而 STAT1 表现为开关行为。此外,还发现了如 GAPDH - STAT1、CD38 - CCL5 等基因对之间的相互作用,这些相互作用对免疫反应具有重要影响。
- 强化学习实现单细胞预测性标注:研究人员开发的 RL 模型能够量化每个细胞对模型预测的影响。通过该模型,发现某些 T 细胞亚群在预测患者反应中表现最佳,但并非该群体中的每个细胞都对预测有贡献。同时,确定了一些与细胞预测性相关的基因,如非反应预测细胞中的 PKM、PGAM1,非预测细胞中的 TCF7、IL7R,以及反应预测细胞中的 SELL、MS4A1 等。
- 基于基因和细胞的特征预测患者对 ICI 的反应:研究人员构建了一个由 11 个基因组成的特征签名,包括 GZMH、LGALS1、GBP5 等,该特征签名在多个癌症数据集上显示出良好的预测性能。在黑色素瘤、三阴性乳腺癌(TNBC)、非小细胞肺癌(NSCLC)等多种癌症数据集上,均能有效区分反应者和非反应者。此外,通过 RL 过滤非预测细胞后,进一步提高了预测准确性。
- 基因特征预测患者生存:利用批量 RNA 测序(bulk RNA-seq)数据集,研究人员发现 11 基因特征签名中的 7 个基因,包括 CCR7、STAT1、GBP5 等,与患者的总体生存时间显著相关,高表达这些基因的患者生存率更高,表明这些基因可能与免疫激活有关。
在讨论部分,研究人员指出,他们开发的 PRECISE(Predicting therapy Response through Extraction of Cells and genes from Immune Single-cell Expression data)机器学习框架为利用单细胞数据进行治疗反应预测提供了新的思路,同时保持了模型的可解释性。该模型能够在样本水平和细胞水平同时进行分析,有效利用了单细胞数据的优势。尽管不同癌症类型、患者先前治疗和医疗背景存在差异,给研究结果的转移性带来挑战,但 11 基因特征签名和 RL 过滤得分在多个数据集上仍显示出积极趋势,证明了模型结果的稳健性和通用性。未来研究可进一步拓展模型的应用范围,例如利用基础模型整合单细胞数据,同时考虑更多的样本特征,以提高模型的准确性和实用性。
综上所述,这项研究通过利用单细胞 RNA 测序和机器学习技术,成功揭示了免疫检查点反应的基因和细胞特征,为预测患者对 ICI 治疗的反应提供了有效的方法,有助于实现癌症的精准治疗,提高患者的生存率和生活质量,在癌症免疫治疗领域具有重要的意义。