基于多组学数据的机器学习集成研究:揭示头颈部鳞状细胞癌分子亚型与预后模型

【字体: 时间:2025年02月10日 来源:Hereditas 2.1

编辑推荐:

  头颈部鳞状细胞癌(HNSCC)治疗面临耐药难题,免疫治疗效果有限。研究人员整合多组学数据,运用机器学习算法开展研究。结果识别出两种分子亚型,构建了预后模型,明确不同亚型对治疗的敏感性差异,为个性化治疗提供依据。

  头颈部鳞状细胞癌(Head and Neck Squamous Cell Carcinoma,HNSCC)是一种起源于口腔、咽部和喉部黏膜上皮的恶性肿瘤,严重威胁全球人类健康。据 GLOBOCAN 2020 数据显示,每年全球有超 83 万新发病例和 43 万死亡病例,在美国 2023 年预计也有大量新增病例和死亡人数。而且,HNSCC 患者性别差异明显,男性发病率是女性的 2.5 倍 。当前,HNSCC 的标准治疗手段,如手术、放疗和铂类化疗,虽有一定疗效,但会带来严重的毒副作用,像吞咽困难、黏膜炎和不可逆的器官功能障碍等,极大地降低了患者的生活质量。免疫检查点抑制剂(Immune Checkpoint Inhibitors,ICIs)的出现,如针对 PD-1/PD-L1 和 CTLA-4 的药物,为 HNSCC 的治疗带来了新的希望,然而其临床获益有限,在复发 / 转移性情况下客观缓解率低于 20%,且存在诸如 T 细胞耗竭、免疫抑制性髓细胞浸润和抗原呈递缺陷等耐药机制,严重阻碍了治疗效果 。同时,虽然多组学技术揭示了 HNSCC 的分子异质性,但将分子亚型转化为临床可用的框架却困难重重,现有研究存在模型过拟合、泛化性差以及未充分考虑肿瘤细胞与免疫微环境相互作用等问题。因此,开发基于 HNSCC 分子异质性的个性化治疗策略迫在眉睫。
为了解决这些问题,电子科技大学、西南医科大学等机构的研究人员开展了深入研究。他们整合了来自 TCGA 和 GEO 数据库的四个 HNSCC 数据集(TCGA-HNSCC、GSE27020、GSE41613 和 GSE65858),运用多种机器学习算法,旨在识别 HNSCC 的分子亚型并构建预后模型。研究成果发表在《Hereditas》上。

研究人员在研究过程中运用了多种关键技术方法。首先,对收集到的原始数据进行处理,包括从不同数据库获取多组学数据(转录组、甲基化组、突变组等)和临床数据,并对数据进行标准化和批次效应调整 。其次,利用 MOVICS 包中的多种算法进行多组学共识聚类分析,确定分子亚型 。然后,通过整合 10 种机器学习方法,筛选出与预后相关的基因(Prognosis-Related Genes,PRGs)构建预后签名 。此外,还运用了多种分析方法,如 PCA、TSNE、UMAP 分析基因分布,GSVA 评估 KEGG 通路激活状态,ssGSEA 分析免疫细胞浸润等 。

下面来看具体的研究结果:

  1. 识别多种癌症亚型:通过 10 种多组学集成聚类算法,研究人员识别出两种不同的亚型(CS1 和 CS2)。整合分子表达模式、甲基化模式和体细胞突变后发现,该分类系统与总生存期(Overall Survival,OS)密切相关,其中 CS1 的生存结局最为良好 。
  2. 验证分子亚型:研究人员确定了每个亚型中独特高表达的 1000 个基因作为分类器,并在外部队列中进行验证。结果显示,CS1 在 META-HNSCC 队列中预后最佳,且通过多种方法验证了亚型的稳定性和一致性 。
  3. 基因表达谱、富集分析和免疫细胞浸润:CS2 中后续模型相关基因的表达水平显著高于 CS1。CS1 在与糖胺聚糖生物合成、硫酸软骨素、MAPK 信号通路等相关的途径中富集;CS2 则在与青少年成熟型糖尿病、亚油酸代谢等相关的途径中富集。此外,CS2 的免疫细胞浸润水平更高 。
  4. 开发机器学习驱动的签名:通过单变量 Cox 分析筛选出 135 个 PRGs,再经 101 种算法组合构建预后模型。最终,基于 Enet [alpha =0.1] 算法构建的包含 30 个 PRGs 的模型表现最佳。高风险组患者的临床结局较差 。
  5. 比较预后签名:研究人员对比了该研究构建的预后签名与其他 17 种已发表的模型,发现本研究的预后签名在 C-index 表现上更优,且风险评分是独立的预后因素 。同时,结合预后模型和临床特征构建的列线图,能更准确地预测 HNSCC 患者的生存情况 。
  6. 探索分子功能、途径和基因突变:分析不同风险组的差异表达基因(Differentially Expressed Genes,DEGs)发现,高风险组的分子功能和途径主要集中在细胞 - 分子相互作用、代谢和摄取过程以及免疫和炎症反应;低风险组则主要涉及免疫和感染、代谢和营养、内分泌和信号传导。此外,高风险组的基因突变频率更高 。
  7. 探索免疫景观:风险评分与多种免疫细胞(如 B 细胞、T 细胞等)呈负相关。低风险组的一些免疫功能被激活,免疫检查点基因(Immune Checkpoint Genes,ICGs)表达更高,TIDE 评分更低,对免疫治疗更敏感 。
  8. 识别药物:高风险患者对放疗和部分化疗药物(如 5 - 氟尿嘧啶、顺铂等)更敏感,低风险患者对靶向 EGFR 治疗更敏感 。
  9. 探索单细胞 RNA(scRNA):分析 GSE103322 数据集发现,模型中的基因在肌成纤维细胞、成纤维细胞和肥大细胞中的表达显著升高 。
  10. 定量逆转录聚合酶链反应(Quantitative Reverse Transcription Polymerase Chain Reaction,qRT-PCR)分析:检测 11 个 PRGs 的表达,发现其中 10 个在肿瘤组中上调 。

研究结论表明,研究人员成功识别出 HNSCC 的两种分子亚型,构建了基于 30 个 PRGs 的预后模型,并明确了不同风险组患者对不同治疗方法的敏感性差异。这为 HNSCC 患者的诊断和个性化治疗提供了有价值的见解,为临床实践提供了新的策略 。

不过,该研究也存在一些局限性。例如,数据的回顾性设计可能存在选择偏倚,临床数据注释的不完整或不一致限制了亚组分析,而且计算模型确定的分子亚型和预后签名的生物学机制还需进一步验证 。但研究人员通过独立队列的严格交叉验证,一定程度上增强了结论的可靠性 。未来,还需要开展前瞻性多中心研究,以完善这些模型并将其转化为切实可行的临床工具,为 HNSCC 患者带来更多的希望。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号