编辑推荐:
为解决 HNC 患者治疗前生存预测难的问题,赫尔辛基大学医院的研究人员开展 HNC 患者表型及生存预测研究。他们用 VaDeSC 模型识别出 6 种新表型,预测准确性良好。该研究为 HNC 诊疗提供新思路,值得科研读者一读。
在全球范围内,头颈部癌症(HNC)是第七大常见癌症 ,约 90% 的 HNC 为鳞状细胞癌(HNSCC)。尽管患者的 5 年总生存率在 50 - 60%,但不同部位的生存率差异较大,在 37 - 72% 之间。传统上,HNC 患者多与大量饮酒和吸烟相关,确诊时往往处于晚期,并且合并症负担较重,这对疾病预后产生了不利影响。不过,近年来人乳头瘤病毒(HPV)相关的口咽癌变得越来越常见,这类患者相对年轻,常为非吸烟者,整体健康状况较好,预后也明显更佳 。
临床上,虽然已知一些与复发和死亡风险较高相关的特征,如较高的肿瘤分期、HPV 阴性、年龄较大和合并症负担较重等,但医生们仍会遇到一些在诊断时未显示出高风险,却意外复发或死亡的患者。目前的治疗决策通常在多学科肿瘤委员会中制定,主要依据当地治疗建议、肿瘤 TNM 分类和患者的整体状况,然而,统计或预测工具在治疗决策中并未得到广泛应用。实际上,利用机器学习或统计模型,将更多变量纳入预测模型,可能会比仅基于 TNM 分类的总生存预测表现更好。这表明在治疗规划中,数据和生存预测模型还有很大的潜力未被挖掘。
为了更深入地了解 HNC 患者的疾病特征,提高治疗决策的科学性,芬兰赫尔辛基大学医院的研究人员在《Scientific Reports》期刊上发表了题为 “Deep survival clustering reveals distinct phenotypes and improves outcome prediction in head and neck cancer patients” 的论文。他们通过研究发现,利用深度生存聚类模型 VaDeSC,可以识别出 6 种具有不同生存模式的 HNC 患者新表型,这一模型在预测总生存率方面表现出色,为 HNC 患者的个性化治疗提供了重要依据。这一研究成果有助于医生更精准地判断患者的预后,制定更合适的治疗方案,对改善 HNC 患者的治疗效果具有重要意义。
在这项研究中,研究人员主要运用了以下关键技术方法:
- 数据收集与处理:收集了 2008 年 1 月至 2023 年 10 月赫尔辛基大学医院 2494 例 HNC 患者的真实世界病史数据,包括电子健康记录(EHRs)和质量登记数据。依据特定的纳入和排除标准筛选患者,对数据进行预处理,如处理缺失值、对分类变量进行编码等,并将数据划分为训练集、验证集和测试集 。
- 模型构建与训练:采用深度生存聚类模型 VaDeSC,该模型基于变分自编码器(VAE)架构进行扩展,结合高斯混合先验和威布尔分布进行聚类和生存建模。使用 Python 和 Tensorflow 库实现该模型,通过 6000 次训练迭代,以验证损失作为早停标准 。
- 模型评估:运用 C 指数、表型纯度、集成 Brier 分数(IBS)、共识指数、轮廓分数和模糊聚类比例等多种指标,评估 VaDeSC 模型的性能,并与随机生存森林(RSF)模型进行对比 。
下面我们来详细看看研究的具体结果:
- 患者人口统计学和临床特征:研究人员对 1341 例 HNC 患者进行了随访,随访时间从 HNC 诊断直至 2023 年 11 月。患者癌症发生部位各异,其中扁桃体(C09)癌患者有 234 例,梨状窦(C12)癌患者仅 10 例。女性患者占队列的 32%(431/1341),下咽癌(C13)和喉癌(C32)在男性中更为常见 。患者平均年龄为 66 岁,不同部位癌症患者年龄有所差异,如其他和未指明的主要唾液腺癌(C08)患者平均年龄为 55 岁,牙龈癌(C03)患者平均年龄为 74 岁 。整个队列的死亡率为 25%(339/1341),不同癌症部位的死亡率也不同,腮腺癌(C07)患者死亡率为 8%(5/66),下咽癌(C13)患者死亡率高达 62%(39/63) 。此外,944 例(70%)患者在 HNC 诊断前至少患有一种合并症,研究选取了 4 种患病率较高(>50 例或 > 3.7%)的合并症纳入数据集,包括原发性高血压(I10)、唇和口腔黏膜其他疾病(K13)、酒精所致精神和行为障碍(F10)以及睡眠呼吸暂停(G47.3)。
- 数据驱动的表型:研究人员使用两个数据集对 VaDeSC 模型进行训练、验证和测试。经过训练和优化超参数后,模型将患者分为 6 个聚类。通过生存分析发现,不同聚类的患者具有明显不同的生存模式 。例如,聚类 4 患者的预测生存时间出乎意料地短,聚类 4 和聚类 5 的预测生存时间密度函数有重叠,但在 1.5 年之前,它们的 Kaplan - Meier 生存概率率明显不同 。进一步分析各聚类的特征发现,聚类 4 患者年龄最大,聚类 1 和聚类 2 患者最年轻 。聚类 4 - 6 的平均 BMI 在正常范围(18.5 - 25),而聚类 1 - 3 的平均 BMI 超过超重界限(>25) 。不同聚类在治疗意图、整体状况、治疗方案和肿瘤特征等方面也存在明显差异。聚类 5 和聚类 6 患者的总生存结果最差,接受根治性治疗的患者比例最小;聚类 1 - 4 患者的癌症分期相对较早期,整体状况较好 。此外,研究还发现睡眠呼吸暂停患者多分布在总生存改善的聚类中,且这些患者平均年龄较小、BMI 较高 。
在讨论部分,研究人员表示,此次研究识别出的 6 种 HNC 患者亚组具有临床意义,与现有文献相符且更为细化 。年轻、较高的 BMI 和睡眠呼吸暂停的存在,与整体生存结果改善的表型相关 。虽然 RSF 模型的预测准确性略高于 VaDeSC,但 VaDeSC 在解释性方面表现更优,能够在诊断时进行个性化生存预测,这对于理解 HNC 患者无复发生存等不太明确的生存结果具有重要价值 。
研究中也存在一些局限性。随访时间较短,可能会因为大量删失数据影响模型性能;数据为回顾性收集,可能存在选择偏倚;缺乏外部验证队列,可能限制研究结果的普遍性;数据存在缺失值,也可能对模型性能产生不利影响 。不过,研究人员认为,尽管存在这些限制,他们的模型利用现有 EHR 数据成功识别出具有不同特征和生存模式的患者亚组,为临床治疗提供了新的信息 。这种数据驱动的方法在识别亚组方面具有优势,与传统的多变量回归等统计方法相比,能够提供更丰富的见解和可能性 。而且,该方法不仅适用于 HNC 患者,还可应用于多种疾病和终点的研究 。
总的来说,这项研究为未来利用数据驱动聚类进行亚组识别和生存预测的研究奠定了基础。后续研究可以纳入更大的数据集、更长的随访时间,进一步提高模型的准确性、稳定性,识别更多有意义的聚类,从而更精准地为患者制定个性化的治疗方案,改善患者的治疗效果和预后。