编辑推荐:
为解决结直肠癌(CRC)转移早期预测问题,研究人员开展了利用机器学习技术构建预测模型的研究。结果显示 LightGBM 模型预测性能良好,能为医生预测 CRC 转移、改善患者预后提供决策支持。
结直肠癌,作为全球范围内发病率和死亡率均居高不下的恶性肿瘤,如同隐藏在人体健康背后的 “杀手”,时刻威胁着人们的生命。近年来,随着生活方式的改变,其发病率呈上升趋势,且转移是导致患者死亡的主要原因。早期预测结直肠癌转移,对于制定精准治疗方案、提高患者生存率至关重要。然而,以往的研究在预测模型的构建上存在一定局限性,要么仅依赖临床数据,要么模型的普适性欠佳。在此背景下,伊朗大学医学科学学院的研究人员开展了一项极具意义的研究,旨在利用机器学习技术优化结直肠癌转移的预测,相关成果发表于《BMC Gastroenterology》。
研究人员为实现这一目标,运用了多种关键技术方法。首先,收集了 2017 年 1 月至 2023 年 12 月间德黑兰市 Masoud 内科诊所的 1156 例 CRC 患者数据,以及来自 Sari 市 Imam Khomeini 医院的 115 例 CRC 患者数据作为外部验证队列。然后,对数据进行预处理,去除重复值、无效数据和缺失值,利用单变量和多变量分析进行特征选择。接着,采用 LightGBM、XG - Boost 等多种机器学习算法构建预测模型,并通过网格搜索优化超参数,运用分层十折交叉验证评估模型性能,最后利用 Shapley Additive Explanations(SHAP)和排列特征重要性(PFI)评估特征重要性。
在数据预处理与最终人群确定方面,研究人员仔细清理数据,排除了重复、无效和高缺失值的数据,最终确定 1135 例 CRC 患者数据用于后续分析,其中转移性 421 例,非转移性 714 例。
统计分析和特征选择结果表明,年龄、BMI、酒精摄入、水果摄入等多个因素在转移性和非转移性 CRC 患者间存在显著差异,且与转移状态有统计学意义上的相关性。通过二元逻辑回归分析,确定了年龄、酒精摄入、水果摄入等多个因素为构建机器学习模型的重要因素。
在性能评估方面,众多机器学习模型中,LightGBM 模型脱颖而出。其阳性预测值(PPV)达 97.32%,阴性预测值(NPV)为 84.67%,灵敏度 83.14%,特异性 93.14%,准确率 88.14%,F1 分数 87.51%,受试者工作特征曲线下面积(AU - ROC)为 0.9±0.01 ,在预测 CRC 转移方面表现出色。相比之下,其他模型如 XG - Boost、随机森林(RF)等在各项指标上均不如 LightGBM 模型。
特征评估显示,基于 LightGBM 模型,家族 CRC 病史、IBD 病史、肿瘤大小、水果摄入和淋巴结转移数量等是预测 CRC 转移的重要特征。
外部验证队列结果表明,LightGBM 模型在外部数据上也有良好表现,PPV 为 0.8,NPV 为 0.85,灵敏度 0.78,特异性 0.86,准确率 0.834,F1 分数 0.795,AU - ROC 为 0.77±0.03 ,证明了该模型具有一定的普适性。
综合来看,研究结论指出 LightGBM 模型在预测 CRC 转移方面,无论是预测性能还是普适性都表现良好。这一成果意义重大,医生可将其作为临床决策工具,通过评估关键因素来更好地预测 CRC 转移,为患者制定更合适的临床解决方案,从而改善 CRC 患者的预后。同时,研究也存在一定局限性,如数据仅来自一个临床中心,部分数据缺失等。未来研究可进一步扩大数据来源,纳入更多数据类型,以提升模型性能和临床实用性。