
-
生物通官微
陪你抓住生命科技
跳动的脉搏
GPT-4模型在多学科肿瘤委员会决策预测中的准确性评估:一项支持临床肿瘤学决策的AI潜力研究
【字体: 大 中 小 】 时间:2025年03月27日 来源:Clinical and Translational Oncology 2.8
编辑推荐:
本研究针对AI在肿瘤临床决策支持中的可靠性问题,由安卡拉大学团队开展GPT-4模型与多学科肿瘤委员会(MTB)决策的一致性研究。通过对610例癌症患者数据的分析,发现GPT-4与MTB决策的兼容性评分达3.59/4(Cronbach's α=0.950),但在10.2%的罕见病例中存在局限。该研究为AI辅助肿瘤精准治疗提供了重要实证依据,成果发表于《Clinical and Translational Oncology》。
在肿瘤诊疗领域,多学科肿瘤委员会(Multidisciplinary Tumor Board, MTB)已成为制定个性化治疗方案的金标准,但这种模式存在资源密集、地域可及性差等现实挑战。随着以GPT-4为代表的大型语言模型(Large Language Models, LLMs)在医疗领域的突破性进展,一个关键科学问题浮出水面:AI能否准确复现MTB的复杂决策过程?安卡拉大学癌症研究所的Efe Cem Erdat团队在《Clinical and Translational Oncology》发表的研究,为这一命题提供了迄今为止最大规模的实证答案。
研究团队采用横断面研究设计,系统分析了2021年2月至2023年6月期间安卡拉大学医院MTB讨论的610例癌症患者数据。通过精心设计的提示工程,将去标识化的病例资料输入GPT-4模型生成治疗建议,由三位独立评估者采用4级Likert量表进行MTB决策与AI预测的兼容性评分。统计学分析包括Cronbach's α检验评估者间一致性、Cohen's κ检验专家判断一致性,并辅以时间序列分析考察模型表现的动态变化。
研究结果显示,GPT-4展现出与MTB决策的惊人一致性。整体兼容性评分达3.59±0.81(满分4分),其中67.5%病例获得最高兼容性评分(4分)。评估者间一致性Cronbach's α系数高达0.950(95%CI 0.935-0.960),证实评价体系的高度可靠性。按肿瘤类型细分,内分泌肿瘤(3.81分)和血液肿瘤(3.73分)的预测准确性最高,而中枢神经系统肿瘤(3.46分)和胸部肿瘤(3.41分)相对较低。值得注意的是,在疾病状态未知的患者组中,GPT-4展现出近乎完美的兼容性(3.99分),提示其在诊断辅助方面的独特价值。
深入分析发现,10.2%的病例(62例)存在显著差异(平均评分≤2)。两位肿瘤学专家对这些争议案例的复审揭示了AI的局限性:第一位专家认为12.9%(8例)的GPT-4建议不恰当,第二位专家则对25.8%(16例)持否定意见(Cohen's κ=0.50)。这些分歧主要源于两种情况:罕见肿瘤缺乏指南依据(占不恰当建议的50%),以及模型对病例描述的误解(占50%)。时间序列分析显示,模型表现存在微小波动(3.45-3.75分),但未呈现明显的自我改进趋势。
这项研究的重要意义在于首次系统论证了GPT-4作为肿瘤临床决策支持工具的可行性。其高达3.59分的兼容性评分表明,AI模型已能有效捕捉标准治疗路径的核心逻辑,特别是在常见肿瘤类型中。研究同时揭示了当前技术的边界——面对罕见病例和复杂临床情境时,AI仍需要人类专家的监督把关。这些发现为"人机协同"的肿瘤诊疗新模式提供了科学依据,提示GPT-4可作为MTB的高效辅助工具,缓解医疗资源压力,但不应完全替代多学科团队的核心地位。随着LLMs的持续进化,未来研究需要关注模型微调、实时知识更新等方向,以进一步提升AI在肿瘤精准医疗中的可靠性。
生物通微信公众号
知名企业招聘