GPT-3.5-Turbo 与 GPT-4o “对决”:谁是口腔癌远程咨询的 “最佳拍档”?

【字体: 时间:2025年02月21日 来源:BMC Oral Health

编辑推荐:

  为解决 GenAI 在口腔癌远程咨询能力未充分评估的问题,作者[第一作者单位] 研究人员开展相关研究,发现 GPT-4o 在远程咨询中稍占优势,可靠性和有效性更佳。该研究为口腔癌远程咨询提供参考,值得科研读者一读。

  
在当今科技飞速发展的时代,人工智能(AI)的身影无处不在,它就像一个神通广大的 “智能助手”,逐渐渗透到各个领域,医疗领域也不例外。其中,生成式人工智能(Generative Artificial Intelligence,GenAI)凭借着强大的语言处理和内容生成能力,开始在远程医疗咨询中崭露头角,吸引了众多研究者的目光。

近年来,像 GPT-3.5-turboGPT-4o 这类基于生成式预训练变换器的 GenAI 模型,在多个领域都展现出了巨大的潜力。它们被应用于远程医疗、医患沟通,甚至模拟医院运营等场景,就像给这些领域注入了一股新的活力。在远程医疗咨询中,GenAI 似乎有望成为缓解医疗资源紧张、提高咨询效率的 “救星”。

然而,在口腔癌症这个特殊的医疗领域,情况却有些不同。口腔癌是一种会在颊黏膜、嘴唇、硬腭、牙龈和口腔底部等部位 “捣乱” 的恶性肿瘤。全球范围内,它的发病率、患病率以及由此导致的残疾调整生命年都呈上升趋势,但却没有得到应有的重视。对于口腔癌患者来说,远程咨询本是一种方便快捷的诊断和治疗途径,他们在咨询中会提出各种各样的问题,涵盖诊断、治疗方案、费用、副作用管理、后续护理以及可获得的支持服务等方面。可现实却给他们泼了冷水,专业医生的稀缺、漫长的等待时间和高昂的费用,让远程咨询的便利性大打折扣。

更让人担忧的是,虽然有不少研究评估了 GenAI 在医学领域的能力,但这些研究大多是基于专家构建的测试数据集,并没有充分考虑患者真正关心的问题。而且,不同的 GPT 模型在医学不同亚专业的表现差异很大,准确率参差不齐。在口腔癌远程咨询方面,GenAI 的能力更是缺乏全面深入的评估。就好比在黑暗中摸索,大家都知道 GenAI 或许能帮上忙,可它到底行不行,能帮多大的忙,却没人能给出确切答案。

为了搞清楚这些问题,来自 作者[第一作者单位] 的研究人员决心展开一场深入的探索。他们的研究成果发表在了《BMC Oral Health》期刊上,论文题目是《Accuracy, reliability, and validity of generative artificial intelligence in remote consultations for oral cancer: a cross - sectional study》 。经过一系列严谨的研究,他们得出结论:GPT-4o 在口腔癌远程咨询方面有一定优势,虽然它和 GPT-3.5-turbo 在回答准确率上没有显著差异,但在可靠性和有效性方面,GPT-4o 更胜一筹,也就意味着它可能更适合应用于口腔癌远程咨询场景。这个结论就像在黑暗中点亮了一盏灯,为口腔癌远程咨询的发展指明了一个方向。

那么,研究人员是如何得出这个结论的呢?他们运用了一系列巧妙的技术方法。首先,在问题收集上,研究人员就像一群 “信息侦探”,在中国的多个知名远程医疗平台,如丁香园、腾讯医典、春雨医生、好大夫在线、快速问医生等平台,利用 “oral cancer”“oral carcinoma”“oral tumor” 这些关键词进行搜索。经过层层筛选,排除重复、不恰当的问题后,最终确定了 34 个具有代表性的口腔癌相关问题,这些问题涵盖了口腔癌的基础知识、病因、诊断、干预和预后等多个方面。

接着,他们开始构建参考标准。研究人员依据《Oral and Maxillofacial Surgery》和美国癌症协会(American Cancer Society,ACS)的口腔癌指南,建立了一个口腔癌知识库。然后,邀请了两位经验丰富的口腔外科专家,根据这个知识库,针对每个问题给出标准回答。这些回答还经过了一位有着超过 25 年口腔颌面外科经验的教授严格审核。为了能更准确地评估,研究人员还计算了每个参考回答的关键点数、文本长度和词汇密度(词汇密度就是内容词,像名词、动词、形容词、副词等,在总词数中的占比)。

在测试 GenAI 模型时,研究人员选择了当时表现出色且用户众多的 GPT-3.5-turbo 和 GPT-4o。他们给模型设定了一个明确的 “角色”,通过特定的提示让模型回答问题,每个问题重复提问三次。为了从三次回答中选出最具代表性的答案,研究人员借助嵌入模型把回答转化为向量,通过计算向量之间的余弦相似度,选出相似度最高的回答作为最终答案。

最后,在评估模型输出时,研究人员采用了定性和定量相结合的方法。定性评估主要看模型的回答是否包含参考回答的所有要点且没有错误;定量评估则依据一个基于 CMB 基准制定的量表,从流畅性、相关性、完整性和医学知识专业性四个方面,用五点李克特量表进行打分。在统计分析阶段,研究人员运用 Python 3.11 软件,采用卡方检验分析定性数据,用 Kruskal-Wallis 检验、Mann-Whitney U 检验和 t 检验分析定量数据,还使用 Bonferroni 校正法进行多重比较校正,确保研究结果的准确性和可靠性。

下面,让我们来看看这项研究的具体成果。在问题选择方面,34 个问题各有分布,基础知识类有 5 个问题,占比 14.71%;病因类 6 个问题,占比 17.65%;诊断类 3 个问题,占比 8.82%;干预类最多,有 13 个问题,占比 38.24%;预后类 7 个问题,占比 20.59%。参考回答平均包含 3.147 个要点、154.118 个单词,词汇密度为 0.498,不同类型问题在这些指标上各有差异。

定性分析结果显示,GPT-3.5-Turbo 的总体准确率为 77.50%,GPT-4o 为 88.20%,虽然 GPT-4o 准确率更高,但两者差异并不显著。在不同类型问题上,GPT-3.5-Turbo 在基础知识、病因、诊断、干预和预后类问题的准确率分别为 40.00%、50.00%、66.67%、92.30% 和 100%;GPT-4o 则为 60.00%、83.33%、100%、92.30% 和 100%。可以看出,GPT-4o 在基础知识、病因和诊断类问题上表现更优,但差异仍不显著。而且,卡方检验表明,两种模型在不同类型问题上的准确率差异都不显著。

定量分析结果同样有趣。GPT-3.5-Turbo 的平均得分为 3.96,GPT-4o 为 4.35,两者得分差异显著。具体到各类问题,GPT-4o 在干预类问题上得分显著高于 GPT-3.5-Turbo,在其他几类问题上虽有得分差异,但不显著。Kruskal-Wallis 检验显示,两种模型在不同类型问题上的得分差异都不显著。

进一步详细评估模型输出,在关键点数方面,GPT-3.5-Turbo 平均为 2.59,GPT-4o 为 2.85,与参考回答相比都无显著差异;但在文本长度上,GPT-3.5-Turbo 平均为 40.24,GPT-4o 为 66.56,均与参考回答差异显著;词汇密度方面,GPT-3.5-Turbo 为 0.68,GPT-4o 为 0.66,也都与参考回答差异显著,不过 GPT-4o 的偏差相对较小。

综合研究结果和讨论部分,这项研究意义重大。它全面评估了 GPT-3.5-Turbo 和 GPT-4o 在口腔癌远程咨询中的能力,发现虽然两者在回答准确率上差异不明显,但 GPT-4o 在可靠性和有效性方面表现更好。这为远程医疗咨询中 GenAI 的应用提供了重要参考,意味着在未来的口腔癌远程咨询中,GPT-4o 或许能成为医生和患者更得力的 “助手”。

然而,研究也存在一些局限性。比如,选择的问题没有涵盖口腔癌的全部知识,而且仅依赖中文来源可能存在选择偏差,尽管研究人员通过多种方式尽量减少这种偏差。另外,由于时间和资源有限,只测试了 OpenAI 的部分模型。研究采用的是理想条件下的单轮问答交互,未来可以考虑采用基于智能体的多轮对话框架,让研究结果更具普遍性。

总的来说,这项研究为口腔癌远程咨询与 GenAI 的结合打开了一扇窗,让我们看到了希望,也明确了未来的研究方向。相信在不久的将来,随着研究的不断深入和技术的持续进步,GenAI 在口腔癌远程咨询中会发挥更大的作用,为患者带来更多便利和帮助。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号