大语言模型评估甲状腺结节癌变风险:ChatGPT、Gemini 和 Claude 的表现如何?
【字体:
大
中
小
】
时间:2025年03月16日
来源:Journal of Imaging Informatics in Medicine
编辑推荐:
研究人员评估 ChatGPT、Gemini 和 Claude 对甲状腺结节癌变风险评估建议的可靠性,结果表明其有潜力但需临床监督。
本研究旨在评估大语言模型(LLMs)ChatGPT、Gemini 和 Claude,依据美国甲状腺协会(ATA)和美国国家综合癌症网络(NCCN)的临床指南,所提供的甲状腺结节癌变风险评估建议的适宜性和可靠性。一个由医学影像信息学专家和两名放射科医生组成的团队,根据 ATA 和 NCCN 指南提出了 24 个临床相关问题。使用可读性评分系统评估人工智能生成回复的可读性。通过亚马逊土耳其机器人(Amazon Mechanical Turk)招募了 322 名来自美国的实习或在职放射科医生对人工智能的回复进行评估。运用 SPSS 进行定量分析以衡量建议的适宜性,同时通过 Dedoose 对定性反馈进行分析。该研究比较了 ChatGPT、Gemini 和 Claude 这三种人工智能模型提供适宜建议的表现。配对样本 t检验显示,各模型的总体表现无统计学显著差异。Claude 获得的平均得分最高(21.84),紧随其后的是 ChatGPT(21.83)和 Gemini(21.47)。虽然 Gemini 的不适当回复率有较高的趋势,但各模型的不适当回复率差异并不显著。然而,ChatGPT 在提供适宜回复方面的准确率最高(92.5%),其次是 Claude(92.1%)和 Gemini(90.4%)。定性反馈指出,ChatGPT 的回复清晰且有条理,Gemini 的回复通俗易懂但内容浅显,Claude 的回复组织性良好,但偶尔会偏离重点。像 ChatGPT、Gemini 和 Claude 这样的大语言模型在辅助甲状腺结节癌变风险评估方面具有潜力,但需要临床监督以确保符合指南要求。Claude 和 ChatGPT 的总体表现几乎相同,Claude 的平均得分最高,不过差异很小。为提高其在临床应用中的可靠性,仍需进一步开发。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号