大语言模型评估甲状腺结节癌变风险:ChatGPT、Gemini 和 Claude 的表现如何?

【字体: 时间:2025年03月16日 来源:Journal of Imaging Informatics in Medicine

编辑推荐:

  研究人员评估 ChatGPT、Gemini 和 Claude 对甲状腺结节癌变风险评估建议的可靠性,结果表明其有潜力但需临床监督。

  本研究旨在评估大语言模型(LLMs)ChatGPT、Gemini 和 Claude,依据美国甲状腺协会(ATA)和美国国家综合癌症网络(NCCN)的临床指南,所提供的甲状腺结节癌变风险评估建议的适宜性和可靠性。一个由医学影像信息学专家和两名放射科医生组成的团队,根据 ATA 和 NCCN 指南提出了 24 个临床相关问题。使用可读性评分系统评估人工智能生成回复的可读性。通过亚马逊土耳其机器人(Amazon Mechanical Turk)招募了 322 名来自美国的实习或在职放射科医生对人工智能的回复进行评估。运用 SPSS 进行定量分析以衡量建议的适宜性,同时通过 Dedoose 对定性反馈进行分析。该研究比较了 ChatGPT、Gemini 和 Claude 这三种人工智能模型提供适宜建议的表现。配对样本 t检验显示,各模型的总体表现无统计学显著差异。Claude 获得的平均得分最高(21.84),紧随其后的是 ChatGPT(21.83)和 Gemini(21.47)。虽然 Gemini 的不适当回复率有较高的趋势,但各模型的不适当回复率差异并不显著。然而,ChatGPT 在提供适宜回复方面的准确率最高(92.5%),其次是 Claude(92.1%)和 Gemini(90.4%)。定性反馈指出,ChatGPT 的回复清晰且有条理,Gemini 的回复通俗易懂但内容浅显,Claude 的回复组织性良好,但偶尔会偏离重点。像 ChatGPT、Gemini 和 Claude 这样的大语言模型在辅助甲状腺结节癌变风险评估方面具有潜力,但需要临床监督以确保符合指南要求。Claude 和 ChatGPT 的总体表现几乎相同,Claude 的平均得分最高,不过差异很小。为提高其在临床应用中的可靠性,仍需进一步开发。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号