大语言模型评估甲状腺结节癌变风险：ChatGPT、Gemini 和 Claude 的表现如何？ - 生物通

今日动态返回首页

登录会员注册生物通快讯免费订阅

生物通首页 > 今日动态 > 正文

大语言模型评估甲状腺结节癌变风险：ChatGPT、Gemini 和 Claude 的表现如何？

【字体：大中小】 时间：2025年03月16日 来源：Journal of Imaging Informatics in Medicine

编辑推荐：

　　研究人员评估 ChatGPT、Gemini 和 Claude 对甲状腺结节癌变风险评估建议的可靠性，结果表明其有潜力但需临床监督。

　　本研究旨在评估大语言模型（LLMs）ChatGPT、Gemini 和 Claude，依据美国甲状腺协会（ATA）和美国国家综合癌症网络（NCCN）的临床指南，所提供的甲状腺结节癌变风险评估建议的适宜性和可靠性。一个由医学影像信息学专家和两名放射科医生组成的团队，根据 ATA 和 NCCN 指南提出了 24 个临床相关问题。使用可读性评分系统评估人工智能生成回复的可读性。通过亚马逊土耳其机器人（Amazon Mechanical Turk）招募了 322 名来自美国的实习或在职放射科医生对人工智能的回复进行评估。运用 SPSS 进行定量分析以衡量建议的适宜性，同时通过 Dedoose 对定性反馈进行分析。该研究比较了 ChatGPT、Gemini 和 Claude 这三种人工智能模型提供适宜建议的表现。配对样本 t_检验显示，各模型的总体表现无统计学显著差异。Claude 获得的平均得分最高（21.84），紧随其后的是 ChatGPT（21.83）和 Gemini（21.47）。虽然 Gemini 的不适当回复率有较高的趋势，但各模型的不适当回复率差异并不显著。然而，ChatGPT 在提供适宜回复方面的准确率最高（92.5%），其次是 Claude（92.1%）和 Gemini（90.4%）。定性反馈指出，ChatGPT 的回复清晰且有条理，Gemini 的回复通俗易懂但内容浅显，Claude 的回复组织性良好，但偶尔会偏离重点。像 ChatGPT、Gemini 和 Claude 这样的大语言模型在辅助甲状腺结节癌变风险评估方面具有潜力，但需要临床监督以确保符合指南要求。Claude 和 ChatGPT 的总体表现几乎相同，Claude 的平均得分最高，不过差异很小。为提高其在临床应用中的可靠性，仍需进一步开发。

相关新闻

生物通微信公众号

微信

新浪微博

搜索
国际
国内
人物
产业
热点
科普

热搜：甲状腺结节|癌变风险评估|大语言模型 (LLMs)|美国甲状腺协会 (ATA)|国家综合癌症网络 (NCCN)|放射科医生

急聘职位
高薪职位

知名企业招聘

热点排行

新闻专题

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱：

粤ICP备09063491号