评估人工智能聊天机器人在心血管成像患者教育中的准确性与可靠性：ChatGPT、Gemini 和 Copilot 的对比研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年03月28日 来源：Egyptian Journal of Radiology and Nuclear Medicine 0.7

编辑推荐：

　　心血管疾病是全球主要死因，心血管成像对诊疗至关重要，患者常从 AI 聊天机器人获取相关信息，但信息可靠性存疑。研究人员评估 ChatGPT、Gemini 和 Copilot 在回答患者心血管成像问题上的准确性和可靠性，发现 ChatGPT₄表现最佳，为 AI 在临床应用提供参考。

　　在当今数字化时代，人们获取信息的方式发生了巨大变化，人工智能（AI）聊天机器人逐渐融入到生活的各个领域，医学领域也不例外。心血管疾病作为全球头号健康杀手，严重威胁着人们的生命健康。心血管成像技术，像超声心动图、计算机断层扫描（CT）、磁共振成像（MRI）等，在心血管疾病的诊断、治疗规划和病情监测中发挥着关键作用。患者们渴望了解更多关于心血管成像的知识，以便更好地配合治疗，然而，他们从 AI 聊天机器人获取的信息是否准确可靠呢？这成为了亟待解决的问题。

为了探究这一问题，来自埃及亚历山大大学医学院、美国休斯敦卫理公会医院、波兰格但斯克医科大学等多个研究机构的研究人员开展了一项研究。他们聚焦于评估 ChatGPT（3.5 和 4 版本）、Gemini、Copilot 这几种 AI 聊天机器人在回应患者心血管成像相关问题时的准确性和可靠性，研究成果发表在《Egyptian Journal of Radiology and Nuclear Medicine》上。

研究人员主要采用了以下关键技术方法：首先，从专业机构、患者支持小组和社交媒体平台收集问题，筛选出 30 个以患者为导向的心血管成像相关问题。然后，将这些问题分别提交给 ChatGPT₄、ChatGPT_3.5、Copilot 平衡模式、Copilot 精确模式和 Gemini。最后，由两位心血管放射科医生依据准确性、清晰度、完整性、中立性和适宜性等标准，使用结构化评分量表对回复进行评估，并计算评分者间信度（Cohen’s Kappa）。

研究结果如下：

各模型性能差异显著：在准确性方面，ChatGPT₄得分最高，准确率达 78.3%；Copilot 精确模式最低，为 41.7%。清晰度和适宜性上，ChatGPT₄为 86.67%，Copilot 精确模式是 71.67%。完整性上，ChatGPT₄占 81.7%，Copilot 精确模式仅 21.7%。中立性方面，ChatGPT₄、ChatGPT_3.5和 Copilot 精确模式保持 100%，Copilot 平衡模式和 Gemini 分别为 96.7%。
惩罚评估凸显问题：在缺失信息方面，ChatGPT₄缺失信息发生率相对较低，Copilot 精确模式最高。误导性陈述方面，ChatGPT₄的发生率较低，Gemini 较高。
总体表现各有优劣：综合各项指标，ChatGPT₄总得分最高，为 10.9 分（满分 12 分），ChatGPT_3.5和 Copilot 平衡模式紧随其后，Gemini 表现较为均衡，Copilot 精确模式总得分最低。同时，所有模型评估的评分者间信度均有统计学意义，ChatGPT₄一致性最高。

研究结论和讨论部分指出，ChatGPT₄在为患者提供心血管成像信息方面表现最为可靠，是一种有潜力的患者教育工具。然而，AI 模型仍存在局限性，如 “幻觉” 现象，即生成误导性信息，这在医学领域危害极大。此外，训练数据中的偏差也会影响模型准确性。该研究的局限性在于样本量较小、评估具有主观性且 AI 模型不断更新。但这项研究意义重大，它为 AI 聊天机器人在心血管成像患者教育中的应用提供了重要参考，凸显了将 AI 融入放射学实践以加强患者教育的价值，也为后续研究指明了方向，推动 AI 模型在医学领域的进一步优化和应用。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号