大语言模型在脊髓损伤（SCI）领域的表现大揭秘：谁才是 “最强辅助”？

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Journal of Medical Systems》：Large Language Models’ Responses to Spinal Cord Injury: A Comparative Study of Performance

【字体：大中小】 时间：2025年03月26日 来源：Journal of Medical Systems 3.5

编辑推荐：

　　为解决脊髓损伤（SCI）患者获取医学信息的问题，研究人员开展了对 ChatGPT-4o、Claude-3.5 sonnet、Gemini-1.5 Pro 和 Llama-3.1 四个大语言模型（LLMs）的研究。结果显示各模型表现有差异，Gemini 信息质量高，ChatGPT 准确性和综合性强。该研究首次系统比较，意义重大。

欢迎索取义翘神州凋亡检测试剂盒最新资料

为了促进科学的传播，生物通采集了这篇文章，如需英文原文，请点击！订阅BioHot索取原文

　　随着大语言模型（LLMs）在医学领域应用的不断增加，其在患者教育和临床决策支持方面的潜力日益凸显。鉴于脊髓损伤（SCI）发病机制复杂、治疗方案多样且康复周期漫长，患者越来越多地借助先进的在线资源获取相关医学信息。本研究分析了 ChatGPT-4o、Claude-3.5 sonnet、Gemini-1.5 Pro 和 Llama-3.1 这四个大语言模型对 37 个与脊髓损伤相关问题的回复，这些问题涵盖发病机制、危险因素、临床特征、诊断、治疗和预后等方面。分别使用患者质量信息保障（Ensuring Quality Information for Patients，EQIP）工具和弗莱施 - 金凯德（Flesch-Kincaid）指标评估回复的质量和可读性。由三位资深脊柱外科医生通过共识评分法独立对回复的准确性进行评分。各模型的表现有所不同。Gemini 在 EQIP 评分中排名最高，表明其提供的信息质量更优。尽管这四个大语言模型的回复可读性普遍较低，需要大学水平的阅读理解能力，但它们都能有效简化复杂内容。值得注意的是，ChatGPT 在准确性方面领先，获得 “良好” 评级的比例（83.8%）显著高于 Claude（78.4%）、Gemini（54.1%）和 Llama（62.2%）。所有模型的全面性得分都很高。此外，大语言模型表现出很强的自我纠错能力。在提示修改后，ChatGPT 和 Claude 回复的准确性分别提高了 100% 和 50%；Gemini 和 Llama 均提高了 67%。这项研究是首次在脊髓损伤背景下对领先的大语言模型进行系统比较。Gemini 在回复质量上表现出色，而 ChatGPT 则提供了最准确、最全面的回复。

广告赛默飞全新液相色谱有啥不一样？答卷有礼

欢迎下载义翘神州蛋白表达之杆状-昆虫表达系统全攻略>>>领取

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析！

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》