实验室结果显著提升大语言模型鉴别诊断准确性的深度剖析

【字体: 时间:2025年03月19日 来源:npj Digital Medicine 12.4

编辑推荐:

  在医学领域,准确的诊断是有效治疗的基石,关乎患者的健康乃至生命。然而,传统的鉴别诊断(Differential Diagnosis,DDx)过程充满挑战。临床医生虽凭借专业知识和丰富经验进行诊断,但面对复杂多样的疾病症状,仍可能出现误诊或漏诊。早期开发的鉴别诊断生成器和症状检查器等系统,需要结构化数据,缺乏有效推理和互动能力。随着人工智能技术的发展,大语言模型(Large Language Models,LLMs)的出现为医学诊断带来了新的希望。但现有研究对实验室结果在 LLMs 诊断预测中的作用探索不足,而实验室结果在实际诊断中至关重要,能提供患者生理状态的关键信息,辅助医生做出更准确的判断。基于此,来自佛罗里达州立大学、美国国立卫生研究院国家医学图书馆等机构的研究人员开展了一项研究,该研究成果发表在《npj Digital Medicine》杂志上。

  

在医学领域,准确的诊断是有效治疗的基石,关乎患者的健康乃至生命。然而,传统的鉴别诊断(Differential Diagnosis,DDx)过程充满挑战。临床医生虽凭借专业知识和丰富经验进行诊断,但面对复杂多样的疾病症状,仍可能出现误诊或漏诊。早期开发的鉴别诊断生成器和症状检查器等系统,需要结构化数据,缺乏有效推理和互动能力。随着人工智能技术的发展,大语言模型(Large Language Models,LLMs)的出现为医学诊断带来了新的希望。但现有研究对实验室结果在 LLMs 诊断预测中的作用探索不足,而实验室结果在实际诊断中至关重要,能提供患者生理状态的关键信息,辅助医生做出更准确的判断。基于此,来自佛罗里达州立大学、美国国立卫生研究院国家医学图书馆等机构的研究人员开展了一项研究,该研究成果发表在《npj Digital Medicine》杂志上。

研究人员为探究实验室结果对 LLMs 生成鉴别诊断准确性的影响,从 PMC-Patients 数据集选取 50 个病例报告,手动生成包含患者年龄、性别、症状、实验室检测结果等详细信息的临床案例。他们选用了 GPT-4、GPT-3.5、Llama-2-70b、Claude-2 和 Mixtral-8x7B 这 5 种 LLMs 进行实验。通过设计特定提示,让模型在有和没有实验室数据的情况下,生成 Top 1、Top 5 和 Top 10 的鉴别诊断列表。


在研究方法上,采用了两阶段评估方法。第一阶段,从 10 个病例报告的诊断预测中选取 20%(300 个诊断预测),由临床医生评估,并与知识图谱和 GPT-4 的评估结果进行比较;第二阶段,使用生物医学知识图谱(Biomedical Knowledge Graph,BKG)和 GPT-4 的组合,对 5 个 LLMs 生成的全部 1500 个诊断预测进行自动评估。评估指标包括精确匹配、相关性、错误预测等,并通过计算准确性和宽松准确性来衡量模型性能。


研究结果显示,纳入实验室数据后,所有模型的鉴别诊断准确性都有所提高,最高可提升 30%。在众多模型中,GPT-4 表现最为出色,当纳入实验室数据时,其 Top 1 诊断的准确性达到 55%(95% 置信区间 0.41 - 0.69),Top 10 诊断的准确性为 60%(0.46 - 0.74),宽松准确性高达 79%(0.68 - 0.90)。Mixtral 在 Top 5 和 Top 10 的诊断场景中表现强劲,GPT-3.5 在生成 Top 5 鉴别诊断时,凭借较高的宽松准确性脱颖而出。Claude-2 和 Llama-2 的表现相对稍逊,但 Claude-2 在部分指标上优于 Llama-2。


通过误差分析发现,不同模型的错误率存在差异。在有实验室数据的 Top 1 鉴别诊断中,Llama-2 的错误率最低,GPT-3.5 最高;在没有实验室数据时,所有模型的错误率都有所上升。此外,所有模型的精确匹配率相对较低,而宽松准确性较高,这表明模型在提供相关但非精确诊断方面表现较好。


在病例发病率方面,研究人员通过 PubMed 文献检索发现,50 个病例中大多数疾病的发病率较低,70% 的诊断在 PubMed 上的相关文章少于 100 篇,这凸显了疾病的罕见性,也对 LLMs 的诊断能力提出了更高要求。


研究结论表明,实验室结果对提高 LLMs 鉴别诊断的准确性和宽松准确性具有重要意义,尤其是在提高精确匹配预测方面。BKG 与 GPT-4 的组合能够进行与临床医生相当的自动评估。虽然精确匹配率仍然较低,但模型在宽松准确性方面的高性能表明,它们能够生成合理的诊断,为临床决策提供有价值的支持。这一研究成果不仅为医学诊断提供了新的思路和方法,也为 LLMs 在临床实践中的应用奠定了基础。然而,研究也存在一些局限性,如样本量较小、场景有限、可能存在偏差等,未来还需要进一步研究来验证模型在更大、更多样化数据集上的性能,探索更多临床场景,并解决固有偏差等问题。

涓嬭浇瀹夋嵎浼︾數瀛愪功銆婇€氳繃缁嗚優浠h阿鎻ず鏂扮殑鑽墿闈剁偣銆嬫帰绱㈠浣曢€氳繃浠h阿鍒嗘瀽淇冭繘鎮ㄧ殑鑽墿鍙戠幇鐮旂┒

10x Genomics鏂板搧Visium HD 寮€鍚崟缁嗚優鍒嗚鲸鐜囩殑鍏ㄨ浆褰曠粍绌洪棿鍒嗘瀽锛�

娆㈣繋涓嬭浇Twist銆婁笉鏂彉鍖栫殑CRISPR绛涢€夋牸灞€銆嬬數瀛愪功

鍗曠粏鑳炴祴搴忓叆闂ㄥぇ璁插爞 - 娣卞叆浜嗚В浠庣涓€涓崟缁嗚優瀹為獙璁捐鍒版暟鎹川鎺т笌鍙鍖栬В鏋�

涓嬭浇銆婄粏鑳炲唴铔嬬櫧璐ㄤ簰浣滃垎鏋愭柟娉曠數瀛愪功銆�

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号