NRAG:面向门诊急诊场景的可解释神经外科疾病诊断知识增强大语言模型框架

《IEEE Journal of Biomedical and Health Informatics》:NRAG: A Knowledge-Enhanced LLM Framework for Interpretable Neurosurgical Disease Diagnosis in Outpatient and Emergency Settings

【字体: 时间:2025年12月03日 来源:IEEE Journal of Biomedical and Health Informatics 6.8

编辑推荐:

  为解决LLM在复杂临床场景中推理能力不足及缺乏可解释性等问题,研究人员开展了融合知识图谱(KG)与大型语言模型(LLM)的神经外科疾病辅助诊断研究。提出的NRAG框架通过症状描述提取、KG路径个性化检索及潜在症状补充,显著提升了诊断准确率(F1-score达0.8150)与模型可解释性,为神经外科智能诊断提供了新方法。

  
在精准医疗成为现代临床研究发展趋势的背景下,疾病精准诊断是人工智能与临床实践结合的关键任务。然而,在门诊和急诊场景中,医生仅能依据患者部分表型信息在短时间内完成诊断,这给传统诊断模型带来了巨大挑战。电子病历记录的症状信息往往少于患者实际表现,且存在表达不规范、数据碎片化及复杂共病等问题,导致基于纯文本的建模方法可靠性不足。尽管大型语言模型在多个领域表现出色,但其在临床部署中仍面临推理透明度低、专业场景适应性差等瓶颈。
为此,研究团队提出NRAG这一创新框架,首次将ChatGLM3应用于神经外科疾病智能诊断任务,通过知识图谱与大语言模型的深度融合,实现可解释的诊断推理。该研究发表于《IEEE Journal of Biomedical and Health Informatics》,为神经外科智能诊断奠定了基础,也为深入临床数据挖掘与医学知识库资源整合提供了方法论框架。
研究采用的关键技术方法包括:基于BERT-CRF等自然语言处理技术从临床记录中提取症状描述并进行术语标准化;利用包含6800个实体和33万条关系的神经外科知识图谱进行多跳路径检索(如症状→疾病、症状→新症状→疾病等);通过个性化PageRank算法筛选关键路径;采用P-Tuning v2技术对ChatGLM3-6B模型进行参数高效微调,构建神经外科问答数据集进行指令微调。实验数据来源于北京天坛医院2004-2020年神经外科门诊数据(OD数据集)和公开的CNI急诊数据集(ED数据集)。

数据集构建与质量评估

研究构建了包含5000条神经外科医疗记录的指令微调数据集,通过整合真实临床记录、KG检索路径和潜在答案,形成结构化训练数据。数据集文本长度分布呈正态分布,平均长度为303.7个字符,训练集与测试集按9:1比例分割,标签分布均匀,平均每个样本包含2.1个疾病标签,为模型训练提供了高质量数据基础。

不同LLM在神经外科诊断任务中的性能比较

实验结果表明,NRAG在门诊数据集上达到最佳综合性能(F1-score=0.8112),精确率与召回率均衡(0.8047/0.8208),显著优于ChatGPT、DeepSeek等基线模型。在急诊数据集上,DeepSeek表现最优(F1-score=0.8444),但NRAG仍保持竞争力(F1-score=0.8107)。跨数据集比较显示,NRAG在门诊场景优势明显,且参数量远小于DeepSeek(6B vs 671B),更利于实际部署。

语言流畅性评估

在文本生成质量方面,NRAG在ROUGE-1(0.8005)和BLEU-4(0.6108)指标上表现优异,表明其生成文本与标准诊断间具有高度一致性。LLaMA-7B在长程语义连贯性方面表现最佳,但NRAG在关键信息捕捉方面更具优势。

F1变体与AUC结果

NRAG在F1_micro(0.7826)、F1_weighted(0.8417)和AUC(0.89)指标上全面领先,显示出优秀的类别平衡能力和综合分类性能,验证了检索增强机制的有效性。

消融实验

消融实验证实了各组件贡献:加入KG信息使F1-score从0.4061提升至0.8112;指令微调策略优于少样本提示方法;完整NRAG模型在抗干扰测试中保持稳定,表明其具备真正的推理能力而非简单选择。路径格式的知识整合效果较差(F1-score=0.2707),表明节点级集成策略更适用。

专家评估

双盲评估显示,NRAG的诊断准确度评分(4.33)最接近实际病历评分(4.25),显著优于ChatGPT(3.58)和DeepSeek(4.11)。88.89%的推理路径被医生评为有效路径,证明NRAG提供的诊断具有可靠的知识支撑。

案例分析与可解释性研究

典型案例显示,NRAG在脑血管疾病、抑郁状态等诊断中与标准诊断完全一致。通过KG路径回溯,模型可提供从症状到诊断的完整证据链,如"短暂性遗忘+记忆受损"症状通过KG关联到阿尔茨海默病等神经系统疾病,显著增强诊断过程的可解释性。
研究结论表明,NRAG框架通过LLM与KG的协同整合,有效解决了临床信息不完整和模型可解释性两大挑战。其在神经外科门诊场景的优异表现,证明了知识增强方法在提升诊断准确性和推理透明度方面的价值。该研究不仅推动了神经外科智能诊断的发展,也为其他专科的AI辅助诊断提供了可借鉴的技术路径。未来工作将聚焦于动态知识更新、跨专科适配和复杂证据冲突处理等方向的深入探索。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号