编辑推荐:
为探究人类与大语言模型(LLM)协作对脑 MRI 鉴别诊断的影响,研究发现其可提高诊断准确性,但也存在挑战。
在医学影像学领域,脑磁共振成像(MRI)的鉴别诊断对临床诊疗决策起着关键作用。精准地从 MRI 图像中确定相关的鉴别诊断,需要专业的解剖学、病理生理学知识,以及识别视觉模式和综合临床信息的能力。然而,传统的诊断方式面临诸多挑战。近年来,大语言模型(LLM)崭露头角,展现出在医学领域辅助诊断的潜力。一些研究对比了 LLM 的诊断建议与专家评估或确诊结果,发现 LLM 有一定的价值,但同时也存在如 “幻觉”(生成事实性错误信息)等问题。而且,人类用户与 LLM 系统在实际诊断过程中的复杂交互,尚未得到深入研究。在这种背景下,来自德国慕尼黑工业大学医学院的研究人员开展了一项研究,旨在探究人类与 LLM 协作对脑 MRI 鉴别诊断准确性和效率的影响 。该研究成果发表在《European Radiology》上。
研究人员采用了一系列关键技术方法:首先,选取 40 例脑 MRI 病例,这些病例均有明确诊断且具有一定挑战性。病例来源为当地成像数据库,时间跨度是 2016 年 1 月 1 日至 2023 年 12 月 31 日。同时,招募了 6 名平均神经放射学经验为 6.3 个月的放射科住院医师参与研究。其次,选用 PerplexityAI 作为聊天机器人界面,以 GPT-4 为模型进行搜索查询。研究采用交叉设计,让每位参与者分别通过传统互联网搜索和 LLM 辅助搜索,对 20 例病例进行诊断,判断出三个最可能的鉴别诊断 。在 LLM 辅助阅读前,还对参与者进行 10 - 15 分钟的培训。最后,通过两种评分系统评估诊断准确性,利用多种统计方法分析数据,并对 LLM 的日志进行审查,同时收集参与者的反馈。
下面来看具体的研究结果:
- 定量结果:通过二元评分和数字评分方法评估,LLM 辅助的脑 MRI 鉴别诊断准确性更高。二元评分中,LLM 辅助组正确诊断率为 61.4%(70/114),传统组为 46.5%(53/114),p = 0.033;数字评分中,LLM 辅助组中位数为 1,传统组为 0,p = 0.021。线性混合效应模型也证实了 LLM 辅助工作流程与更高的二元评分相关。不过,两组在解读时间和信心水平上没有显著差异。
- LLM 响应评估:对 113 例 LLM 辅助的病例进行分析,平均每个病例的 LLM 查询次数为 2.12 次,多数查询与可能的鉴别诊断相关。LLM 工具平均每次响应引用 13.0 个互联网来源,其中 72.0% 是期刊文章,每个病例的 LLM 响应平均给出 7.59 个鉴别诊断。但也发现,9.2% 的病例中读者提供的 LLM 提示存在错误或不准确信息,11.5% 的病例中 LLM 输出包含幻觉陈述 。进一步分析发现,在 LLM 响应包含正确诊断的 73 例病例中,读者识别出正确诊断的比例为 82.1%(60/73);在读者给出正确诊断的 70 例病例中,14.3%(10/70)的病例其正确诊断未包含在 LLM 响应中,这表明部分答案是通过额外的互联网研究找到的。
- 读者反馈和观察:问卷调查结果显示,参与者对 LLM 辅助工作流程的评价呈中等积极态度,他们倾向于在临床实践中使用 LLM 工具,对 LLM 响应质量的评价也较为积极,并且多数参与者认为 LLM 系统易于融入诊断工作流程。然而,他们也指出了 LLM 辅助鉴别诊断存在的一些挑战,如人类输入错误导致的不准确搜索结果,以及 LLM 基于无关临床信息产生的偏差等 。此外,参与者还提出了改进建议,例如增加语音交互功能和提高返回样本图像的准确性。
研究结论和讨论部分指出,LLM 辅助的工作流程相比传统互联网搜索,有提高脑 MRI 鉴别诊断准确性的潜力,但对解读时间和读者信心没有明显影响。研究中 LLM 幻觉的发生率为 5.4%,这表明即使是利用检索增强生成方法的 LLM 搜索引擎,也可能返回错误信息,且读者难以逐一验证大量引用来源。同时,研究发现读者在处理 LLM 响应时起着关键作用,需要对相关建议进行优先排序并通过互联网研究加以验证。研究还强调,应加强对人类与 LLM 协作的研究,而不是单独研究 LLM,传统的神经放射学专业知识在有效利用 LLM 方面仍然不可或缺。不过,该研究也存在一定局限性,如参与者仅为经验较少的放射科住院医师,研究在控制环境而非真实临床环境中进行等 。
总体而言,这项研究为脑 MRI 鉴别诊断中人类与 LLM 的协作提供了有价值的见解,为未来进一步优化这种协作模式、提高诊断准确性奠定了基础,也为医学影像学领域的发展指明了新的研究方向。
婵炴垶鎸搁鍫澝归崶鈹惧亾閻熼偊妲圭€规挸瀛╃€靛ジ鏁傞悙顒佹瘎闁诲孩绋掗崝鎺楀礉閻旂厧违濠电姴娲犻崑鎾愁潩瀹曞洨鐣虹紓鍌欑濡粓宕曢鍛浄闁挎繂鐗撳Ο瀣煙濞茶骞橀柕鍥ㄥ哺瀵剟骞嶉鐣屾殸闂佽偐鐡旈崹铏櫠閸ф顥堥柛鎾茬娴狀垶鏌曢崱妤婂剱閻㈩垱澹嗗Σ鎰板閻欌偓濞层倕霉閿濆棙绀嬮柍褜鍓氭穱铏规崲閸愨晝顩烽柨婵嗙墦濡鏌涢幒鎴烆棡闁诲氦濮ょ粚閬嶅礃椤撶姷顔掗梺璇″枔閸斿骸鈻撻幋锔藉殥妞ゆ牗绮岄埛鏍煕濞嗘劕鐏╂鐐叉喘閹秹寮崒妤佹櫃
10x Genomics闂佸搫鍊瑰姗€骞栭—娓媠ium HD 閻庢鍠掗崑鎾绘煕濮樼厧鐏犵€规洜鍠撶槐鎺楀幢濮橆剙濮冮梺鍛婂笒濡粍銇旈幖浣瑰仢闁搞儮鏅滈悾閬嶆煕韫囧濮€婵炴潙妫滈妵鎰板即閻樼數鐓佺紓浣告湰濡炶棄螞閸ф绀嗛柛鈩冡缚閳ь兛绮欓弫宥夋晸閿燂拷
濠电偛妫庨崹鑲╂崲鐎n偆鈻旈悗锝庡幗缁佺櫉wist闂侀潧妫楅敃锝囩箔婢舵劕妫樻い鎾跺仜缂嶄線鏌涢弽銊у⒈婵炲牊鍘ISPR缂備焦绋掗惄顖炲焵椤掆偓椤︿即鎮ч崫銉ゆ勃闁逞屽墴婵″鈧綆鍓氶弳鈺呮倵濞戞瑥濮冮柛鏃撴嫹
闂佸憡顨嗗ú婊呭垝韫囨稒鍤勯柣鎰嚟閵堟挳骞栭弶鎴犵闁告瑥妫濆濠氬Ω閵夛絼娴烽柣鐘辩劍瑜板啴鎮ラ敓锟� - 濠电儑绲藉畷顒勫矗閸℃ḿ顩查柛鈩冾嚧閹烘挾顩烽幖杈剧秵閸庢垵鈽夐幘顖氫壕婵炴垶鎼╂禍婊冪暦閻旇櫣纾奸柛鈩冭壘閸旀帡鎮楅崷顓炰槐闁绘稒鐟ч幏瀣箲閹伴潧鎮侀梺鍛婂笧婢ф寮抽悢鐓庣妞ゆ柨鐏濈粣娑㈡煙鐠ㄥ鍊婚悷銏ゆ煕濞嗘ê鐏ユい顐㈩儔瀹曠娀寮介顐e浮瀵悂鏁撻敓锟�
婵炴垶鎸搁鍫澝归崶顒€违濠电姴瀚惌搴ㄦ煠瀹曞洤浠滈柛鐐存尦閹藉倻鈧綆鍓氶銈夋偣閹扳晛濡虹紒銊у閹峰懎饪伴崘銊р偓濠氭煛鐎n偄濮堥柡宀€鍠庨埢鏃堝即閻樿櫕姣勯柣搴㈢⊕閸旀帡宕濋悢鐓幬ラ柨鐕傛嫹