编辑推荐:
研究人员为解决多模态大语言模型(MLLMs)在 3D 医学影像应用中的问题,开展 3D 脑 CT 放射学报告生成研究,建立了相关框架,推动人机协作医疗发展。
在当今医疗领域,人工智能(AI)正以前所未有的速度改变着我们的诊疗方式。从疾病诊断到临床研究,AI 的身影无处不在。然而,在看似一片光明的发展道路上,却隐藏着不少亟待解决的难题。以医学影像诊断为例,卷积神经网络(CNN)虽然在图像分类和特征分割等任务中表现出色,但它的输出往往受到上下文的限制,远不如一份完整的诊断报告全面。这一差距促使早期的研究人员建立了报告生成模型,特别是在胸部 X 光(CXR)解读方面取得了一定成果。而多模态大语言模型(MLLMs)的出现,更是为医疗领域带来了新的希望,它有望成为医学专家的得力助手。
不过,MLLMs 在医学领域的应用并非一帆风顺。在 3D 医学影像方面,诸多问题接踵而至。比如,MLLMs 在报告中能描述多少病理特征?对病变的定位精度能达到何种程度?能否准确评估病变的程度和大小?此外,当前基于单切片 CT 图像 - 文本数据的测试,可能导致测试结果出现偏差,无法真实反映 MLLMs 在实际诊断中的能力。传统的评估指标,原本用于评估短翻译、摘要任务和普通图像字幕,在衡量脑 CT 报告时,也显得力不从心,无法捕捉报告的临床本质。
为了攻克这些难题,来自台北荣民总医院和阳明交通大学等机构的研究人员开展了一项极具意义的研究,相关成果发表在《Nature Communications》上。
研究人员采用了多种关键技术方法。首先是数据收集与整理,他们收集了 18,885 例脑 CT 扫描数据(742,501 个切片),这些数据来自 9689 名阿尔茨海默病患者。其次,在模型训练方面,基于 Otter 基础模型进行临床视觉指令调整(CVIT),设计了四种不同的微调条件,得到了四个 BrainGPT 模型。最后,为了评估模型性能,研究人员提出了特征导向放射学任务评估(FORTE)框架,同时使用传统评估指标,并结合 LLM-as-a-judge 和人类专家评估,还进行了语言嵌入图灵测试。
研究结果主要包括以下几个方面:
- 训练 BrainGPT:通过临床视觉指令调整训练 BrainGPT 模型,结果显示,四个微调后的 BrainGPT 模型在传统指标上均优于基线 Otter 模型,但传统指标对生成的放射学报告的临床本质不敏感。
- 句子配对:应用句子配对将多句段落分解为更小的语义粒度,显著提高了传统指标分数,且高级 CVIT 与传统指标分数的增加呈正相关。
- 特征导向放射学任务评估(FORTE):FORTE 通过关注放射学信息密度来评估生成报告的医学内容,将放射学关键词及其同义词分类为程度、地标、特征和印象子集进行多方面评估。结果表明,高级 CVIT 模型(BrainGPT-template 和 BrainGPT-keyword)的平均 F1 分数更高,说明其生成的脑 CT 报告使用放射学术语的水平更高,与原始诊断报告的一致性更好。
- FORTE 与传统评估指标的比较:传统评估指标之间相关性较高,但与 FORTE 的相关性较低,这表明 FORTE 涉及的疾病方面比传统指标更广泛、更独特。
- 否定词去除:去除否定词可使评估指标专注于阳性发现,提高传统指标分数和 FORTE F1 分数,避免报告中出现稀疏和偏离主题的印象。
- 通过 CQ500 外部验证评估 BrainGPT 的泛化能力:在 CQ500 脑 CT 数据集上进行零样本外部验证,结果显示 BrainGPT 在生成报告时提及的关键词频率与训练数据集相似,具备对脑疾病进行鉴别诊断的报告能力。
- LLM-as-a-judge 评估医学报告有效性:通过 LLM-based DocLens 评估发现,FORTE 评分框架与 LLM-as-the-judge 评估结果一致,且与人类专家评估也有一定的相关性,证明 BrainGPT 生成的报告准确且信息丰富,FORTE 能有效体现报告中的医学本质。
- 语言嵌入图灵测试:进行语言嵌入图灵测试发现,74.24% 的 BrainGPT 生成的报告被误判为人类撰写。提供 CT 输入上下文后,误判率降低,同时研究还发现报告的 “熟悉度和语气”“细节的特异性或模糊性” 等特质会影响专家对报告来源的判断。
研究结论和讨论部分指出,本研究建立了一个整体框架,涵盖数据集整理、解剖学感知模型微调以及开发强大的评估指标,为 3D 脑 CT 放射学报告生成提供了全面的解决方案。BrainGPT 模型在性能上表现出色,且训练成本较低。同时,研究也强调了传统指标不适合评估临床字幕任务,FORTE 作为一种新的评估框架,具有更广泛的医学语义维度,可定制且可转移到各种医疗任务中。然而,该研究也存在一些局限性,如缺乏与之对比的 MLLM 模块、训练数据存在局限性以及未对模型骨干进行实验等。未来的研究可以在这些方面进一步探索。
总的来说,这项研究为多模态大语言模型在 3D 脑 CT 放射学报告生成中的应用奠定了坚实基础,推动了人机协作医疗的发展,具有重要的理论和实践意义。