基于视觉语言模型的语义引导成像生物标志物,用于肺结节恶性程度的预测
《Journal of Cancer Policy》:Vision-language model-based semantic-guided imaging biomarker for lung nodule malignancy prediction
【字体:
大
中
小
】
时间:2025年10月28日
来源:Journal of Cancer Policy 2
编辑推荐:
肺结节肺癌风险预测的CLIP模型研究:通过整合语义特征(如结节边缘、内部结构)与影像特征,采用对比学习(CLIP)和低秩适配(LoRA)技术提升模型泛化能力。实验表明,该模型在NLST测试集上AUROC达0.901,优于DeepLungIPN(0.862)和Sybil(0.797),并在LUNGx、UCLA Health等多中心外部数据集上保持高鲁棒性。零样本推理可预测83.6%的语义特征,支持临床解释。
在医学影像分析领域,肺结节的恶性程度预测一直是临床诊断中的重要课题。随着计算机视觉和深度学习技术的快速发展,越来越多的研究致力于开发高效、准确且具有解释性的模型来辅助医生进行肺结节的恶性判断。然而,现有的基于影像的机器学习模型在实际临床应用中面临诸多挑战,例如模型对影像采集参数的敏感性、缺乏可解释性以及难以在多样化的临床环境中保持稳定性。因此,本文提出了一种新的方法,通过结合放射科医生提供的语义特征,利用视觉-语言模型(VLM)中的CLIP框架,引导模型学习更具临床意义、稳健且可解释的影像特征,从而提升肺结节恶性预测的准确性。
### 1. 研究背景与意义
肺癌是全球范围内导致癌症相关死亡的主要原因之一。计算机断层扫描(CT)已被证明在肺癌筛查和日常医疗环境中有效,能够提高肺癌的检测率并降低与癌症相关的死亡率。然而,随着CT应用的普及,放射科医生面临越来越大的工作压力,尤其是在处理大量检测到的肺结节时。为了缓解这种负担,研究人员提出了多种计算机辅助诊断(CAD)系统,旨在通过分析患者数据,提供自动且准确的肺癌预测。
尽管基于影像的机器学习模型在肺结节恶性预测方面取得了一定进展,但它们在临床应用中仍存在诸多问题。首先,这些模型通常缺乏可解释性,难以让医生理解其预测结果背后的依据。其次,影像特征对CT扫描的采集和重建参数(如剂量、切片厚度和重建核)较为敏感,这使得模型在不同设备或临床环境中难以保持一致性。此外,深度学习模型容易学习到与结果高度相关但缺乏临床意义的“捷径”特征,这不仅影响了模型的可重复性,还可能降低其在真实临床环境中的泛化能力。最后,模型的可解释性不足,虽然一些方法(如GradCAM)可以生成热图或注意力图,但这些方法仅能显示模型关注的区域,而无法揭示具体的特征信息。
为了克服上述挑战,本文引入了语义特征,这些特征是由放射科医生对肺结节进行评估后得出的描述性术语,如形状、边缘和血管汇聚等。语义特征不仅提供了对结节的定性描述,还能帮助模型更好地理解影像数据中的关键信息。然而,直接使用语义特征进行模型训练也存在一定的困难,例如需要放射科医生的大量人工标注,这增加了数据获取的难度和成本。此外,语义特征通常以表格形式呈现,其中可能包含缺失值,这也限制了其在模型训练中的应用。
为了解决这些问题,本文采用了一种新的方法,将语义特征转换为类似放射科报告的文本形式,并利用预训练的CLIP模型进行对齐。CLIP模型是一种强大的视觉-语言模型,能够学习图像和文本特征之间的对齐关系。通过这种方式,模型不仅能够捕捉影像特征,还能理解语义特征,从而实现更准确的肺癌预测。这种方法的优势在于,它能够利用CLIP模型的强大能力,减少对放射科医生标注的依赖,同时提高模型的可解释性。
### 2. 方法与技术
本文的方法主要分为以下几个步骤:首先,从多个公开数据集中收集了大量CT扫描图像和对应的语义特征。这些数据集包括国家肺部筛查试验(NLST)和肺部影像数据库联盟(LIDC)等,其中包含不同类型的CT扫描(如低剂量CT、诊断性CT和增强CT)和多种肺结节特征。其次,将这些语义特征转换为文本形式,以便与CLIP模型进行对齐。为了实现这一点,作者使用了Gemini 1.5 Flash这一大型语言模型,将其输入提示词与放射科报告的格式相结合,生成具有临床意义的文本描述。
接下来,对CT图像进行了预处理,以确保其与CLIP模型的输入要求相匹配。具体来说,将3D CT图像重新采样为1×1×1毫米的空间分辨率,并使用一个50×50×50毫米的边界框裁剪结节区域。为了保持图像的一致性,对位于图像边界处的结节进行了填充处理。此外,对CT图像的Hounsfield单位(HU)值进行了裁剪和归一化处理,使其落在-1000到500的范围内,并将其归一化到0到1的范围。为了适应CLIP模型的2D输入结构,作者从结节区域的不同角度提取了9个2D切片图像,以保留结节的三维结构信息。这些图像被转换为RGB格式,并调整到224×224的大小,以满足CLIP模型的输入要求。
在模型训练过程中,作者采用了参数高效的微调方法,即低秩适应(LoRA),以减少对预训练模型的修改,并防止过拟合。具体来说,LoRA方法通过在视觉和文本编码器的每一层插入可训练的低秩矩阵,使得模型在保持预训练权重不变的情况下,仅更新这些低秩矩阵。这种方法不仅提高了模型的训练效率,还增强了其在不同数据集上的泛化能力。此外,作者还引入了监督分支,以鼓励模型学习与诊断相关的特征,并提高其在不同CT类型和患者群体中的表现。
### 3. 实验与结果
为了评估模型的性能,作者在多个数据集上进行了实验,包括NLST测试集和三个外部数据集(LUNGx挑战数据集、UCLA健康数据集和杜克肺部筛查数据集)。在NLST测试集上,模型的AUROC为0.901,AUPRC为0.776,显著优于现有的最先进的模型(SOTA)。在外部数据集中,模型的性能同样表现出色,显示出良好的泛化能力。
此外,作者还利用CLIP模型的零样本推理能力,对语义特征进行了预测。例如,对于结节边缘、结节一致性以及胸膜附着等特征,模型在零样本推理中达到了较高的AUROC值。这一能力使得模型能够解释其预测结果,帮助放射科医生理解模型的决策依据。
在模型训练过程中,作者进行了多种消融实验,以评估不同微调方法对模型性能的影响。结果表明,使用LoRA方法的模型在多个数据集上均优于其他方法,显示出更强的泛化能力和更高的预测准确性。此外,作者还比较了仅使用影像特征和仅使用语义特征的模型,发现结合两者的方法在预测性能上更优,尤其是在高敏感性方面。
### 4. 结论与展望
本文的研究表明,通过将语义特征与视觉-语言模型(如CLIP)相结合,可以显著提高肺结节恶性预测的准确性。模型不仅在多个数据集上表现出色,还具有良好的可解释性,能够帮助医生理解其预测结果。此外,模型在实际临床应用中展现出更强的适应性和稳定性,能够在不同CT扫描类型和患者群体中保持一致的性能。
未来的研究可以进一步优化模型的结构,以提高其在不同临床环境中的适用性。例如,可以探索更复杂的特征对齐方法,以增强模型对细粒度特征的理解。此外,可以将更多的放射科报告纳入模型训练,以提高语义特征的准确性和丰富性。同时,还可以考虑引入更多的临床知识,以提升模型在肺结节恶性预测中的表现。总之,本文提出的方法为肺结节恶性预测提供了一种新的思路,具有重要的临床应用价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号