基于视觉 Transformer 与 Grad-CAM 可解释 AI 的胸部 X 光片肺结核检测新突破

《BMC Medical Imaging》:Enhanced tuberculosis detection using Vision Transformers and explainable AI with a Grad-CAM approach on chest X-rays

【字体: 时间:2025年03月25日 来源:BMC Medical Imaging 2.9

编辑推荐:

  为解决肺结核精准诊断难题,研究人员开展基于视觉 Transformer(ViT)和 Grad-CAM 的研究,结果显示诊断准确率高,有助于临床应用。

  肺结核,这个由结核分枝杆菌(Mycobacterium tuberculosis)引发的疾病,如同隐匿在暗处的 “健康杀手”。近年来,它已成为全球公共卫生领域的重大挑战,仅次于新冠疫情带来的影响。据世界卫生组织(WHO)数据,2019 年全球约有 140 万人因肺结核失去生命。肺结核虽可防可治,但由于受社会经济因素、医疗资源分配不均以及与艾滋病(HIV)共感染等问题影响,其检测和诊断困难重重。在医学影像诊断中,从胸部 X 光片准确判断肺结核是关键环节。然而,肺结核早期在 X 光片上的表现十分隐匿,传统的依靠放射科医生手动识别结节、浸润等特征的方法,不仅依赖医生经验,而且效率较低。随着技术发展,基于机器学习和深度学习的计算机化系统逐渐兴起。早期的边缘检测、支持向量机和决策树等算法,需要人工设计特征,性能波动较大。卷积神经网络(Convolutional Neural Networks,CNNs)的出现虽有进步,但仍需大量标注数据,且在不同临床环境中的泛化能力欠佳。
为了攻克这些难题,来自印度和埃塞俄比亚等多个机构的研究人员展开了深入研究。他们将研究成果发表在《BMC Medical Imaging》上。这项研究旨在利用视觉 Transformer(Vision Transformer,ViT)结合梯度加权类激活映射(Gradient-weighted Class Activation Mapping,Grad-CAM)技术,构建一个精准且具有可解释性的肺结核检测模型,提升从胸部 X 光片诊断肺结核的准确性,同时增强模型决策的可解释性,为临床诊断提供有力支持。

在研究过程中,研究人员运用了多种关键技术方法。首先,在数据处理方面,他们从公开数据库获取 “肺结核(TB)胸部 X 光片数据库”,将数据分为训练集(70%)、验证集(15%)和测试集(15%)。对图像进行灰度转换、对比度受限自适应直方图均衡化(CLAHE)、高斯模糊等预处理操作,并采用旋转、翻转、平移等数据增强技术。在模型构建上,使用定制的 ViT 模型,其包含 Conv2D 卷积层作为初始特征提取模块,接着是多个 Transformer 编码器块,还引入了位置编码网格(PEG)和 Grad-CAM 技术。模型训练采用随机梯度下降(SGD)带动量的优化方法,结合余弦退火学习率调整策略,使用二元交叉熵(BCE)损失函数,并通过 L2 正则化和 Dropout 防止过拟合。

研究结果如下:

  1. 模型训练效果:训练损失随训练轮次不断下降,表明模型有效学习并收敛。但验证损失在初期下降后略有上升,提示可能出现过拟合,不过通过正则化等技术可进行控制。
  2. 模型性能评估:验证集和测试集上,模型展现出高准确率(验证集约 99.29%,测试集 96.97%)、高召回率(验证集 98.59%,测试集 96.97%) ,且在精度、F1 分数、F2 分数、AUC-ROC(曲线下面积,验证集 0.99,测试集 0.98)、AUC-PR(精度 - 召回曲线下面积,验证集 0.98,测试集 0.97)等指标上表现出色,表明模型在识别肺结核阳性病例和正确分类图像方面效果显著。同时,马修斯相关系数(Matthews Correlation Coefficient,MCC)和科恩卡帕系数(Cohen’s Kappa Score)都接近 0.97,说明模型预测与实际标签高度相关。
  3. 模型对比分析:与其他模型相比,该研究提出的 ViT 结合 Grad-CAM 的模型在准确率上更具优势,如对比一些基于 CNNs 的模型,其准确率更高。并且 Grad-CAM 生成的热图能突出 X 光片中与肺结核相关的关键区域,增强了模型的可解释性,有助于医生理解模型决策过程。
  4. 消融实验结果:通过消融实验发现,去掉 Conv2D 卷积层会使准确率下降 4%,去掉位置编码网格会使召回率下降 3%,去掉多头自注意力机制会使 F1 分数下降 5%,证明这些组件对模型性能提升至关重要。

研究结论和讨论部分指出,ViT 模型结合 Grad-CAM 在肺结核检测上比 CNNs 具有更高的诊断准确率。ViT 的自我注意力机制能挖掘传统模型难以发现的隐藏模式和关联,Grad-CAM 生成的热图可标识出与肺结核指标相关的显著区域,增强了临床医生对 AI 诊断的信心。这种透明度对于临床应用至关重要,有助于医疗专业人员更好地理解和信任 AI 辅助诊断结果,从而在患者治疗中更合理、高效地运用这些诊断结果。此外,该模型在多种数据集上表现出色,在资源匮乏地区也具有重要应用价值,为医学影像精准诊断开辟了新方向。未来研究可进一步探索与其他先进深度学习架构的比较,运用更先进的数据增强技术,拓展模型在其他医学影像设备(如 MRI、CT 扫描)中的应用,有望为更多疾病的诊断提供更强大的支持,推动 AI 在医疗领域的广泛应用和发展。

下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究

10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!

欢迎下载Twist《不断变化的CRISPR筛选格局》电子书

单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析

下载《细胞内蛋白质互作分析方法电子书》

相关新闻
生物通微信公众号
微信
新浪微博

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号