基于交叉注意力融合CNN-ViT混合框架的脑肿瘤分类新方法

《Scientific Reports》:A hybrid CNN–ViT framework with cross-attention fusion and data augmentation for robust brain tumor classification

【字体: 时间:2025年12月01日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对脑肿瘤MRI图像分类中传统方法难以捕捉肿瘤多尺度特征的问题,提出了一种结合卷积神经网络(CNN)和视觉变换器(ViT)的混合框架CAFNet。通过交叉注意力融合(CAF)机制有效整合局部特征与全局上下文信息,在四类脑肿瘤数据集上达到96.41%的测试准确率,显著优于传统机器学习、深度学习和单一Transformer模型,为临床诊断提供了更可靠的AI辅助工具。

  
在全球范围内,脑肿瘤作为最致命的神经系统疾病之一,每年影响着数百万人的生命。磁共振成像(MRI)因其优异的软组织对比度和高分辨率,成为脑肿瘤诊断的首选非侵入性成像技术。然而,放射科医生对MRI扫描的手动判读往往存在主观性强、耗时长、观察者间差异大等局限。这些挑战催生了基于机器学习(ML)和深度学习(DL)的计算机辅助诊断(CAD)系统的蓬勃发展。
传统机器学习方法主要依赖手工特征(如纹理、形状和强度描述符)结合支持向量机(SVM)、决策树等分类器,但其泛化能力受限于肿瘤大小、形态和位置的复杂多变性。卷积神经网络(CNN)能够直接从图像数据中学习层次化特征表示,成为解决这些问题的有力工具。然而,CNN在捕捉MRI扫描中的全局上下文和长程依赖关系方面存在不足,且在小规模医学数据集上容易过拟合。视觉变换器(ViT)通过自注意力机制建模图像全局关系,在医学影像分析中展现出潜力,但其在小型数据集上的独立性能有时较差。这促使研究人员开发能够结合CNN局部特征提取能力和ViT全局上下文建模优势的混合框架。
针对这一需求,印度SASTRA大学的研究团队在《Scientific Reports》上发表了题为"A hybrid CNN-ViT framework with cross-attention fusion and data augmentation for robust brain tumor classification"的研究论文,提出了一种名为CAFNet的创新混合框架。
本研究采用了几项关键技术方法:使用Kaggle脑肿瘤MRI数据集(包含5712张训练图像和1311张测试图像),涵盖垂体瘤、脑膜瘤、胶质瘤和无肿瘤四类别;通过旋转±20°、随机缩放和水平翻转等数据增强策略提升模型泛化能力;设计交叉注意力融合(CAF)模块,以ViT嵌入作为查询(Query)、CNN特征作为键值(Key-Value),实现全局到局部的特征融合。
模型架构设计
CAFNet的核心创新在于其交叉注意力融合机制。该框架同时利用CNN分支(采用MobileNetV2)提取局部空间特征,以及ViT分支建模全局上下文关系。CAF模块通过计算注意力权重A = softmax(QKT/√d),使每个ViT标记能够关注相关的CNN区域特征,最后通过拼接或相加方式融合特征。这种设计使模型能够同时聚焦于局部肿瘤边界和整体结构上下文,显著提升分类精度。
传统机器学习模型比较
研究首先评估了传统机器学习方法的性能。决策树(DT)、朴素贝叶斯(NB)和线性判别分析(LDA)结合方向梯度直方图(HoG)特征提取,最佳表现者为决策树,测试准确率达82.99%。
深度学习模型分析
从零开始训练的CNN模型实现了75.90%的测试准确率,但存在明显过拟合。转移学习模型评估显示,MobileNetV2表现最佳(86.96%),而ResNet50因参数过多、在小数据集上过拟合严重,仅获得68.73%的准确率。
视觉变换器模型评估
独立ViT模型在训练集上达到95.51%的准确率,但测试集表现仅为87.34%,表明其在小数据集上的泛化能力有限。
CAFNet性能验证
完整的CAFNet框架在测试集上实现了96.41%的准确率,显著优于所有基线模型。五折交叉验证进一步证实了其稳健性,平均准确率达96.08%。
消融研究分析
消融实验清晰展示了各组件贡献:单独CNN和ViT模型分别获得86.96%和87.34%的准确率;简单拼接融合的CNN+ViT提升至92.20%;而加入CAF模块的完整CAFNet最终达到96.41%,证明了交叉注意力融合机制的有效性。
本研究通过系统比较传统机器学习、深度学习和Transformer模型,证实了CAFNet在脑肿瘤MRI分类任务中的优越性能。该框架成功解决了小医学数据集上模型过拟合、局部与全局特征整合不足等关键问题。交叉注意力融合机制使模型能够自适应地权衡局部纹理细节和全局空间关系,这对鉴别形态多变的脑肿瘤至关重要。
尽管CAFNet表现出色,研究仍存在一定局限性:数据集规模有限且来源单一,可能影响模型在不同临床场景中的泛化能力;模型可解释性有待加强,未来需要引入Grad-CAM等可视化技术增强临床可信度。研究人员计划扩展多中心、多模态数据整合,探索联邦学习保护隐私,并开发轻量化版本以适应实时临床工作流程。
这项研究为医学影像分析提供了新的技术思路,通过巧妙结合CNN和ViT的优势,建立了更可靠的脑肿瘤分类模型,推动了AI辅助诊断技术在临床实践中的应用前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号