基于注意力融合ConvNeXt与视觉Transformer的MedFusionNet皮肤癌自动检测新方法

《Scientific Reports》:Automated skin cancer detection using MedFusionNet with attention-based fusion of ConvNeXt and vision transformer

【字体: 时间:2025年12月13日 来源:Scientific Reports 3.9

编辑推荐:

  本研究针对皮肤癌(尤其是黑色素瘤)早期诊断难题,提出了一种名为MedFusionNet的新型深度学习模型。该模型通过注意力机制融合ConvNeXt的局部特征提取能力和Vision Transformer(ViT)的全局上下文建模优势,在ISIC-2019和HAM10000两个皮肤镜影像数据集上分别达到97.90%和98.80%的分类准确率,显著优于ResNet50、MobileNet V2等传统模型。Grad-CAM可视化证实模型能聚焦于病灶区域,为临床计算机辅助诊断系统提供了可靠技术方案。

  
皮肤癌作为全球最常见的恶性肿瘤之一,其早期诊断直接关系到患者预后生存质量。其中黑色素瘤(melanoma)因其高转移性和死亡率成为临床诊治的重点难点。传统诊断高度依赖 dermatologists 的经验判断,但在早期病变鉴别、罕见亚型识别等方面仍面临巨大挑战。近年来,人工智能技术特别是深度学习在医学影像分析领域展现出巨大潜力,然而现有卷积神经网络(CNN)模型在皮肤癌分类任务中仍存在特征提取局限、类不平衡敏感等问题。
在这项发表于《Scientific Reports》的研究中,Muhammad Ahtsam Naeem等人开发了一种名为MedFusionNet的创新架构,巧妙融合了ConvNeXt和Vision Transformer(ViT)的优势。该研究团队通过设计自适应注意力融合机制,实现了局部细节特征与全局上下文信息的高效整合,为皮肤癌的精准自动分类提供了新思路。
研究团队采用的关键技术方法主要包括:基于ConvNeXt和ViT的双分支特征提取架构、软注意力加权融合策略、SMOTE类平衡处理技术,以及Grad-CAM可解释性分析。实验使用ISIC-2019(25,343张图像)和HAM10000(10,015张图像)两个公开皮肤镜数据集,通过数据增强、图像归一化等预处理流程,系统评估了模型在多分类任务中的性能。
模型架构设计
MedFusionNet采用并行双分支结构,其中ConvNeXt分支通过深度可分离卷积捕获局部纹理特征,ViT分支则将图像分割为7×7 patches并通过多头自注意力(MHSA)机制建模长程依赖关系。创新性地,研究团队设计了基于softmax的注意力权重分配模块,动态调整两个分支的特征贡献度,形成加权融合的最终特征表示。
特征提取性能
可视化分析显示,模型首层卷积核能够有效激活病灶区域的边缘、纹理和颜色特征,证实了特征提取的有效性。Grad-CAM热力图进一步表明模型注意力集中于临床相关区域,如色素网络的异常分布、边缘不规则性等关键诊断特征。
分类性能评估
在HAM10000数据集上,MedFusionNet在七分类任务中达到98.80%的总体准确率,其中 melanocytic nevi(色素痣)和melanoma(黑色素瘤)的AUC分别达0.97和0.94。在更复杂的ISIC-2019数据集上,模型对dermatofibromas(皮肤纤维瘤)和vascular lesions(血管病变)等罕见类型的识别AUC高达0.99和1.00,显著优于对比模型。
消融实验分析
Model Variant
HAM10000
ISIC-2019
Acc.
Prec.
Rec.
AUC
Acc.
Prec.
Rec.
AUC
MedFusionNet(Proposed)
98.80%
0.95
0.97
0.99
97.90%
0.96
0.98
0.99
消融实验证实了各组件的重要性:移除ViT模块使准确率下降1.7%,移除ConvNeXt下降2.0%,而去除注意力融合机制则导致性能降低2.3%。与简单拼接和交叉注意力等融合策略相比,本文提出的自适应注意力方法在保持较低计算复杂度的同时实现了最佳性能平衡。
计算效率比较
Model
FLOPs(G)
Inference Time(ms/img)
GPU Memory(GB)
Parameters(M)
MedFusionNet(Ours)
8.6
12.1
6.8
45.2
模型在保持高精度的同时实现了12.1ms/图像的推理速度,相较于纯Transformer模型(ViT-B16)内存占用降低25.3%,展现了良好的临床部署潜力。
研究结论表明,MedFusionNet通过注意力机制有效融合了CNN的局部特征提取能力和Transformer的全局建模优势,在皮肤癌多分类任务中实现了SOTA性能。讨论部分指出,尽管模型在公开数据集上表现优异,但其临床适用性仍需通过多中心外部验证进一步确认。未来工作将聚焦于轻量化模型设计、多模态数据(如患者年龄、病变部位等临床信息)融合,以及跨影像模态(如乳腺病理、胸部X光)的泛化能力探索。
这项研究的重要意义在于:第一,提出了可解释性强、性能优越的皮肤癌自动诊断框架;第二,为CNN-Transformer混合架构在医学影像分析中的应用提供了新范式;第三,通过详细的消融实验和可视化分析,为模型决策过程提供了临床可理解的依据。随着后续研究的深入,MedFusionNet有望成为临床医生可靠的辅助诊断工具,提升皮肤癌早期检出率并改善患者预后。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号