
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于InceptionNeXt-Transformer的多模态乳腺癌诊断:一种融合多尺度深度特征学习的新型架构
【字体: 大 中 小 】 时间:2025年05月30日 来源:Biomedical Signal Processing and Control 4.9
编辑推荐:
本研究针对乳腺癌诊断中单一影像模态分析精度不足、局部特征与全局依赖难以平衡的问题,提出了一种融合卷积神经网络(CNN)与视觉Transformer(ViT)的混合架构InceptionNeXt-Transformer。该模型通过四阶段设计(多尺度特征提取、自注意力机制、局部-全局数据融合),在7个包含组织病理学、乳腺X线摄影和超声的数据集上实现最高100%的准确率,显著优于20种对比模型,为资源受限的临床环境提供了高效计算机辅助诊断(CAD)方案。
乳腺癌是全球女性最常见的恶性肿瘤,2020年新增病例达230万例,死亡68.5万例。尽管临床检查、乳腺X线摄影(mammography)、超声和组织病理学(histopathology)是主要诊断手段,但人工诊断存在耗时、主观性强且依赖专家经验的局限性。现有计算机辅助诊断(CAD)系统多局限于单一影像模态,而CNN模型难以捕捉全局依赖,视觉Transformer(ViT)又面临计算复杂度高的问题,亟需一种兼顾精度与效率的多模态解决方案。
为突破这些瓶颈,Igdir大学人工智能与大数据研究中心的研究团队开发了InceptionNeXt-Transformer混合架构。该模型创新性地将CNN的多尺度特征提取能力与ViT的全局建模优势相结合:前两阶段采用InceptionNext块提取局部特征,第三阶段引入自注意力机制(self-attention)捕获长程依赖,最终阶段整合局部-全局信息进行分类。研究采用7个跨模态数据集(BreakHis组织病理数据集、INbreast/MIAS/DDSM乳腺X线数据集、BUSI/BLUID超声数据集)验证模型性能,并与10种CNN和10种ViT模型对比。
关键技术方法包括:1)多模态数据融合策略;2)四阶段混合架构设计;3)基于Ubuntu 24.04系统、NVIDIA RTX 3090 GPU的加速计算;4)超参数优化(学习率0.001,批量大小32,训练周期100)。
结果
讨论
该研究首次实现了单一模型对三种主流乳腺癌影像模态的高精度分析。InceptionNeXt-Transformer在保持CNN局部敏感性的同时,通过Transformer模块建立病灶与周围组织的空间关联,显著降低假阳性率。例如在乳腺X线分析中,模型对致密乳腺组织(dense breast tissue)的识别准确率较传统CNN提升19%。
结论
InceptionNeXt-Transformer为资源受限的医疗环境提供了可部署的CAD解决方案,其创新点在于:1)通过多阶段特征融合克服模态差异;2)参数量较ViT减少42%;3)在7个数据集上全面超越现有方法。未来可扩展至其他癌症的多模态诊断,推动精准医疗发展。论文发表于《Biomedical Signal Processing and Control》,为跨模态医学影像分析树立了新基准。
生物通微信公众号
知名企业招聘