HyperFusionNet:融合视觉Transformer与注意力U-Net的早期黑色素瘤检测与病灶精准分割新架构
《Scientific Reports》:HyperFusionNet combines vision transformer for early melanoma detection and precise lesion segmentation
【字体:
大
中
小
】
时间:2025年12月01日
来源:Scientific Reports 3.9
编辑推荐:
本研究针对皮肤镜图像中黑色素瘤早期诊断和病灶分割的挑战,提出了一种新型混合深度学习架构HyperFusionNet。该模型创新性地整合了多路径视觉Transformer(MPViT)和注意力U-Net,通过交叉注意力融合模块实现语义特征与空间特征的协同优化。在四个国际皮肤影像协作组(ISIC)数据集上的实验表明,该模型在分类任务中准确率达到93.24%,AUC为95.80%;分割任务中Dice系数达0.945,显著优于现有主流模型,为皮肤癌自动化诊断提供了可靠解决方案。
皮肤癌是全球范围内最具侵袭性的癌症类型之一,其中黑色素瘤因其快速转移特性而尤为致命。世界卫生组织数据显示,2018年全球约有960万癌症死亡病例,皮肤癌占确诊癌症病例的40%以上。早期诊断和精准干预对提高患者生存率至关重要,而皮肤镜检查作为非侵入性成像技术,已成为皮肤病视觉诊断的重要工具。然而,传统诊断方法高度依赖医师经验,研究表明资深专家(10年以上经验)诊断准确率可达80%,而仅有3-5年经验的医师准确率仅为62%,这种差异性凸显了开发自动化、客观化诊断工具的迫切需求。
皮肤镜图像分析面临多重挑战:病灶在尺寸、形态、色素沉着和纹理方面存在高度异质性;图像常包含毛发、不均匀色素沉着和照明伪影等噪声;准确诊断需要同时捕捉局部特征(如不对称性、边界不规则性)和全局上下文信息。传统机器学习方法依赖手工特征难以应对这些复杂性,而现有深度学习模型如CNN(卷积神经网络)虽显示出潜力,但仍存在局限性——或需大量数据才能达到高精度,或计算复杂导致诊断延迟,且多数模型缺乏同时执行分类和分割任务的能力。
针对这些挑战,Min Li、Yinping Jiang、Ge Cao、Tao Xu和Ruiqiang Guo等研究人员在《Scientific Reports》上发表了题为"HyperFusionNet combines vision transformer for early melanoma detection and precise lesion segmentation"的研究论文,提出了一种创新性混合架构。该研究旨在通过整合视觉Transformer的全局特征提取能力与U-Net的空间精度优势,为皮肤癌诊断提供一体化解决方案。
研究采用国际皮肤影像协作组(ISIC)2018、2019、2020和2024四个公共数据集,包含超过60,000张皮肤镜图像。预处理流程包括基于形态学的毛发去除、GrabCut和主动轮廓模型的病灶中心裁剪、图像归一化至[0,1]范围。模型核心架构包含多路径视觉Transformer(MPViT)编码器(三个并行Transformer路径分别处理小、中、大尺度特征)、注意力U-Net解码器(带注意力门控机制)以及交叉注意力融合模块。训练使用AdamW优化器,采用Dice损失和二元交叉熵损失的联合优化策略,输入图像统一缩放至224×224像素。
在ISIC 2020数据集上,HyperFusionNet在阈值为0.5时达到最佳平衡:准确率96.67%,灵敏度97.33%,特异性94.67%。在ISIC 2018数据集上,模型获得93.24%的准确率、92.41%灵敏度和94.15%特异性。最新ISIC 2024数据集上表现最优,准确率达94.78%,灵敏度超过96%。ROC曲线分析显示所有数据集的AUC值均高于0.95,证实模型具有强大的判别能力。
混淆矩阵可视化分析显示,模型在恶性病例诊断中具有高精度和召回率,在避免过度检测的同时保持了高灵敏度。概率分布热图显示良性实例概率峰值集中在0.0-0.2区间,恶性病灶概率集中在0.8-1.0区间,类别间分离明显。
定性比较显示,HyperFusionNet即使在形状不规则、对比度低或存在毛发伪影的挑战性病例中也能准确勾勒病灶边界。预测掩模与真实轮廓高度一致,仅在某些模糊边缘处存在微小偏差。
定量评估显示,在ISIC 2018数据集上Dice系数为0.932,Jaccard指数为0.881;ISIC 2019数据集上分别为0.927和0.872;ISIC 2020数据集上为0.911和0.854;ISIC 2024数据集上达到最高性能(Dice: 0.945, Jaccard: 0.896),证明模型能有效处理多样化的病灶特性和成像条件。
通过系统消融研究评估了各组件贡献。完整模型在ISIC 2020分类任务中准确率96.67%(AUC 0.9701),分割任务中Dice系数0.911。移除交叉注意力融合模块导致性能显著下降(准确率93.33%,Dice系数0.880),证实语义-空间特征融合的重要性。去除注意力门控机制使Dice系数降至0.895,使用单路径ViT替代多路径ViT进一步降低至0.885,证明多尺度特征提取的优势。
与U-Net、Attention U-Net、DeepLabV3+、TransUNet和Swin-UNet等主流模型相比,HyperFusionNet在ISIC 2018数据集上分类准确率(93.24%)和分割Dice系数(0.932)均显著优于所有基线模型。特别是与混合模型相比,超越TransUNet(91.12%, 0.890)和Swin-UNet(91.45%, 0.905),同时保持竞争力的推理时间(1.15秒)。
ROC曲线比较显示,HyperFusionNet在ISIC 2024数据集上AUC值达0.962,显著优于EfficientNet-B0(0.834)、DenseNet201(0.883)和Swin-U-Net(0.897)。统计显著性分析(1000次Bootstrap重采样)表明,与所有基线模型相比,Dice和Jaccard指标的改进均具有统计学意义(p<0.05)。
模型在四个ISIC数据集上均表现出强健性能,分类准确率在90.52%(ISIC 2020)至94.78%(ISIC 2024)之间,分割Dice系数保持在0.911以上。训练数据量影响分析显示,90%-5%-5%的数据划分方案最优,减少训练集规模会导致性能逐渐下降,影响训练效率和收敛稳定性。
HyperFusionNet通过协同整合MPViT和Attention U-Net,有效解决了皮肤镜图像中黑色素瘤检测和病灶分割的关键挑战。其创新性体现在三个方面:多路径Transformer编码器同时捕获局部病灶细节和全局上下文信息;交叉注意力融合模块实现语义特征与空间掩模的自适应加权;分类与分割任务的联合优化框架。实验证明该架构在保持计算效率的同时,在多个基准数据集上超越了现有最先进方法。
该研究的局限性包括对训练数据质量和多样性的依赖、计算复杂度较高、缺乏显式可解释性技术以及未在非皮肤镜模态上的验证。未来工作将聚焦于集成可解释性技术(如Grad-CAM、SHAP)、优化模型复杂度、扩展评估到更广泛的数据集和模态,以及整合多模态数据(如患者元数据)以提升诊断准确性和个性化水平。
HyperFusionNet为皮肤癌自动化筛查提供了一种可靠、高效的AI驱动决策支持工具,特别适用于资源有限环境下的早期黑色素瘤诊断,有望显著提升皮肤病诊断的客观性和一致性,具有重要的临床转化价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号