一种利用深度学习进行皮肤病变检测与定位的方法,同时具备可靠的预测可解释性
《Image and Vision Computing》:A method for skin lesion detection and localization by means of deep learning and reliable prediction explainability
【字体:
大
中
小
】
时间:2025年08月07日
来源:Image and Vision Computing 4.2
编辑推荐:
皮肤病变自动检测方法研究,采用CNN网络结合Grad-CAM和Score-CAM可解释性算法,在38569张皮肤镜图像的七类病变分类中实现最高93.6%的准确率,并通过SSIM和FSIM指标验证了模型的可解释性和稳定性。
皮肤病变是皮肤上出现的异常生长或表现,从良性(非癌性)到恶性(癌性)不等。皮肤病变的识别是一项关键任务,通常在短时间内完成,以便启动可能的治疗方案。本文提出了一种自动皮肤病变检测方法,使用卷积神经网络(CNN)进行分类,并通过两种不同的类激活映射(CAM)算法,增强模型预测的可解释性。此外,我们还引入了相似性指数,以进一步量化分析模型的性能。
### 皮肤病变的重要性
皮肤病变的识别和分类在医学领域具有重要的意义。根据研究,皮肤癌是美国最常见的癌症之一,影响每五个人中的一个。其发病率在1976至1984年间增加了145%,在2000至2010年间又增加了145%。2024年,黑色素瘤成为男女第七常见的癌症诊断。对于两性而言,侵袭性黑色素瘤预计将是第六常见的癌症诊断。在过去30年中,黑色素瘤的发病率持续上升,从2011年到2019年,增加了31.5%。在50岁以上的女性中,侵袭性黑色素瘤的发病率每年增加3%,而在年轻女性中则趋于稳定。2020年,欧洲联盟注册了超过10万例黑色素瘤病例,同时记录了超过1.6万例死亡。丹麦、荷兰和挪威等北欧国家是全球皮肤癌发病率最高的国家之一。
早期检测对于皮肤癌的有效治疗至关重要。皮肤病专家在识别皮肤病变方面具有专业技能,但实际操作中仍面临挑战,因为不同类型的病变在形态、颜色和结构上存在细微差异。传统的诊断方法依赖于视觉检查和有时的活检,这些过程不仅耗时,还需要丰富的专业知识。随着先进成像技术的发展和数字医疗记录的普及,计算方法在辅助皮肤科医生进行更高效和更准确的诊断方面展现出巨大的潜力。
### 深度学习与卷积神经网络
深度学习(DL)是机器学习的一个重要分支,它能够自动从原始数据中学习和提取相关特征,因此在图像分析中具有重要价值。特别是卷积神经网络(CNN),在各种图像识别任务中表现出色,包括医学生物影像分析。这些网络通常用于识别和分类皮肤疾病,并识别重复出现的模式。
然而,CNN模型通常被视为“黑箱”模型,这使得临床医生难以理解其预测过程。这种特性在医疗领域尤其重要,因为医生需要信任模型的预测结果,确保其基于医学相关的特征,而不是偶然的关联或数据偏差。因此,模型的可解释性成为研究的重要方向。可解释性不仅有助于提高临床接受度,还能确保自动诊断工具的可靠性和安全性。
### 提出的方法
本文提出了一种可解释的皮肤病变检测方法,旨在自动识别和定位皮肤病变。我们采用了深度学习技术,特别是CNN,并引入了两种不同的CAM算法:梯度加权类激活映射(Grad-CAM)和得分加权类激活映射(Score-CAM)。这两种算法能够突出图像中对分类决策起关键作用的区域,从而提供对模型预测的直观解释。
此外,我们还计算了结构相似性指数(SSIM)和特征相似性指数(FSIM),以进一步量化模型的性能。SSIM考虑了对比度、亮度和可能的失真,而FSIM结合了相位一致性(frequency domain)和梯度幅度(gradient magnitude)来提取图像特征。这些指数的范围值允许不同模型之间的比较,从而支持模型的鲁棒性和可解释性。
### 模型选择与性能分析
在本文中,我们评估了五种不同的CNN模型,包括Inception、ResNet50、EfficientNet、MobileNet和Standard_CNN。其中,MobileNet在皮肤病变检测任务中表现最佳,达到了0.936的准确率、0.937的精确率和0.935的召回率。这表明MobileNet在识别七种皮肤病变方面具有较高的性能。
为了进一步验证模型的性能,我们还进行了额外的实验分析,使用了一个由Prasad Maharana提供的新数据集。该数据集包含八种皮肤病变类别,其中一种是新增的鳞状细胞癌(SCC)。为了保持数据集的一致性,我们去除了SCC类别,并对每类图像数量进行了平衡处理。最终,每类图像数量为2100张,数据集按照80-10-10的比例划分为训练集、验证集和测试集。
在这一新数据集上,MobileNet和InceptionV3分别达到了80.4%和83.8%的准确率,而ResNet50和Standard_CNN的准确率则有所下降,分别为68.9%和68.0%。这些结果与之前的实验一致,表明MobileNet在不同数据集上的表现相对稳定。同时,EfficientNet在识别不同类别图像方面存在较大困难,其准确率显著低于其他模型。
### 可解释性分析
为了提高模型的可解释性,我们使用了Grad-CAM和Score-CAM算法生成热图,以展示模型在图像中关注的区域。Grad-CAM通过反向传播个体类权重来突出感兴趣区域,而Score-CAM则利用得分加权方法,解决了Grad-CAM的梯度饱和和虚假置信度问题。两种算法在多个图像类别中识别出相似的区域,表明模型的预测具有一定的稳健性。
此外,我们计算了FSIM和SSIM指数,以评估不同CAM算法生成的热图之间的相似性。FSIM指数在0.60以上,表明两种算法在识别皮肤病变特征方面具有较高的一致性。SSIM指数则在0.80以上,进一步验证了模型在识别病变区域时的稳定性。这些指数不仅提供了模型性能的量化指标,还增强了模型的可信度和临床应用价值。
### 实验结果与分析
在实验分析中,我们详细展示了模型在训练和验证阶段的性能趋势。训练准确率随着训练轮数的增加而上升并趋于稳定,而验证准确率则略有下降,这可能表明模型在训练过程中出现了过拟合现象。然而,整体来看,模型仍然能够有效区分不同类型的皮肤病变。
为了进一步分析模型的性能,我们绘制了训练和验证阶段的准确率和损失曲线。这些曲线显示了模型在训练过程中的学习趋势,以及在验证阶段的稳定性。此外,我们还使用了混淆矩阵来评估模型在测试阶段的分类效果。混淆矩阵中的对角线值较高,表明模型在不同类别中的分类正确率较高。
我们还计算了模型在不同类别之间的相关性矩阵,以分析模型在不同类别上的性能是否相互影响。例如,DF(黑色素瘤)和MEL(黑色素瘤)之间的强正相关性表明,提高其中一个类别的识别能力可能会同时提升另一个类别的性能。相反,DF和BCC之间的负相关性则表明,这两个类别在模型处理过程中可能具有不同的特征。
### 可视化分析
在可视化分析中,我们展示了Grad-CAM和Score-CAM算法在不同皮肤病变类别上的应用结果。这些热图不仅帮助医生理解模型的决策过程,还能够识别图像中与病变相关的区域。通过对比两种算法生成的热图,我们发现它们在大多数情况下识别出相同的区域,但存在细微差异。这种一致性增强了模型的可信度,并为未来的研究提供了方向。
此外,我们还注意到,某些热图可能包括图像的角落或上下部分,这表明模型在处理图像时可能考虑了更多的上下文信息。这种特性对于提高模型的鲁棒性和准确性具有重要意义。通过这些分析,我们不仅验证了模型的性能,还展示了其在实际应用中的潜力。
### 结论与未来研究
本文提出了一种基于CNN的可解释皮肤病变检测方法,通过Grad-CAM和Score-CAM算法提高了模型的透明度和可解释性。实验结果表明,MobileNet在七种皮肤病变分类任务中表现最佳,达到了较高的准确率、精确率和召回率。此外,SSIM和FSIM指数的计算进一步验证了模型的稳健性和一致性。
未来的研究将探索基于Transformer的模型,以提高皮肤病变检测和定位的准确性和鲁棒性。这些模型能够更好地捕捉医学图像中的长距离相关性,从而提升分类性能。此外,我们将努力扩展数据集,使其包含更多不同肤色的样本,以提高模型的公平性和泛化能力。同时,我们还将优化模型,使其能够在边缘设备上进行实时推理,为资源有限的医疗环境提供更便捷的诊断支持。
通过本文的研究,我们希望为皮肤科医生提供一个透明、可靠的工具,帮助他们更准确地诊断皮肤病变,从而提高皮肤癌的早期发现率和治疗效果。我们相信,这种可解释的人工智能方法将在未来的医疗实践中发挥重要作用,推动精准医学的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号