编辑推荐:
为解决医学图像分割中有效捕捉多尺度特征和空间上下文信息的难题,研究人员开展基于 U - Net 骨干网络的研究。他们提出 MSCA - UNet 模型,实验表明该模型显著提高了分割精度和稳健性,为医学图像处理提供了新方案。
在医学领域,精准的医学图像分割对于疾病诊断和治疗意义重大,就像一把精准的手术刀,能帮助医生 “看清” 病变组织。然而,传统的医学图像分割方法面临诸多挑战。一方面,手动分割不仅耗时费力,效率极低,还容易受到主观因素的影响;另一方面,现有的自动分割方法,如经典的 U - Net 及其改进版本,虽然在一定程度上提高了分割效率,但在处理复杂组织结构的医学图像时,仍难以有效捕捉多尺度特征和空间上下文信息,导致分割精度和稳健性欠佳。这些问题严重制约了医学图像分析的发展,也影响了医生对疾病的准确判断和治疗方案的制定。
为了攻克这些难题,烟台南山大学(College of Technology and Data, Yantai Nanshan University)的研究人员 Peng Pan、Chengxue Zhang、Jingbo Sun 和 Lina Guo 开展了深入研究。他们聚焦于医学图像分割领域,致力于寻找一种更高效、精准的分割方法。最终,他们提出了一种基于 U - Net 骨干网络的新型网络结构 ——MSCA - UNet(Multi - scale conv - attention U - Net),相关研究成果发表在《Scientific Reports》上。
研究人员为开展此项研究,运用了多个关键技术方法。在模型构建方面,采用 U 形编码器 - 解码器架构,其中编码器包含四个阶段,每个阶段都引入自适应卷积(AC)模块替代传统卷积;解码器分为三个阶段,使用多尺度学习(MSL)模块进行上采样并融合多尺度信息,同时引入卷积注意力(Conv - Attention)模块以有效捕捉全局上下文信息。在训练和评估阶段,使用 Adam 优化器,初始学习率设为 0.001,采用余弦退火策略调整学习率,训练 100 轮并使用 Early Stopping 策略防止过拟合;选用 Dice 相似系数(DSC)和交并比(IoU)作为主要评估指标,在 CVC - ClinicDB、MICCAI 2023 Tooth 和 ISIC2017 等公开数据集上进行实验。
实验数据集
研究使用了三个公开数据集。CVC - ClinicDB 数据集包含 612 张结肠镜检查图像,分辨率为 384x288 像素;MICCAI 2023 Tooth 数据集包含 2D 扫描的牙科 X 射线图像,训练集有 2000 张图像,测试集有 500 张;ISIC2017 数据集包含 2000 张皮肤镜图像,训练集、验证集和测试集分别有 1279 张、150 张和 600 张图像。所有图像在训练前均调整为 256×256 大小,并采用数据增强技术提高模型稳健性。
实验结果
- 模型性能对比:研究人员将 MSCA - UNet 与 U - Net、Attention U - Net 等七种先进模型进行对比。在 CVC - ClinicDB 数据集上,MSCA - UNet 的 DSC 和 IoU 得分分别达到 89.77% 和 82.87%,领先其他模型;在 MICCAI 2023 Tooth 数据集上,其 DSC 和 IoU 得分平均为 92.37% 和 88.24%,展现出对复杂图像的卓越处理能力;在 ISIC2017 数据集上,DSC 和 IoU 得分平均为 89.42% 和 82.27%,证明了在处理边界模糊图像时的稳健性。
- 分割结果可视化:通过可视化分割结果发现,MSCA - UNet 在不同数据集上都表现出更高的准确性。在 CVC - ClinicDB 数据集中,能更清晰地捕捉肠息肉边缘;在 MICCAI 2023 Tooth 数据集中,可准确区分牙齿边界;在 ISIC2017 数据集中,能捕捉更多皮肤病变的详细特征。
- 消融实验:对 MSCA - UNet 的三个关键模块 AC、Conv - Attention 和 MSL 进行消融实验。结果表明,单独引入这些模块或两两组合,都能在一定程度上提高模型性能;当三个模块同时使用时,模型在所有测试数据集上都达到最佳分割性能,验证了模块组合的有效性。
- 复杂度分析:在模型复杂度方面,MSCA - UNet 与其他模型相比,在参数数量、计算量(FLOPs)和推理时间上表现更优。虽然 UNext 模型推理时间更短,但 MSCA - UNet 在保证推理时间较短的同时,实现了更优的分割性能,具有更出色的综合表现。
研究结论和讨论
MSCA - UNet 模型通过整合 AC 模块、MSL 模块和 Conv - Attention 机制,有效解决了医学图像分割中边界模糊、结构复杂和信息丢失等问题。在多个公开数据集上的实验结果显示,该模型在分割精度和稳健性方面显著优于其他七种测试网络模型,在不同模态的医学图像(如多模态视频数据集、X 射线数据集和 MRI 数据集)上均表现出良好的泛化能力,尤其在低对比度 X 射线图像和高噪声视频帧中也能保持稳定性能。这一研究成果为复杂临床场景下的自动分割任务提供了可靠解决方案,推动了医学图像分割技术的发展,有望在未来辅助医生更精准地诊断和制定个性化治疗方案,具有重要的临床应用价值。同时,研究人员计划进一步优化模型的计算效率,探索其在更多医学领域的适用性,为医学图像分析领域的发展持续助力。