《Scientific Reports》:A semisupervised knowledge distillation model for lung nodule segmentation
编辑推荐:
肺癌严重威胁人类健康,肺结节早期筛查至关重要。但传统手动筛查耗时费力且易漏诊误诊,现有检测方法面临获取标注数据成本高、鲁棒性差等问题。研究人员开展基于半监督学习和知识蒸馏的肺结节检测模型(SSLKD-UNet)研究,结果显示该模型性能优越,对肺癌早筛意义重大。
肺癌,这个隐匿在黑暗中的健康杀手,近年来愈发猖獗。它的发病率和死亡率在全球范围内都居高不下,成为人类健康的一大劲敌。在中国,超 75% 的肺癌患者确诊时已处于晚期或发生转移,5 年内死亡率颇高。因此,肺癌的早期诊断和精准治疗成为提高患者生存率的关键所在。
在肺癌的早期筛查中,肺结节的检测是重要一环。通过医学影像手段,如胸部 X 光、正电子发射断层扫描(PET)、计算机断层扫描(CT)和磁共振成像(MRI)等,医生可以发现肺结节。其中,CT 和 MRI 是目前早期检测和辅助诊断肺癌的重要方法,能帮助医生识别肺结节、判断其良恶性,并监测其大小变化和扩散趋势。然而,随着肺癌患者数量的不断增加,放射科医生面临着巨大的挑战。一方面,工作量的剧增导致人力资源不足;另一方面,医学影像的复杂性以及不同医生主观意识的影响,使得手动筛查肺结节时频繁出现漏诊和误诊的情况。
与此同时,现有的肺结节检测算法也存在诸多问题。训练这些算法往往需要大量高质量标注的医学图像数据集,但获取此类数据集成本高昂。而且,算法的鲁棒性较差,难以应对不同质量的数据。因此,开发一种高效准确、能利用少量标注数据进行训练的肺结节检测算法迫在眉睫。
在这样的背景下,大连医科大学附属第一医院的研究人员开展了一项关于肺结节分割的研究。他们提出了一种基于半监督学习和知识蒸馏的肺结节检测模型(SSLKD-UNet),旨在实现肺结节的精准检测,为肺癌的早期筛查提供有力支持。该研究成果发表在《Scientific Reports》上。
研究人员为开展此项研究,运用了多种关键技术方法。他们收集了 183 例肺癌患者的 CT 数据构建私人数据集 LC183,并对 LUNA16 和 LC183 数据集中的原始肺结节 CT 图像进行了一系列预处理操作,包括窗宽窗位调整、重采样和裁剪等,还利用数据集中的肺结节坐标等信息生成了细粒度和粗粒度的标注。在模型构建方面,设计了一种结合 CNN 和 Transformer 的混合架构 SSLKD-UNet,并采用基于师生框架的训练策略,使用少量粗粒度标注数据训练简单网络,再用其标注大量未标注数据,进而训练 SSLKD-UNet 模型。
下面来看具体的研究结果:
- 不同教师标注器的影响:研究人员选用了不同的模型作为教师标注器,如 UNet、ResUNet、AttUNet、SwinUNet 和 UTransformer 等,来探究其对学生分割器 SSLKD-UNet 分割性能的影响。在 LUNA16 数据集上,当教师标注器为 UNet、ResUNet 或 UTransformer 时,SSLKD-UNet 表现相对较好;在 LC183 数据集上,当教师标注器为 UNet 或 ResUNet 时,SSLKD-UNet 表现出色。研究分析认为,模型参数数量以及架构复杂度的差异会影响教师标注器的性能,进而影响 SSLKD-UNet 的表现。
- 消融实验:分别在 LUNA16 和 LC183 数据集上进行消融实验,结果表明,去除模型中的 Swin Transformer 层或在训练过程中不使用师生训练策略,都会导致模型性能下降,这充分证明了研究人员所提出的训练策略的有效性以及 SSLKD-UNet 在检测肺结节方面的优越性。
- 不同学生分割器的性能:将 SSLKD-UNet 与其他模型(如 UNet、ResUNet 和 AttUNet 等)在肺结节分割任务上进行水平对比,发现在相同教师标注器的情况下,SSLKD-UNet 在各项指标上表现更为优异,这说明其具有更强的学习和纠错能力。
综合研究结果,研究人员得出结论:他们设计的 SSLKD-UNet 模型基于 CNN 和 Transformer 的混合架构,结合师生网络训练过程,能有效利用大量无肺结节标注的肺癌 CT 图像数据进行训练。实验验证了该模型在肺结节分割任务中的优越性能以及训练过程的有效性。
不过,该研究也存在一定的局限性。一方面,初始粗标注的质量对最终分割精度影响较大,若粗标注不准确,可能导致教师模型将错误信息传递给学生模型,限制性能提升;另一方面,模型的计算复杂度较高,Swin-Transformer 层虽经优化,但仍需大量计算资源,训练过程也较为耗时,不利于在临床工作流程中快速迭代和更新模型。
尽管如此,这项研究依然具有重要意义。从实践角度看,该模型减少了对详细标注的依赖,能够更快速准确地从 CT 扫描中分割出肺结节,有助于加快肺癌的诊断速度,实现早期干预,改善患者的治疗效果。从理论层面而言,其为混合架构在特定任务中的优化提供了思路,也为后续研究探索如何整合更多未标注数据、开发更复杂的模型以提升医学图像分析的精度和效率提供了坚实的框架。
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
欢迎下载Twist《不断变化的CRISPR筛选格局》电子书
单细胞测序入门大讲堂 - 深入了解从第一个单细胞实验设计到数据质控与可视化解析
下载《细胞内蛋白质互作分析方法电子书》