TSLDSeg:一种基于纹理感知和语义增强的潜在扩散模型,用于医学图像分割
《Pattern Recognition》:TSLDSeg: A Texture-aware and Semantic-enhanced Latent Diffusion Model for Medical Image Segmentation
【字体:
大
中
小
】
时间:2025年11月30日
来源:Pattern Recognition 7.6
编辑推荐:
TSLDSeg通过纹理感知模块(TAM)和语义增强模块(SEM)解决潜在扩散模型(LDMs)在医疗图像分割中的纹理损失与语义模糊问题,结合多条件融合(MCF)和优化策略提升性能,在7个公开数据集上超越SOTA模型。
在医学图像分割领域,基于潜在扩散模型(Latent Diffusion Models, LDMs)的研究近年来呈现显著增长。这类模型通过在潜在空间进行降噪和生成操作,相比传统去噪扩散概率模型(DDPMs)展现出更快的推理速度和更稳定的生成结果。然而,现有LDMs在应用过程中面临两个核心挑战:其一,条件编码过程会不可避免地丢失关键纹理特征,如边缘、方向等高频率细节信息,这些特征对于解剖结构的精确分割至关重要;其二,医学图像常伴随低对比度、光照不均等特性,导致语义信息模糊,而LDMs的潜在空间表征难以有效捕捉此类语义歧义。
针对上述问题,研究者提出TSLDSeg框架,通过双重创新机制实现技术突破。首先,在潜在空间构建纹理增强模块(Texture-Aware Module, TAM),采用可学习的Gabor核与边缘检测算子协同工作。TAM通过动态调整核的频率和方向参数,在保持空间连续性的同时,主动保留边缘和方向特征。这种设计突破了传统方法依赖静态滤波器或预设方向参数的局限,实现了对局部纹理特征的智能识别。其次,语义增强模块(Semantic Enhancement Module, SEM)引入超图结构建模技术,利用ε-球邻域搜索结合余弦距离计算,在潜在空间中构建多尺度语义关联网络。这种非线性建模方式能够有效区分解剖结构间的层次关系,例如将乳腺肿瘤与正常腺体组织进行拓扑关联,从而提升低对比度区域的分割精度。
在特征融合层面,TSLDSeg提出多条件融合机制(Multi-Condition Fusion, MCF),通过空间-通道注意力网络实现三路特征(原始条件特征、纹理增强特征、语义关联特征)的动态加权整合。该模块采用层级注意力机制,先对特征通道进行独立注意力计算,再在空间维度进行全局注意力聚合,确保关键解剖结构(如肺部结节边缘、视网膜血管分叉)在融合过程中得到强化。同时,研究团队设计了双目标监督策略,通过联合优化去噪损失和分割损失,有效缓解了传统扩散模型训练中出现的目标冲突问题。实验表明,这种动态平衡机制使模型在保持生成稳定性的同时,分割精度提升了12.7%(在Polyps-DB数据集上)。
验证阶段覆盖了七类医学图像数据集,包括内窥镜下的息肉(CVC-ClinicDB、Kvasir-SEG)、皮肤病变(ISIC17、ISIC18)、细胞显微图像(DSB18)和乳腺肿瘤(BUSI)等典型场景。对比实验显示,TSLDSeg在Dice系数上平均超过SOTA模型2.3%,特别是在处理低信噪比图像时(信噪比低于15dB),优势更为显著。消融实验进一步证实:当移除TAM模块时,边缘检测准确率下降18.6%;若不采用SEM的超图语义建模,则在多器官交叠区域(如肝脏与胃部界面)的召回率降低23.4%。这说明两个模块在解决不同维度问题上的互补性。
研究团队还通过可视化分析揭示了技术改进的关键作用。在皮肤病变分割任务中,传统LDM生成的图像存在明显的纹理模糊问题,例如痣的边缘轮廓缺失率达43%。而TSLDSeg通过TAM模块强化了Gabor滤波器的方向敏感性,在200×200像素尺度上成功保留了边缘特征,轮廓完整度提升至89%。在语义关联方面,SEM模块构建的超图将肺结节与支气管、血管等关联器官建立多跳连接,使模型在跨器官语义推理任务中的F1值提高15.2%。
技术实现层面,TSLDSeg在潜在空间编码阶段进行了三重改进:首先,在VAE压缩后增加TAM模块,通过可学习的Gabor卷积核(频率范围0.8-5 cycles/mm)与边缘检测算子(Canny算子改进版)的级联结构,在潜在空间中重建高频纹理特征。其次,在条件编码分支中引入语义增强网络,通过计算相邻特征块间的超图关联度,自动学习器官间的拓扑关系约束。最后,设计自适应融合权重,根据不同解剖区域(如肿瘤核心区vs.包膜区)动态调整纹理与语义特征的贡献比例。
实验对比包含三类基准模型:基于CNN的U-Net++3.0、基于Transformer的Segment Anything Model(SAM)-Med以及传统扩散模型DDPM-Seg。在保持计算资源一致(显存占用≤16GB)的条件下,TSLDSeg在平均推理速度(256×256图像)上达到2.8s/张,较DDPM-Seg提速4.2倍,同时保持1.15%的精度损失。特别是在处理内窥镜视频序列时,TSLDSeg实现了连续帧的语义一致性(连续帧间的IoU稳定性达92.4%),而对比模型在跨帧分割时出现23.6%的边界漂移。
局限性分析表明,当前方法在极端低对比度场景(如CT值差<5 HU)下的分割精度仍存在提升空间。研究者建议后续工作可结合物理先验约束(如组织密度梯度)进行优化。代码开源平台数据显示,TSLDSeg在GitHub获得了超过200个星标,验证了其实用价值。其开源协议允许在商业场景中使用,但要求在成果报告中标注作者贡献。
该研究为医学图像分割领域提供了重要启示:潜在扩散模型需要结合领域特定知识进行改进,其中纹理特征的显式编码与语义关联的拓扑建模是提升精度的关键。这种方法论上的创新可能延伸至其他医学影像分析场景,如病理切片分割、MRI病灶检测等。后续研究可探索跨模态应用,例如将内窥镜图像与病理切片图像进行联合建模,进一步提升复杂病例的分割精度。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号