
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于自注意力并行网络与渐进上采样的轻量化舌象分割模型PAPU_TonSeg提升中医舌诊智能化水平
【字体: 大 中 小 】 时间:2025年07月30日 来源:Scientific Reports 3.8
编辑推荐:
本研究针对中医舌诊智能化进程中舌象语义分割存在的边缘模糊、细节丢失等问题,提出改进的轻量化分割模型PAPU_TonSeg。北京中医药大学团队通过集成自注意力并行网络(Self-Attention Parallel Network)、高效通道注意力(ECA)机制和多维特征渐进上采样(Multi-dimensional Feature Progressive Upsampling)三大创新模块,在BioHit公共数据集上实现MPA提升2.42%、MIoU提升0.78%的突破,为中医舌诊客观化提供高精度、低计算复杂度的解决方案。
在传统中医诊断实践中,舌诊作为"望闻问切"四诊之首,通过观察舌体运动、舌苔变化等特征判断脏腑健康状况。然而现有舌象分割方法面临三重困境:基于卷积神经网络(CNN)的模型难以捕捉全局语义信息,Transformer架构存在位置编码(Positional Embedding)分辨率固化的缺陷,而主流编解码结构在16倍双线性上采样过程中易丢失边缘细节。这些问题导致分割结果出现舌体残缺、齿痕模糊等现象,严重影响舌象分类诊断的准确性。
北京中医药大学管理学院团队在《Scientific Reports》发表的研究中,基于Segformer架构提出PAPU_TonSeg改进模型。该研究通过构建自注意力与残差模块并行的网络结构,在Mix-FFN组件嵌入高效通道注意力(ECA)机制,并采用多维特征渐进上采样技术,成功实现舌体细节的精准分割。关键技术包括:使用BioHit公共数据集(300张)和自建数据集(642张)进行模型训练;采用AdamW优化器(初始学习率6×10-5)进行100轮训练;通过Grad-Cam可视化技术验证特征提取效果;对比评估FCN、U-Net等5种经典模型的MPA(Mean Pixel Accuracy)、MIoU等指标。
【方法与模型改进】研究团队创新性地将Transformer Block替换为包含Resnet层的并行模块(Parallel Block),使模型能同步提取局部细节与全局特征。在Mix-FFN中引入的ECA机制通过1×1卷积替代全连接层,在降低3.34M参数量的同时提升特征提取效率。解码器部分采用MLP与MLA协同架构,通过四级特征图渐进式上采样至原图1/4尺寸,有效减少边缘信息损失。
【实验结果】在BioHit数据集上,PAPU_TonSeg以97.56%的MPA和98.60%的MIoU显著优于原始Segformer(提升2.42%和0.78%)。可视化结果显示,该模型能准确分割舌体齿痕等细微特征,热图显示其注意力分布更均匀。

【结论与意义】该研究构建的轻量化模型仅增加0.7G FLOPs运算量,即在保持低计算复杂度(2.0G FLOPs)的前提下实现舌象分割精度的突破。其创新性体现在:①首次将并行网络结构引入舌象分割,解决CNN与Transformer的互补性问题;②通过ECA机制优化特征权重分配,提升模型对舌苔、齿痕等关键特征的敏感性;③渐进上采样策略为医学图像分割中的边缘模糊问题提供新思路。这项工作不仅推动了中医舌诊的客观化进程,其模块化设计思路也为其他医学图像分割任务提供了借鉴。
生物通微信公众号
知名企业招聘