CATR-Net:一种针对牛群的注意力机制Transformer模型,具备自适应和增强的分割与识别能力

《Computers and Electronics in Agriculture》:CATR-Net: Cattle–Attentive transformer with adaptive and enhanced segmentation and recognition

【字体: 时间:2025年10月03日 来源:Computers and Electronics in Agriculture 8.9

编辑推荐:

  提出CATR-Net端到端框架,集成多尺度边缘增强上采样模块MEUM、动态上下文注意力模块DCAM和自适应交互归一化DAIN,解决牛脸分割的边界模糊和识别的跨尺度上下文建模问题,在57,645张图像数据集上实现93.35% mIoU和97.03%准确率,模型体积仅417MB。

  本文介绍了CATR-Net,一种结合了分割与识别功能的端到端框架,旨在解决在开放场域中对牛面部特征进行精确分割与识别的挑战。传统的分割网络在保留细粒度边缘信息方面存在局限,而识别网络在建模显著区域和局部-全局上下文方面也显得不足,导致在姿态和光照变化较大的情况下识别性能不稳定。CATR-Net通过融合分割与识别任务,有效克服了这些局限性,提升了在复杂环境下的鲁棒性。

CATR-Net的分割模块引入了多尺度边缘增强上采样模块(MEUM),该模块通过引入多尺度边缘信息,增强了分割网络对高频率边缘细节的恢复能力,同时减少了上采样过程中产生的模糊。MEUM模块由三个协同工作的子模块组成:门控特征压缩块(GFCC)、边缘增强门控融合块(EIGF)和自适应特征融合块(AFFB)。这些子模块通过深度可分离卷积、边缘增强路径和自适应的1×1融合卷积,有效恢复了边缘信息并保留了高保真度的细节。

在识别模块中,动态上下文注意力模块(DCAM)被插入到Stem和MaxViT块之间,其通过动态卷积和自适应的注意力机制,增强了网络对局部纹理和全局语义的建模能力。此外,动态自适应交互归一化(DAIN)取代了静态的LayerNorm,引入了动态tanh归一化机制,从而提高了模型对不同姿态和光照条件的适应能力。为了进一步提升模型的鲁棒性,识别损失函数中还加入了置信度差距正则化项,该正则化项通过动态调整DAIN中的tanh参数,放大了模糊特征并稳定了高置信度激活。

CATR-Net在包含57,645张图像的多姿态数据集上进行了测试,其分割分支达到了93.35%的mIoU和96.45%的mDSC,识别分支则实现了97.03%的准确率和95.19%的F1-score,这些性能指标均优于当前最先进的基线方法,同时保持了相对较低的模型复杂度(417-457 MB)。这些结果表明,CATR-Net在复杂牧场环境中实现了高精度的分割和识别。

CATR-Net的设计灵感来源于近期在医学图像分割领域的进展,如多尺度特征融合和注意力机制。然而,这些方法在处理牧场环境中常见的遮挡、污渍和姿态变化时,仍存在一定的局限性。因此,CATR-Net在原有框架的基础上,结合了多尺度边缘增强、动态注意力机制和自适应归一化策略,从而提升了模型在复杂场景下的表现。

在分割模块中,MEUM模块通过引入多尺度边缘信息,增强了网络对高频率边缘细节的恢复能力,同时减少了上采样过程中的模糊。MEUM模块首先应用平均池化层,以获取多尺度边缘残留信息,然后通过边缘增强路径放大显著边界,最后通过自适应的1×1融合卷积,将多尺度边缘信息与局部细节进行融合,从而输出高分辨率的特征图。这种设计不仅保留了细粒度的边缘信息,还保持了模型的轻量化特性,使其更适合实际部署。

在识别模块中,DCAM模块通过动态卷积和自适应的注意力机制,增强了网络对局部纹理和全局语义的建模能力。DAIN模块则引入了动态tanh归一化机制,通过可学习的缩放、偏移和压缩参数,实现了对不同光照和姿态条件的自适应归一化。置信度差距正则化项则通过调整DAIN中的tanh参数,提升了模型对模糊样本的识别能力,并增强了预测的稳定性。

实验结果表明,CATR-Net在分割和识别任务中均表现出色,其分割模块在多姿态数据集上实现了93.35%的mIoU和96.45%的mDSC,识别模块则达到了97.03%的准确率和95.19%的F1-score。这些性能指标不仅优于现有的方法,还保持了相对较低的模型复杂度,使其更适合嵌入式设备的部署。

尽管CATR-Net在分割和识别任务中表现出色,但其动态组件也带来了额外的计算路径和可学习参数,这可能增加训练复杂度和内存需求,从而限制其在超低资源的边缘设备上的部署。此外,置信度差距正则化项需要仔细调整超参数,以避免对主要类别过拟合,同时保留对较少见身份的区分能力。当前的数据集虽然规模较大,但仍然需要进一步的多样性以提高模型的泛化能力。

为了进一步提升模型的鲁棒性,未来的工作将重点放在模型压缩上,包括结构化剪枝、后训练量化(包括低比特格式)和知识蒸馏,以减少计算和存储需求而不影响性能。同时,计划探索轻量级注意力变体和动态稀疏度调度,以优化DCAM和DAIN模块,使其更适合微控制器级别的硬件。此外,将扩展数据集,以包括更多品种、年龄组和毛色的牛面部图像,并引入红外和热成像等其他成像模态,以提高模型对光照和天气变化的适应能力。在推理质量方面,将集成不确定性感知技术,如温度缩放、符合性预测和基于校准的决策规则,以增强模型的鲁棒性和推理可靠性。通过这些改进,CATR-Net将更适用于复杂环境下的实际部署。

综上所述,CATR-Net通过其多尺度边缘增强上采样模块、动态上下文注意力模块和动态自适应交互归一化模块,有效提升了牛面部分割和识别的精度和鲁棒性。其在复杂牧场环境中的表现优于现有方法,为精准畜牧业和智能畜牧管理提供了强有力的技术支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号