
-
生物通官微
陪你抓住生命科技
跳动的脉搏
金字塔注意力机制与渐进式多阶段迭代特征优化的显著性目标分割方法研究
【字体: 大 中 小 】 时间:2025年07月30日 来源:Image and Vision Computing 4.2
编辑推荐:
针对复杂场景中显著性目标检测(SOD)存在的尺度变化、背景干扰和边界模糊等问题,研究人员提出融合金字塔注意力机制(PAM)和渐进式多阶段迭代特征优化网络(PIFRNet)的创新方法。通过多层级特征提取、渐进式双边特征优化(PBFR)模块和扩张卷积增强的注意力机制,在DUTS等五大基准测试中实现SOTA性能,显著提升跨数据集泛化能力。
在计算机视觉领域,显著性目标检测(Salient Object Detection, SOD)如同让机器拥有"视觉焦点"的能力,其核心挑战在于如何像人类一样从复杂场景中快速锁定最引人注目的物体。当前主流方法面临三大"拦路虎":当目标像乐高积木般大小不一时,现有模型容易漏检小物体;当背景如万花筒般杂乱时,系统常把树叶当森林;而当物体边缘如水墨画般模糊时,检测结果往往边界参差。更棘手的是,不同数据集间的性能差异如同"水土不服",严重制约实际应用。
Princess Nourah Bint Abdulrahman University的研究团队在《Image and Vision Computing》发表的这项研究,犹如为SOD领域注入一剂"强心针"。他们设计的金字塔注意力机制(Pyramidal Attention Mechanism, PAM)与渐进式多阶段迭代特征优化网络(Progressive Multi-stage Iterative Feature Refinement Network, PIFRNet),通过四阶段ResNet50特征层级整合、渐进式双边特征优化模块(Progressive Bilateral Feature Refinement, PBFR)和融合扩张空洞空间金字塔(Dilated Atrous Spatial Pyramid Pooling, DASPP)的多头自注意力(Multi-Head Self-Attention, MHSA),在DUTS等五大基准测试中全面超越现有方法,其跨数据集泛化能力更展现出临床应用的巨大潜力。
关键技术包括:1) 从ResNet50四个层级提取56×56到7×7的多尺度特征;2) PBFR模块通过三级卷积和空间注意力实现特征精修;3) PAM整合DASPP与MHSA构建"注意力中的注意力"机制;4) 采用DUTS-TR等六大数据集进行严格验证。
【网络架构】
研究团队构建的PIFRNet如同精密的信息加工厂:输入图像I∈RH×W×3经ResNet50处理,逐级生成X1=?1(I)∈R56×56×256到X4∈R7×7×2048的特征金字塔。PBFR模块采用"三级精炼+投影"结构,每级包含3×3卷积、批量归一化和ReLU激活,通过空间注意力门控实现特征筛选。
【实验结果】
在DUTS-TE测试集上,PIFRNet的F-measure达到0.892,较基准模型提升5.3%。ECSSD数据集中对小物体(面积<>
这项研究为复杂场景下的视觉分析提供了新范式:其层级特征整合策略解决了语义错位问题,PBFR模块有效缓解了细节退化,而PAM机制则通过DASPP的多尺度感知与MHSA的长程依赖建模,实现了"既见树木又见森林"的检测效果。特别值得注意的是,该方法在保持实时性的同时(单图处理耗时53ms),为自动驾驶、医学影像分析等需要高精度视觉理解的领域提供了可靠的技术支撑。正如通讯作者Nada Alzaben在讨论部分强调的:"这种将几何先验与数据驱动相结合的方法,代表着下一代视觉认知系统的发展方向。"
生物通微信公众号
知名企业招聘