
-
生物通官微
陪你抓住生命科技
跳动的脉搏
金字塔极性感知跨注意力机制驱动的零样本开放世界物体计数研究
【字体: 大 中 小 】 时间:2025年07月31日 来源:Neurocomputing 6.5
编辑推荐:
针对开放场景下物体计数存在的跨模态对齐与多尺度推理难题,重庆大学团队提出PolaCount框架。该研究通过金字塔极性感知跨注意力模块(PPCAM)实现文本-视觉特征双向融合,结合DINOv2视觉表征与密度图监督训练,在FSC-147等数据集上实现零样本SOTA性能,无需示例框或类别微调即完成跨域物体计数。
在智能监控、精准农业和医疗诊断等领域,准确统计特定物体的数量是核心需求。然而现有计数方法存在明显局限:基于特定类别训练的模型难以泛化到新物体,少样本方法依赖持续标注,而无参考方法又缺乏语义引导。如何实现"开放世界"的通用物体计数,成为计算机视觉领域亟待突破的难题。
针对这一挑战,重庆大学大数据与软件工程学院的研究团队在《Neurocomputing》发表创新成果。他们开发的PolaCount框架首次将多尺度融合与极性感知跨注意力相结合,仅通过文本描述即可实现零样本物体计数。该研究的关键突破在于设计了金字塔极性感知跨注意力模块(PPCAM),将查询-键值对分解为正负子空间进行双向注意力计算,配合DINOv2的视觉特征提取能力,在完全不需要示例框或类别微调的情况下,显著提升了跨模态对齐精度。
研究方法上,团队采用冻结参数的DINOv2 ViT-B/14作为视觉主干网络,CLIP ViT-B/16处理文本输入。PPCAM模块通过金字塔结构实现多分辨率特征融合,采用深度可分离卷积优化token交互。训练过程仅使用密度图监督,通过AdamW优化器进行200个epoch的端到端训练,数据增强包含高斯噪声、马赛克等技术。
研究结果部分显示:1) 在FSC-147数据集上,PolaCount的MAE(平均绝对误差)较现有零样本方法降低23.7%,证明其文本-视觉对齐优势;2) CARPK车辆计数实验中,模型展现出对复杂场景的强适应能力;3) ShanghaiTech人群计数测试显示,多尺度金字塔结构有效解决了目标尺寸差异问题。消融实验证实,极性分离机制使正相关特征强化、负相关特征抑制,密度图聚焦度提升31.2%。
该研究的创新价值体现在三方面:首先,PPCAM模块开创性地将极性感知引入跨模态注意力,通过正负子空间分离增强特征判别力;其次,金字塔架构实现从局部细节到全局语义的多层次对齐;最后,纯密度监督的训练范式使模型摆脱对昂贵标注数据的依赖。这些突破使得PolaCount在保持零样本优势的同时,性能直逼需要示例框的少样本方法,为智能安防、农业普查等实际应用提供了更灵活的解决方案。正如作者所述,这项工作"为开放世界物体计数建立了新的基准",其技术路线有望拓展到视频分析、三维检测等更广阔领域。
生物通微信公众号
知名企业招聘