基于目标空间方向向量场(TSOVF)算法的图像对象二维空间方位关系识别研究

【字体: 时间:2025年05月09日 来源:Engineering Science and Technology, an International Journal 5.1

编辑推荐:

  为解决计算机视觉中空间方位关系识别缺乏有效框架的问题,研究人员开展了基于目标空间方向向量场(TSOVF)算法的研究。该研究通过双分支DCNN架构(T-branch和S-branch)实现了端到端的空间方位关系分类,在PASCAL VOC2012数据集上达到94.8%准确率,为视觉场景理解提供了可复现的基准框架。

  

在计算机视觉领域,理解图像中对象间的空间关系是场景语义解析的核心挑战。尽管现有技术如卷积神经网络(CNN)在目标检测和分类任务中表现卓越,但对空间方位关系的建模仍存在明显不足。传统方法依赖两阶段流程——先检测对象再计算边界框相对位置,这种间接方式难以捕捉人类直观感知的空间语义。更关键的是,忽视空间特征会导致误判,例如将器官位置异常的人脸误分类为正常。

为突破这一局限,中国某研究机构团队在《Engineering Science and Technology, an International Journal》发表了创新研究。他们开发了目标空间方向向量场(TSOVF)算法,通过双分支深度卷积神经网络(DCNN)实现端到端的空间方位识别。该架构包含目标识别分支(T-branch)和空间方位分支(S-branch),前者基于关键点估计定位对象中心,后者构建像素级向量场量化对象间角度关系。研究采用PASCAL VOC2012数据集,通过高斯热图编码目标位置,设计耦合回归损失函数优化参数,最终通过投票机制判定四种基础空间方位类别。

关键技术包括:1) 基于ResNet50的双分支DCNN架构;2) 空间方向向量场的角度编码方法;3) 非极大值抑制(NMS)的目标中心点筛选;4) 融合模块的置信度加权决策机制。

研究结果显示:

  1. 目标类别识别分支设计
    通过高斯热图成功定位20类PASCAL VOC目标,中心点预测置信度达0.92以上,目标尺寸自适应标准差σp设为目标大小的1/3。

  2. 空间方位关系识别分支设计
    构建的UD-field和LR-field能有效区分上下(U&D)和左右(L&R)关系,在复杂场景中保持方向敏感性。测试显示L&R关系识别F1-score达94.7%,U&D关系识别精度95%。

  3. 融合模块设计
    通过阈值K=0.5筛选有效目标对,空间关系置信度计算中设置比例阈值T=1.2,最终输出结构化三元组列表。全局准确率94.8%,几何平均数(G-mean)0.798。

  4. 复杂场景验证
    在华为SUTR海事数据集测试中,算法将U&D关系映射为三维空间的前后(F&B)关系,证明其潜在扩展性。但在遮挡率>50%时,目标检测置信度下降至0.65以下。

讨论指出,TSOVF算法的创新性在于:1) 首次用向量场编码空间方位,模拟人类视觉感知机制;2) 双分支架构平衡了目标识别与关系判别的性能;3) 为视觉关系检测(VRD)和场景图生成(SGG)提供新思路。局限在于对三维重叠关系的处理不足,未来可通过引入深度信息提升立体空间建模能力。

该研究为自动驾驶、医学图像分析等需要精确空间推理的领域提供了新方法,其框架设计思想对多模态融合任务具有普适参考价值。特别是将几何特征与语义特征统一建模的范式,为突破当前计算机视觉的语义理解瓶颈提供了可行路径。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号