基于交互标签编码与条件决策的高效人物-物体交互检测方法(EHOI)研究

【字体: 时间:2025年05月23日 来源:Computer Vision and Image Understanding 4.3

编辑推荐:

  针对人物-物体交互(HOI)检测中计算复杂度高、模型透明度低及数据分布不平衡等问题,研究人员提出高效HOI检测器(EHOI)。该方法采用两阶段设计:第一阶段利用冻结目标检测器定位物体并提取特征;第二阶段通过XGBoost分类器预测交互类型,创新性地引入纠错码(ECC)编码罕见交互案例。实验表明,EHOI在HICO-DET数据集上实现4500倍计算复杂度降低,同时保持可比mAP性能,为边缘设备提供透明、低功耗的AI解决方案。

  

论文解读

在计算机视觉领域,人物-物体交互(Human-Object Interaction, HOI)检测是图像理解的基础任务,其核心是识别图像中人物与物体的空间关系及交互类型。然而,现有基于深度学习的HOI检测方法面临三大挑战:一是计算成本高昂,如主流模型UPT的单次推理浮点运算(FLOP)高达15,800倍于本文方法;二是模型可解释性差,黑箱式的神经网络决策过程难以追溯;三是数据集标注不平衡,例如HICO-DET中某些交互类别样本量不足导致模型偏见。这些问题严重制约了HOI技术在移动设备上的实际应用。

为解决上述问题,美国南加州大学的研究团队提出高效HOI检测器(Efficient HOI, EHOI)。该方法通过两阶段架构实现性能与效率的平衡:第一阶段采用预训练的DETR目标检测器(基于ResNet50骨干网络)提取物体位置和特征;第二阶段创新性地将交互预测任务分解为条件概率问题,使用XGBoost分类器处理特征,并引入纠错码(Error Correction Codes, ECC)对罕见交互类别进行编码压缩。实验显示,EHOI在HICO-DET数据集上的mAP达25.1%,虽略低于UPT(28.7%)和SCG(27.8%),但FLOP数仅为二者的1/15,800和1/4500,模型参数量减少两个数量级。相关成果发表于《Computer Vision and Image Understanding》。

关键技术方法
研究采用HICO-DET和V-COCO标准数据集,通过DETR检测器提取物体边界框、类别及空间关系特征;针对数据不平衡问题,将600种交互分为常见类(one-hot编码)和罕见类(ECC编码);利用XGBoost构建概率决策模型,通过条件概率聚合实现透明推理;采用FLOP和mAP量化评估计算效率与检测精度。

研究结果

1. 系统概述
EHOI的架构设计强调模块化可解释性。第一阶段输出的物体特征包含语义(如"杯子")和几何(如人物-物体中心距)信息;第二阶段通过ECC将原始600维标签压缩至10维,使XGBoost分类器参数量减少98.3%。

2. 数据集分析
HICO-DET数据集中80%的交互属于仅占类别数20%的常见类,剩余80%类别样本稀疏。ECC编码将罕见类错误率从传统方法的34%降至18%,验证了编码策略对长尾分布的适应性。

3. 性能对比
在HICO-DET测试集上,EHOI的mAP(25.1%)超越PPDM(23.4%)等一阶段模型,FLOP(0.01G)仅为SCG(45G)的0.002%。可视化案例显示,ECC编码能正确识别如"持望远镜"等罕见交互,而传统方法易误判为高频类如"持杯子"。

结论与展望
EHOI通过数学透明的概率框架和ECC编码技术,实现了HOI检测在边缘计算场景的突破。其分治策略将复杂决策分解为可解释的子模块,如空间关系模块准确率单独达89.2%。未来工作将探索三维交互表征与多模态数据融合。该研究为绿色AI(Green Learning)在视觉任务中的应用提供了范式,代码已开源于GitHub平台。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号