
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于CLIP驱动的智能协同推理框架CORE-CLIP:提升人-物交互检测的语义理解与性能
【字体: 大 中 小 】 时间:2025年08月10日 来源:Pattern Recognition 7.6
编辑推荐:
针对人-物交互检测(HOI)任务中语义理解不足和标注数据依赖性强的问题,扬州大学团队提出CORE-CLIP框架,通过文本引导双融合注意力模块(TDA)和语义增强显式分类模块(SEC),融合CLIP的多模态特征,在V-COCO和HICO-DET数据集上分别提升1.36 mAP和1.01 mAP,零样本性能显著超越现有方法,为复杂场景理解提供新思路。
在计算机视觉领域,人-物交互检测(Human-Object Interaction, HOI)是理解场景语义关系的关键任务,其目标是从图像中识别出〈human, action, object〉三元组。尽管现有方法在基准数据集上取得进展,但面临两大瓶颈:一是依赖大量标注数据,难以识别训练集未见的交互关系;二是现有模型多为单模态设计,缺乏对语言语义的利用,导致对"持杯"与"放杯"等细微动作差异的区分能力不足。
扬州大学信息工程学院(人工智能学院)的研究团队提出CORE-CLIP框架,创新性地将视觉语言预训练模型CLIP的开放性与鲁棒性融入HOI检测。通过设计文本引导双融合注意力模块(Text-guided Dual fusion Attention, TDA)实现跨模态特征对齐,结合语义增强显式分类模块(Semantically Enhanced explicit interaction Classification, SEC)强化语义约束,在V-COCO数据集场景1下达到64.64 mAP,较GEN-VLKT提升1.36个点,模型参数量仅52.9M时推理速度达38.3 FPS。该成果发表于《Pattern Recognition》,为零样本场景理解提供了新范式。
研究采用三项关键技术:1)解耦查询模块(Decoupled Query Module, DQM)独立学习人和物体特征;2)TDA模块通过多级交叉注意力融合CLIP文本嵌入(如"person-kick-ball")与视觉特征;3)SEC模块利用CLIP文本编码器初始化三类分类器,显式输出物体、动作和完整交互的预测分数。实验使用ResNet50/101 backbone和Transformer编码器-解码器架构,在HICO-DET和V-COCO数据集上评估。
主要研究结果
3.2节显示,DQM通过独立的人类查询向量Qhum和物体查询向量Qobj,配合共享位置编码Qpos,使ResNet50 backbone下mAP提升2.78-3.04%。
3.3节的TDA模块通过公式(4)-(6)实现双阶段融合:先以文本嵌入Thoi引导语义对齐,再结合CLIP视觉特征Vclip验证空间一致性,贡献1.09-1.13%性能增益。
3.4节的SEC模块通过公式(11)-(13)计算三类分数加权和,其中CLIP初始化的交互分类器使零样本任务在NF-UC设置下超越基线3.46 mAP。
4.4节的对比实验表明,CORE-CLIP在V-COCO场景2达到66.89 mAP,参数量仅为GEN-VLKT的40.7%。图9的热力图显示TDA能准确定位"持棒击球"等交互关键区域。
结论与意义
该研究开创性地将CLIP的开放语义能力引入HOI检测,通过三重创新:1)解耦式特征学习避免语义混淆;2)双模态注意力实现细粒度交互定位;3)显式多级分类增强零样本泛化能力。特别是在表5的UO(Unseen Object)设定下,模型对未见过物体(如斑马、滑雪板)的识别准确率提升50.9%,证实了语言先验对长尾场景的改善作用。未来可进一步探索动态视频中的交互建模,推动具身智能等应用发展。失败案例(图11)表明,微小物体和严重遮挡仍是待突破难点,这为后续研究指明了方向。
生物通微信公众号
知名企业招聘