发现不可见的事物:通过微动分析与社交环境融合来检测可疑行为

《Journal of Information and Intelligence》:Detecting the Unseen: Micro-Movement and Social Context Integration for Suspicious Behavior Detection

【字体: 时间:2025年10月30日 来源:Journal of Information and Intelligence

编辑推荐:

  可疑行为检测是一个新兴研究方向,旨在识别长时间、微小且刻意隐藏的预犯罪行为。本文提出融合局部时空特征(骨骼轨迹、视线-身体偏移角)与全局社会语义特征(动态隐蔽性、区域可见性)的联合建模框架,通过时空图卷积网络捕捉骨骼动态,双向LSTM建模视线偏移序列,并设计瓶颈注意力机制融合多模态特征。构建首个可疑行为检测数据集SBDataset,实验表明在公开数据集和自建数据集上均显著优于基线方法,AUC最高提升16.2%,验证了社会语义信息在异常检测中的有效性。

  视频异常检测是智能监控领域的一个关键研究方向。目前,大多数方法在识别短时、视觉显著的异常行为方面表现良好,如打架或奔跑,但在识别长期、微妙且有意隐藏的行为时则面临较大挑战。在实际犯罪场景中,犯罪者常常通过长时间的徘徊或反复观察目标区域来进行犯罪前的侦察,这种行为往往不易察觉,却可能带来更高的安全风险。为了应对这一问题,我们提出了一种新的研究任务:可疑行为检测(SBD)。该任务的核心在于识别那些缺乏明确视觉线索、反映有意隐藏意图的长期行为模式,从而实现对潜在威胁的早期预警和预防。

心理研究表明,人类的意图与微小行为密切相关。虽然犯罪者可能试图隐藏其意图,但犯罪前的行为通常会通过微妙的线索,如目光方向和轻微动作,无意识地表现出来。环境犯罪学理论,如情景诱因理论、常规活动理论和理性选择理论,指出犯罪者倾向于选择隐蔽但具有良好视野的观察点。这些行为反映了个体与环境之间的隐性互动,我们将其定义为社会语义特征。受心理学和社会学启发,我们认为可疑行为同时包含局部特征和全局特征。局部特征包括用来隐藏意图的细微动作,如目光与身体方向的偏差;而全局特征则体现在长期轨迹模式和社会语义中。

为了应对这一问题,我们引入了一个结合局部和全局特征的建模框架,用于可疑行为检测。与现有的异常检测方法不同,我们的框架不仅关注突然的视觉异常,还明确将犯罪学和心理学的理论融入视觉建模中。具体来说,局部感知模块使用时空图卷积网络(ST-GCN)来建模骨骼运动并捕捉微妙的运动变化,同时通过基于角度的特征量化目光与身体方向的偏差,使用双向长短期记忆网络(Bi-LSTM)建模观察意图。尽管ST-GCN和Bi-LSTM是已有的架构,但我们的创新点在于将犯罪学启发的语义与行为特征设计相结合,从而提供更全面的可疑行为意图理解。

在全局感知模块中,我们分析长期轨迹中心,并引入两个新的语义指标:区域隐蔽性和区域可见性,用于量化某一位置的隐蔽程度或可见程度。这些指标与轨迹序列一起,在多个通道上进行联合建模,使得框架能够捕捉行为的时空和社环境特征。此外,我们设计了一个瓶颈注意力机制,用于融合局部和全局表示,从而实现对可疑行为的全面和高效分析。最后,模型通过重构输入序列并测量重构误差来执行无监督检测。

本研究的主要贡献包括以下几个方面:首先,我们提出了一种新的任务,即可疑行为检测,旨在识别那些微妙、长期且有意隐藏的犯罪前行为,挑战了现有异常检测方法的能力。其次,我们设计了一个结合微行为特征与犯罪学启发社会语义的局部-全局感知框架,使得模型能够更全面地理解可疑行为的意图。第三,我们构建了SBDataset,这是该领域首个专门用于可疑行为检测的数据集,为研究这一新兴任务提供了支持。

在论文的其余部分,我们将在第2节介绍相关工作。第3节详细描述可疑行为检测框架。第4节报告实验验证和性能评估。第5节讨论局限性和未来工作。第6节总结全文。

相关工作的研究表明,视频异常检测方法可以分为基于行人特征和基于轨迹特征两类。基于行人特征的传统方法通常提取姿态或身体部位,并使用机器学习模型进行分类。例如,Wang等人使用光流方向直方图(HOFO)与隐马尔可夫模型(HMM),Hu等人使用梯度直方图(HoG)与支持向量机(SVM),Sabokrou等人使用全卷积网络(FCN)提取区域级特征。然而,这些方法通常需要大规模的标记异常数据集,而这些数据集在现实场景中往往稀缺,使得监督训练困难。随着深度学习的发展,无监督模型逐渐受到重视。这些模型通常在正常数据上进行训练,并在混合数据上进行测试,使用基于重构或预测的策略。

基于重构的方法,如自动编码器和稀疏编码,学习正常数据分布,并通过重构误差识别异常。例如,Georgescu等人使用卷积自动编码器,而Park等人引入了一个记忆模块来存储正常模式。基于预测的方法假设正常视频中存在时间一致性,并通过预测帧与实际帧的偏差来检测异常。例如,动态局部聚合网络和上下文感知的双流框架。尽管这两种方法都取得了显著成功,但它们主要建模短期运动模式,适用于检测明显的异常事件。然而,我们任务中的可疑行为通常是长期的、细微的且有意隐藏的,使得现有基于轨迹的方法难以识别。这凸显了建模长期语义推理和意图推断的必要性。

从心理学和社会学的角度来看,可疑行为可以有效地进行分析。从心理学角度看,目光方向、姿势变化和细微运动模式等微行为已被证明与人类意图密切相关。即使犯罪者试图隐藏其意图,这些无意识的线索往往会在犯罪前的活动如徘徊或无声观察中显现出来,这些行为缺乏明确的视觉指示,因此难以使用传统的运动方法检测。从社会学角度看,环境犯罪学理论指出犯罪者倾向于选择隐蔽但具有良好视野的观察点,这表明个体与环境之间的隐性互动。因此,联合分析行为线索和空间语义可以更全面地理解可疑活动,并有助于早期威胁检测。

受这些见解的启发,我们设计了一个可疑行为检测框架,将微行为特征与宏观空间语义相结合。我们引入了一个瓶颈注意力机制,用于融合细粒度运动特征与长期轨迹中的上下文信息,如区域隐蔽性和可见性。这使得模型能够在时空域中建模潜在意图,并支持基于动作、轨迹和社会背景的多维可疑行为识别。

在局部感知模块中,为了全面考虑局部特征,我们希望融合由ST-GCN提取的骨骼轨迹特征和由Bi-LSTM提取的角度特征。然而,直接拼接或加权融合可能会引入冗余信息,使得建模两种模态之间的复杂关系变得困难。为此,我们引入了多模态瓶颈变换器,它设置了一组低维瓶颈单元作为模态交互的中介。这避免了高维特征的直接全连接交互,从而集中信息流,减少计算负担,并突出关键特征。基于这一瓶颈注意力机制,我们实现了骨骼轨迹和角度特征的有效融合。

在全局感知模块中,我们融合轨迹序列、隐蔽程度序列和可见性序列,并将其输入Bi-LSTM进行编码。然后,我们使用通道注意力机制进行多通道融合。这使得模型不仅能够学习时空特征中的运动速度动态变化,还能从隐蔽性和可见性特征中捕捉社会属性。通过这种多通道特征设计,模型可以整合空间、时间和社会语义等多维信息,从而显著提高可疑行为检测的准确性和鲁棒性。

可疑行为检测的关键在于识别那些可能反映潜在犯罪意图的行为模式。为了验证我们的方法,我们构建了一个专门的数据集,即SBDataset。SBDataset包含由志愿者模拟的可疑行为,这些行为包括长时间的徘徊和观察。我们选择了三种高人流的室内场景——图书馆、食堂和实验室作为记录环境,并使用固定广角摄像头采集顶视图轨迹数据。在每个场景中,两名志愿者被随机分配为“异常行为者”,他们被训练以模仿犯罪学文献和警方案例记录中的行为模板,确保与已记录的侦察模式一致。每个可疑行为序列遵循“观察-徘徊-接近-撤退”的一般原则,模仿实践中经常报告的模式。重要的是,没有指定特定的运动路径,而是只给出了总体行为目标(如“反复观察出口”),并允许志愿者自由发挥。这种设计减少了过于剧本化的动作风险,并引入了自然的序列变化。

SBDataset为系统评估可疑行为检测提供了控制环境,但其依赖于模拟行为,可能引入偏差,无法完全复制现实中的犯罪意图。因此,我们将其视为一个补充基准,而非现实条件的完整代表。为了提高生态效度,我们计划在未来的改进中利用语义分割或场景重建来减少手动输入。我们还计划在更大的未标记视频中进行半监督挖掘,以丰富行为多样性。

在可疑行为检测过程中,我们采用无监督学习方法,基于正常行为的数据分布训练模型,并通过计算重构误差来判断可疑行为的发生。在训练过程中,我们首先将原始轨迹分割为多个局部轨迹和一个全局轨迹,然后输入到局部感知模块和全局感知模块中,分别提取局部和全局特征。最后,我们通过瓶颈注意力机制融合这些特征,并将其用于解码,以检测可疑行为。

为了评估模型的性能,我们在公开数据集和SBDataset上进行了实验。SBDataset的构建使得我们能够在更复杂的场景中验证模型的效果。实验结果表明,我们的方法在主流方法的基础上实现了显著的改进。特别是在SBDataset上,框架在识别有意隐藏的行为方面表现出色,而在挑战性的公开基准上也保持了良好的性能。这些结果表明,将社会语义纳入异常检测具有巨大潜力,同时SBD作为一个新的研究方向也展现出良好的前景。

在实验中,我们对模型的各个模块进行了详细的分析。首先,我们评估了模型在不同数据集上的性能。在SBDataset上,我们的方法在识别有意隐藏的行为方面表现优异,而在公开数据集上也保持了良好的竞争力。这些结果表明,我们的方法在识别隐蔽意图行为方面具有显著优势,而在处理复杂环境下的异常行为时也表现出较强的适应性。

我们还对模型的参数进行了分析。在区域划分方面,我们测试了不同的网格划分方法,并计算了每个方法的AUC值,以确定最佳的划分方式。在检测窗口大小方面,我们测试了从2秒到18秒的不同窗口长度,并观察到AUC值随着窗口长度的增加而上升,直到达到2秒时达到最大值。这表明,较短的窗口长度可能无法捕捉到长期的行为变化,而较长的窗口长度则可能平滑或掩盖异常信号。因此,我们选择了约2秒的检测窗口长度,以实现最佳的检测敏感性和计算成本平衡。

此外,我们还对模型的各个特征进行了分析。我们测试了不同特征组合对可疑行为检测的影响,并发现单独使用骨骼轨迹、角度序列、全局轨迹、区域隐蔽性和区域可见性可以分别提高AUC值2%至6%。这表明,每个特征在表示可疑行为方面都具有一定的有效性,但没有一个特征单独达到最佳效果。通过结合局部感知模块和全局感知模块,我们进一步提高了模型的检测能力。

为了验证模型在不同随机条件下的稳定性,我们测试了不同随机初始化设置下的AUC值。实验结果表明,模型在不同随机种子下的性能相对一致,显示出良好的鲁棒性。这些结果进一步支持了我们的方法在实际应用中的可靠性。

本研究的局限性在于,框架依赖于准确的骨骼提取和相对固定的监控视角,其特征设计主要关注骨骼轨迹和目光与身体方向的偏差,忽略了更精细的线索,如手部动作。此外,SBDataset虽然精心构建,但基于受控的模拟行为,规模有限,可能导致过拟合,无法完全代表现实中的多样性。结果还显示,我们的方法在有意驱动的行为识别方面比在突然异常行为的识别方面更为有效,这体现在SBDataset与ShanghaiTech数据集之间的性能差距中,其中拥挤的户外场景使骨骼轨迹提取更容易受到遮挡和噪声的影响。此外,我们的比较仅限于基于行人和轨迹的方法,因为多模态或多视角的基线方法需要我们当前数据集所不具备的数据。

未来的工作将扩大在自然数据集上的验证,探索时间平滑和在线决策融合,以及结合可解释AI、更丰富的特征、自适应学习和更广泛的多模态或多视角方法比较,以提高模型的鲁棒性、透明性和适用性。

综上所述,本研究提出了一种新的可疑行为检测框架,通过结合骨骼动态、长期轨迹模式和犯罪学启发的社会语义线索,显示出在识别潜在犯罪意图方面的强大潜力。尽管框架采用了已有的技术如ST-GCN和Bi-LSTM,但其主要贡献在于定义了可疑行为检测任务,并融合局部和全局语义以捕捉隐藏意图,而非明显的异常行为。这些结果不仅展示了框架在实际应用中的有效性,也表明将社会语义纳入异常检测是一个有前景的研究方向。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号