综述:集成软计算与多智能体系统用于动作识别:基础、挑战与未来方向
《ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING》:Integrating Soft Computing and Multi-Agent for Action Recognition: Basics, Challenging and Future Directions
【字体:
大
中
小
】
时间:2025年12月08日
来源:ARCHIVES OF COMPUTATIONAL METHODS IN ENGINEERING 12.1
编辑推荐:
本综述系统探讨了软计算(SC)与多智能体系统(MAS)在人类动作识别(HAR)中的协同整合策略。文章首先概述了HAR框架及多模态数据(如RGB、深度、骨骼和惯性数据)的特性,随后提出了一种面向问题的分类法,将HAR挑战归纳为感知、识别以及可扩展性与鲁棒性三大类。文章重点分析了SC技术(如模糊逻辑、神经网络、进化计算)在应对数据不确定性、优化模型方面的优势,以及MAS在分布式处理、协作理解复杂动作方面的潜力。通过详尽的文献回顾(涵盖2015-2024年)和比较性框架,文章论证了SC与MAS的融合为构建下一代自适应、鲁棒且可解释的HAR系统提供了创新解决方案,并指明了未来研究方向,如先进的神经模糊融合技术和自组织多智能体学习。
动作识别架构概述
人类动作识别(HAR)是计算机视觉领域的一个重要研究方向,旨在通过分析视频、图像或传感器数据来识别和理解人类行为。一个典型的HAR框架通常包括数据获取、预处理、模型构建(涵盖机器学习和深度学习)以及最终的识别分类过程。近年来,随着多模态数据集(如Kinetics-700、NTU RGB+D)的普及和深度学习技术的进步,HAR研究取得了显著进展。
多模态数据及其特性
HAR系统依赖于多种数据模态,每种模态都有其独特的优势和挑战:
- •RGB数据:源自传统摄像头,提供丰富的视觉细节,有助于识别环境背景和主体外观。但其对光照变化、背景干扰和遮挡较为敏感。
- •深度数据:通过如Kinect等传感器获取,记录三维空间信息,不受光照和颜色变化影响,有助于保护隐私,并能提升骨骼关节跟踪的准确性。
- •骨骼数据:通过姿态估计获得3D关节坐标,以图结构(关节为节点,骨骼为边)表示人体运动。这种数据计算效率高,对背景杂波和光照变化具有鲁棒性,常用图卷积网络(GCN)进行处理。
- •惯性数据:由惯性测量单元(IMU,如加速度计、陀螺仪)捕获,具有高时间分辨率,能捕捉细微运动,但对传感器位置和外部噪声敏感。
多模态融合(如深度+骨骼、RGB+惯性)是克服单一模态局限、提升识别性能的关键策略。端到端架构(如VS-CNN)能够整合多种数据流,实现更鲁棒的识别。
机器学习与深度学习在HAR中的分布
HAR模型经历了从传统机器学习(ML)到深度学习(DL)的显著转变。ML方法(如支持向量机SVM、随机森林)依赖手工特征(如HOG),在数据量较小或特定场景下仍具价值。然而,DL方法(如3D CNN、LSTM、Vision Transformer)能够自动从原始数据中学习复杂的时空特征,在大型数据集(如Kinetics-700)上实现了state-of-the-art的性能,准确率可达90%以上。DL模型的优势在于特征提取的自动化,但其计算成本较高,对实时部署构成挑战。
软计算在动作识别中的应用
软计算(SC)是一组处理不精确性、不确定性和近似推理的计算方法,非常适合应对HAR中的固有挑战。其主要组成部分包括:
- •模糊逻辑(FL):能够处理动作类别间的模糊边界,例如,描述从“行走”到“奔跑”的连续过渡,增强了对执行不精确或个体差异大的动作的识别鲁棒性。
- •神经网络(NN):特别是深度学习模型(CNN、RNN、GNN),能够自动从多模态数据中学习时空特征。新兴的脉冲神经网络(SNN)为边缘设备提供了高能效的实时处理方案。
- •进化计算(EC):如遗传算法(GA)、粒子群优化(PSO),可用于神经架构搜索(NAS)、特征选择和模型超参数优化,提升模型效率和适应性。
- •混合系统:如神经模糊系统,结合了NN的学习能力和FL的解释性,能实现自适应的多模态融合策略。
SC方法在应对数据可变性、实现鲁棒特征学习和优化复杂模型方面展现出强大潜力。例如,基于Crayfish优化算法与LSTM结合的软计算方法在医疗和传感器基础的HAR数据集上准确率可达98.23%。
多智能体系统在动作识别中的应用
多智能体系统(MAS)是由多个自主、交互的智能体组成的分布式框架,通过协作、协调来解决复杂问题。在HAR中,MAS的应用体现在:
- •分布式感知与局部处理:不同智能体可关联特定传感器(如RGB摄像头智能体、IMU智能体),进行本地预处理和部分动作识别,减少中央服务器的计算负载和带宽需求。
- •协作动作理解:在涉及多人交互或复杂场景中,多个智能体可以代表不同参与者或关注不同交互方面,通过通信和协作整合局部信息,共同推断出完整的复杂动作。
- •增强鲁棒性与自适应性:MAS具有固有的容错性。当某个智能体的传感器数据不可靠时(如摄像头被遮挡),其他智能体可提供替代视角或数据类型,确保系统在动态、不确定环境下的持续运行。
例如,多智能体变换器网络(MATN)将不同信息源建模为智能体,通过去中心化的行动者和集中式的评判者方法预测活动类别,展示了良好的可扩展性和有效性。
研究挑战与未来方向
- 1.真实世界变化的鲁棒性:模型需应对个体间/个体内差异、视角变化、遮挡、杂乱背景和光照条件变化。
- 2.细粒度动作的区分:识别视觉或运动学上相似的动作需要模型能够捕捉高度复杂的时空模式。
- 3.多模态数据的有效融合:如何最优地整合不同数据流,充分利用模态间关系,并处理缺失数据和噪声。
- 4.计算效率与实时部署:复杂DL模型的高计算需求限制了其在资源受限的边缘设备上的实时应用。
- 5.伦理与隐私问题:尤其是在基于监控的HAR中,数据收集、用户同意、算法透明度以及数据安全是需要深入考虑的问题。
- •利用SC和MAS增强鲁棒性:结合模糊逻辑处理不精确性,利用GNN等先进神经网络架构学习复杂交互,提升细粒度动作识别能力。
- •提升计算效率和实时性:采用SNN等节能SC技术,结合MAS的分布式处理架构,实现边缘设备的低功耗、实时HAR。
- •发展可扩展、自适应、可解释的HAR系统:利用MAS的分散特性实现可扩展性;开发能够实时适应环境变化的智能体;结合SC(如神经模糊模型)提升DL模型的可解释性,这对于医疗保健或安全等敏感应用至关重要。
- •隐私保护技术:探索联邦学习(FL)等框架,在保护用户数据隐私的同时,实现协同模型训练。
结论
人类动作识别是一个充满活力且要求苛刻的研究领域。本综述论证了软计算(SC)和多智能体系统(MAS)范式协同整合的巨大潜力,以应对现有HAR系统的局限性。SC提供了处理不确定性、进行优化和自适应学习的强大工具,而MAS则提供了可扩展、分布式和协作的问题解决架构。这种混合框架有望催生更精确、适应性强且鲁棒的HAR解决方案,从而在动态和不可预测的现实世界环境中实现高效应用。未来的工作将集中在开发更复杂的神经模糊融合技术、自组织多智能体学习算法以及构建可解释且坚韧的HAR系统上。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号