基于密集残差网络与反向流混合注意力机制的人体步态识别新方法

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年06月13日 来源：Digital Signal Processing 2.9

编辑推荐：

　　针对步态识别中因服装变化、携带物品和视角差异导致的特征提取难题，研究人员提出了一种结合密集残差块（RDB）和双分支混合自注意力网络（DHSAN）的反向流注意力网络（RDBA-Net）。该模型通过空间-时间级注意力机制和深层语义信息反向流（BFM）增强特征学习，在CASIA B和OU-MVLP数据集上分别达到91.6%和89.2%的识别准确率，显著优于现有方法，为跨视角鲁棒性步态识别提供了新思路。

论文解读
步态识别作为一种非接触式生物特征识别技术，因其远距离、抗光照干扰等优势备受关注。然而，现实场景中服装更换、背包携带及摄像头视角变化（如0°与180°正面/背面视角）会导致人体轮廓剧烈变化，现有方法如GaitSet（丢弃时序信息）、GaitPart（忽略部件空间关联）等难以提取鲁棒特征，跨视角识别准确率波动高达15%。更棘手的是，传统卷积神经网络（CNN）因下采样过程中的信息丢失，无法有效保留多层次语义关联，导致静态外观特征主导识别结果。

为解决这些问题，印度国家理工学院鲁尔克拉分校的Mohammad Iman Junaid团队在《Digital Signal Processing》发表研究，提出反向流密集残差注意力网络（RDBA-Net）。该模型通过三个核心技术突破：1）密集残差块（RDB）构建主干网络，强化局部运动特征提取；2）双分支混合自注意力（DHSAN）模块同步捕捉空间级（肢体部件关联）和帧级（时序动态）注意力；3）反向流机制（BFM）将深层语义信息反馈至浅层，缓解下采样信息损失。实验表明，RDBA-Net在CASIA B（91.6%）和OU-MVLP（89.2%）数据集上刷新记录，尤其在背包、外套等干扰条件下性能提升显著。

关键技术方法
研究采用CASIA B（124人，11视角）和OU-MVLP（10,307人）数据集，预处理提取步态轮廓序列。模型核心由RDB堆叠构成，每个RDB输出经DHSAN模块计算空间-时间注意力权重，并通过BFM将高层特征反向融合至低层。分类阶段采用全连接层聚合多级特征，损失函数结合交叉熵与三元组损失优化特征判别性。

研究结果

消融实验：BFM使跨视角识别率提升4.2%，证实反向流对语义信息保留的关键作用；DHSAN分支联合训练较单分支模型准确率提高3.8%。
跨数据集测试：RDBA-Net在OU-MVLP上对“外套”条件的识别率达85.4%，较STTN提升6.3%，证明其对形体变化的强适应性。
可视化分析：注意力热图显示DHSAN能聚焦于下肢摆动等动态区域，而BFM使浅层网络保留更多躯干姿态细节。

结论与意义
RDBA-Net通过RDB-DHSAN-BFM的协同设计，首次实现步态特征在空间-时间维度与网络深度维度的三重优化。其创新性体现在：1）BFM机制为CNN架构设计提供新思路，通过“深层指导浅层”缓解梯度消失；2）DHSAN模块为多模态注意力研究提供可扩展框架。该技术有望应用于安防监控（远距离身份核验）和医疗康复（步态异常早期筛查），推动生物识别技术向非协作场景迈进。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号