基于深度学习与鹈鹕优化算法的行人通道物体检测增强技术及其在辅助残障人士中的应用研究
《Scientific Reports》:Enhanced pedestrian walkway object detection using deep learning and pelican optimization algorithm for assisting disabled persons
【字体:
大
中
小
】
时间:2025年12月11日
来源:Scientific Reports 3.9
编辑推荐:
本文针对盲人等视觉障碍者在行人通道导航中面临的挑战,提出了一种融合深度学习和优化算法的物体检测新方法(EPWOD-POAADP)。研究通过中值滤波预处理、Faster R-CNN目标检测、CapsNet特征提取、小波神经网络分类和POA超参数优化等技术,在UCSD异常检测数据集上实现了99.51%的AUC值和6.39秒的运算速度,显著提升了行人通道障碍物检测的准确性和实时性,为智能辅助导航系统提供了创新解决方案。
行走作为基础出行方式,对视觉障碍者而言却充满挑战。据世界卫生组织统计,2020年全球至少有10亿人面临视力问题,包括先天性神经缺陷、年龄相关性白内障等。视觉障碍严重影响患者的独立生活能力,特别是在陌生环境中导航时,他们往往需要依赖白手杖、导盲犬或GPS设备等辅助工具。然而,现有技术存在实时性不足、环境适应性差等局限,难以应对动态复杂的行人通道环境。
针对这一难题,研究人员在《Scientific Reports》发表了创新性研究成果,提出名为EPWOD-POAADP的智能检测系统。该系统通过多技术融合实现了行人通道物体检测的突破:首先采用中值滤波(Median Filtering)进行图像去噪,在消除脉冲噪声的同时保留边缘细节;接着运用Faster R-CNN(Faster Region-Based Convolutional Neural Network)进行目标定位,其区域提议网络(RPN)能高效生成候选区域;然后利用胶囊网络(CapsNet)进行特征提取,通过动态路由机制保持空间层次关系;再通过小波神经网络(Wavelet Neural Network)实现多分辨率特征分类;最后采用鹈鹕优化算法(Pelican Optimization Algorithm)自动优化WNN超参数,使模型在UCSD异常检测数据集上达到最佳性能。
关键技术方法包括:基于UCSD行人异常检测数据集(包含Ped1的70个视频和Ped2的28个视频)进行模型训练;采用中值滤波预处理消除环境噪声;通过Faster R-CNN实现实时目标检测;利用CapsNet捕捉空间特征关系;结合WNN进行多尺度特征分析;应用POA算法优化网络参数,最终在Python 3.6.5环境下完成系统验证。
研究采用中值滤波技术对输入图像进行降噪处理,这种非线性滤波方法能有效消除盐椒噪声,同时保持边缘完整性。相比均值滤波,中值滤波在保护图像细节方面表现更优,为后续检测任务提供高质量输入数据。
Faster R-CNN模型通过区域提议网络(RPN)实现端到端训练,在VGG-16 backbone上达到每图0.2秒的处理速度。实验表明,该方法对小目标检测具有显著优势,特别是在行人通道中的自行车、手推车等障碍物识别方面表现突出。
CapsNet采用向量神经元(Vector Neuron)替代传统标量神经元,通过squash函数和动态路由机制(如公式(1)-(5)所示)保持特征空间关系。这种设计有效解决了常规CNN池化层的信息丢失问题,在方向变化和形变情况下仍能保持稳定的特征表示。
小波神经网络通过结合小波变换的多尺度分析能力和神经网络的非线性拟合特性,在公式(6)-(14)的数学框架下实现高效特征分类。梯度修正模型确保网络权重和小波基函数参数能根据预测误差自动调整。
在UCSDPed1数据集上的测试显示,当误报率(FPR)为5%时,该方法真阳性率(TPR)达0.7129,显著优于MPPCA(0.0915)等传统方法。随着FPR升高至50%,TPR达到1.0000的完美表现。AUC值达到99.51%,较对比方法提升0.11-8.94个百分点。
训练过程分析表明,模型在50个epoch内保持稳定收敛,训练准确率(TRAAY)与验证准确率(VLAAY)曲线紧密贴合(图4),训练损失(TRALO)与验证损失(VLALO)持续下降(图5),证明模型具备良好泛化能力。计算效率方面,该方法仅需6.39秒完成处理,比对比算法快25-52%。
在UCSDPed2数据集上的扩展验证进一步证实了方法鲁棒性,AUC值达99.35%(图12),处理时间8.12秒。消融实验(表9)显示完整模型比单独组件的性能提升0.89-3.54%,证明技术融合的有效性。上采样方法对比(表10)表明该方案FLOPs仅90.34,GPU内存占用1200MB,具备实际部署优势。
这项研究通过创新性地融合多种人工智能技术,成功开发出适用于复杂场景的行人通道物体检测系统。该方法在检测精度、运算速度和资源效率方面均展现显著优势,特别是对视觉障碍者的导航安全具有重要应用价值。未来研究方向包括扩展多模态传感器融合、开发轻量化边缘计算版本,以及在不同气候条件下的适应性验证,进一步推动智能辅助技术的发展。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号