基于混合元启发式优化算法与深度学习模型的创新手语识别技术助力听障人士沟通
【字体:
大
中
小
】
时间:2025年03月19日
来源:Scientific Reports 3.8
编辑推荐:
为解决听障人士手语识别问题,研究人员开展 ISLRHP - HMOADL 技术研究,准确率达 99.57%,意义重大。
在日常生活中,听障群体的沟通交流常常面临诸多不便。手语作为他们重要的交流方式,却存在着与外界沟通不畅的难题。目前,手语识别(SLR)领域虽然取得了一定进展,但仍面临着诸多挑战。传统的机器学习(ML)方法在处理高维、复杂的手语数据时,常常会遇到瓶颈,难以满足实际需求。而深度学习(DL)方法虽然展现出了一定的潜力,但在面对噪声环境、动态手势以及大规模数据集时,依旧存在识别准确率不高、实时处理能力不足等问题。此外,现有的研究大多集中在孤立手势的识别上,对于连续手语翻译的适用性有限,且缺乏对多模态数据融合的有效研究。为了打破这些困境,提升听障人士手语沟通的效率与准确性,来自沙特阿拉伯多所大学的研究人员展开了深入研究。他们的研究成果发表在《Scientific Reports》上,为手语识别领域带来了新的突破。
研究人员提出了一种创新的基于手姿的手语识别技术(ISLRHP - HMOADL),该技术融合了深度学习模型与混合元启发式优化算法。在这项研究中,研究人员运用了多种关键技术方法。首先是图像预处理,采用维纳滤波器(WF)对图像进行降噪处理,有效提升了图像质量,为后续的特征提取提供了更可靠的数据。其次,通过融合 ResNeXt101、VGG19 和视觉 Transformer(ViT)三种模型进行特征提取,充分发挥各模型优势,能够捕捉到图像中丰富多样且复杂的空间和上下文细节。然后,利用双向门控循环单元(BiGRU)作为分类器,凭借其对时间序列数据中顺序依赖关系的强大捕捉能力,精准识别动态手语手势。最后,运用混合乌鸦搜索 - 改进灰狼优化(CS - IGWO)模型对参数进行调优,进一步提升模型性能。
研究结果方面,在 ASL 字母数据集上进行的综合实验充分展示了 ISLRHP - HMOADL 模型的卓越性能。从混淆矩阵来看,该模型能够准确识别 29 个类别的标签。在 70% 训练集比例(TRPH)的情况下,模型的平均准确率(accuy)、精确率(precn)、灵敏度(sensy)、特异度(specy)和 F1 分数(F1measure)分别达到了 99.56%、94.33%、93.66%、99.77% 和 93.81%;在 30% 测试集比例(TSPH)时,这些指标分别为 99.57%、94.43%、93.70%、99.78% 和 93.89%。在训练和验证过程中,准确率曲线呈现上升趋势,且训练和验证准确率较为接近,表明模型的过拟合现象得到有效控制;损失值曲线不断下降,说明模型在平衡泛化和数据拟合方面表现出色。此外,通过与其他现有方法对比,ISLRHP - HMOADL 模型在各项性能指标上均表现优异,准确率比其他模型最高提升了近 9 个百分点,处理时间也更短。
研究结论与讨论部分指出,ISLRHP - HMOADL 技术在提升手语识别效率和准确性方面成效显著,为听障人士的沟通交流带来了新的希望。然而,该模型也存在一定的局限性,如对有限数据集的依赖限制了其在不同现实场景中对手语手势的泛化能力,在不同光照条件、背景以及手部遮挡、复杂手势的情况下,模型性能可能会下降,在计算能力较低的设备上实时处理能力也有待提高。尽管如此,这项研究依旧意义非凡。它为手语识别领域提供了新的思路和方法,推动了相关技术的发展。未来,研究人员可通过扩大数据集涵盖范围、探索先进的迁移学习(TL)技术、整合多模态数据以及优化模型以适应移动和边缘设备等方式,进一步提升模型性能,使其更好地服务于听障群体,促进他们与外界的沟通交流,助力构建更加包容、和谐的社会环境。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号