NationalCSL - DP:双视角中文手语数据集助力孤立手语识别新突破

【字体: 时间:2025年04月20日 来源:Scientific Data 5.8

编辑推荐:

  手语识别技术(SLR)发展受限于大规模数据集稀缺,现有数据集存在视角单一、未涵盖完整中文手语词汇等问题。研究人员构建 NationalCSL - DP 数据集,涵盖 6707 个手语动作,提供双视角。该数据集有助于推进孤立手语识别(ISLR)技术,促进听障与健听人群交流。

  
在信息飞速发展的时代,手语作为听障人群重要的交流方式,却因与有声语言差异巨大,给听障与健听人群之间的沟通带来了重重阻碍。随着人工智能技术的崛起,基于视频的手语识别(SLR)成为了打破这一沟通壁垒的希望之光。然而,SLR 的发展并非一帆风顺。一方面,大规模数据集的稀缺,使得训练高效的深度神经网络(DNN)模型困难重重;另一方面,现有的孤立手语识别(ISLR)数据集存在诸多缺陷,如视角单一,难以处理手势遮挡问题,而中文 ISLR 数据集更是无法涵盖中国国家手语(CNSL)的全部词汇,严重阻碍了 ISLR 技术在现实场景中的应用。

为了攻克这些难题,乐山师范学院和电子科技大学的研究人员携手开展了一项极具意义的研究。他们致力于构建一个全新的、更完善的手语数据集,以推动 ISLR 技术的发展,改善听障人群与健听人群的沟通现状。最终,他们成功创建了 NationalCSL - DP(National Chinese Sign Language dataset with Dual Perspectives)数据集,这一成果发表在《Scientific Data》上,为手语识别领域带来了新的曙光。

在研究过程中,研究人员运用了多种关键技术方法。在数据采集方面,从乐山师范学院招募了 10 名参与者(8 名聋人学生和 2 名听力正常学生),他们均精通 CNSL。参与者负责排除相同手势动作的词汇、录制手语视频并进行标注。在视频录制时,于两个绿幕工作室,利用两个高清摄像机从正面和左侧同步录制,保证了双视角数据的获取。在数据处理与验证环节,通过训练视频变压器编码器将手语视频编码为特征向量,运用 t - 分布式随机邻域嵌入(t - SNE)进行降维和可视化,再进行 K - 均值聚类分析,并计算类内姿态相似性(IPS)和类内视频相似性(IVS),还随机抽取 5% 的样本进行人工核查,以此确保数据集的质量 。

研究结果


  1. 数据集构建成果:NationalCSL - DP 数据集包含 6707 个独特的手语动作和 134140 个手语视频,词汇量远超现有同类数据集。每个手语动作都提供了正面和左侧两个视角的视频,有效弥补了单视角数据集的缺陷,降低手势遮挡对识别的影响。
  2. 数据标注问题发现:在数据标注过程中,研究人员通过交叉检查发现了多种问题。例如注释错误,包括拼写错误和标注偏移;动作错误,即手语者错误地执行手语动作;编辑错误,视频中存在不适当内容;还有视频质量差、背景问题、录制不当以及视频重复或缺失等情况 。
  3. 技术验证结果:通过聚类分析和相关指标计算,发现该数据集在信息共享和一致性方面表现良好,但部分样本存在误分类情况。经分析,确定了 243 个异常样本,主要涉及命名错误和视频图像问题。人工核查结果显示,利用类内相似性检测数据集问题的召回率达 94.14%,准确率达 74.89%,这表明技术验证方法能有效检测数据集中的错误 。

研究结论与讨论


NationalCSL - DP 数据集的成功构建,为 ISLR 技术的发展提供了有力支持。它丰富的词汇量和双视角特性,有助于研究人员训练更精准、更鲁棒的 ISLR 模型,提升手语识别的准确率。同时,严格的数据采集和验证流程保证了数据集的高质量,技术验证环节发现的问题也为后续研究提供了改进方向。这一数据集不仅是研究人员探索手语识别技术的宝贵资源,更是推动听障人群与健听人群沟通交流的重要桥梁,有望在未来的实际应用中发挥巨大作用,为构建更加包容、无障碍的社会环境贡献力量。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号