通过四元数Gabor卷积神经网络实现实时面部表情识别

《Journal of Visual Communication and Image Representation》:Real-time facial expression recognition via quaternion Gabor convolutional neural network

【字体: 时间:2025年10月28日 来源:Journal of Visual Communication and Image Representation 3.1

编辑推荐:

  实时面部表情识别中,提出轻量级四元数Gabor卷积神经网络(LQG-CNN),通过四元数编码RGB通道保持颜色相关性,结合可学习参数的Gabor滤波器提升空间特征提取,参数量减少75%且推理速度提升,在Oulu-CASIA、MMI、SFEW等数据集上准确率优于传统CNN。

  随着人工智能技术的不断发展,面部表情识别(Facial Expression Recognition, FER)作为计算机视觉领域的重要研究方向,正在向更加精准和高效的方向迈进。在现实应用场景中,如人机交互、医疗诊断、自动驾驶等,对实时面部表情识别的需求日益增长。传统的面部表情识别方法通常依赖于人工设计的特征提取技术,如Gabor滤波器、局部二值模式(LBP)等,这些方法虽然在特定条件下表现良好,但在面对复杂多变的环境时,往往难以满足高精度和高效性的双重需求。近年来,卷积神经网络(Convolutional Neural Networks, CNNs)在图像分类、目标检测等领域取得了显著成果,逐渐成为面部表情识别的主流方法。然而,传统的CNN架构在处理面部表情识别任务时,仍面临性能与计算成本之间的平衡难题,尤其是在实时应用中,这种矛盾尤为突出。

此外,现有CNN模型在处理彩色图像时,通常将其视为三个独立的通道(红、绿、蓝)进行处理,或者直接将其转换为灰度图像,从而忽略了颜色通道之间的相关性。这种做法可能导致关键信息的丢失,进而影响模型的识别精度。为了克服这些局限,研究者们开始探索如何更好地利用颜色信息,以提升模型在复杂环境下的表现。其中,一种创新的方法是将彩色图像编码为四元数(quaternion),并在此基础上构建卷积神经网络模型。四元数作为一种超复数结构,能够自然地表达颜色通道之间的关系,这为面部表情识别提供了新的思路。

本文提出了一种轻量级的四元数Gabor卷积神经网络(Lightweight Quaternion Gabor CNN, LQG-CNN),旨在解决传统CNN在处理彩色图像时存在的两个主要问题:一是如何更高效地处理颜色信息,二是如何在保持高精度的同时降低计算成本。LQG-CNN通过将RGB颜色通道整合为四元数形式,使得模型能够在处理颜色信息时保持其内在的关联性。同时,四元数Gabor卷积层的引入,使得模型能够更有效地捕捉面部表情的空间特征,从而在提升识别性能的同时减少计算负担。

四元数的基本概念可以追溯到19世纪爱尔兰数学家威廉·罗文·汉密尔顿(William Rowan Hamilton)的发现。四元数是一种包含一个实部和三个虚部的超复数结构,通常表示为 $ q = a + bi + cj + dk $,其中 $ a, b, c, d $ 是实数,而 $ i, j, k $ 是满足特定乘法规则的虚数单位。四元数在计算机图形学、机器人学和计算机视觉等领域有着广泛的应用,特别是在处理三维旋转和颜色信息方面表现出色。在面部表情识别任务中,四元数能够保留颜色通道之间的交互关系,为模型提供更加丰富的特征表示。

LQG-CNN的架构由多个关键组件构成,包括四元数Gabor层、四元数卷积层、四元数批量归一化层、四元数全连接层以及四元数非线性层。这些组件共同构成了一个能够高效处理颜色信息的神经网络模型。在四元数Gabor层中,研究者们引入了可学习的参数,如用于眉毛弯曲检测的 $ \theta $、用于皱纹细节控制的 $ \lambda $ 以及用于虹膜与巩膜边界增强的 $ \psi $,从而增强了模型对方向敏感特征的提取能力。此外,四元数卷积层通过汉密尔顿乘法实现了参数共享,使得模型在保持高精度的同时,减少了可学习参数的数量,从而降低了计算复杂度。

为了验证LQG-CNN的有效性,本文在多个标准数据集上进行了实验测试,包括Oulu-CASIA、MMI、SFEW、RAF-DB和AffectNet。这些数据集涵盖了不同情境下的面部表情图像,如自然场景、实验室环境以及包含各种光照和角度变化的复杂情况。实验结果表明,LQG-CNN在这些数据集上均取得了优异的识别性能,尤其是在处理彩色图像时,其在保持高精度的同时显著降低了计算成本。此外,LQG-CNN的收敛速度也优于传统CNN模型,进一步提升了其实时应用的可行性。

在实际应用中,面部表情识别技术的优化不仅关乎模型的性能,还涉及计算资源的合理利用。传统的深度学习模型往往需要大量的计算资源进行训练和推理,这在资源受限的实时应用中是一个巨大的挑战。而LQG-CNN通过四元数编码和Gabor卷积层的设计,有效降低了模型的计算需求,使其能够在较低的硬件条件下实现高效的面部表情识别。这种轻量化设计不仅有助于提高模型的运行效率,还为实际部署提供了更大的灵活性。

此外,本文的研究还强调了颜色信息在面部表情识别中的重要性。相比于仅使用灰度图像,彩色图像能够提供更多的视觉线索,有助于模型更准确地识别复杂的情绪状态。然而,传统的CNN模型在处理彩色图像时,往往忽略了颜色通道之间的相互作用,导致特征提取不全面。LQG-CNN通过将颜色信息整合为四元数形式,不仅保留了颜色通道之间的相关性,还增强了模型对空间变换的感知能力,从而在提升识别精度的同时减少了计算负担。

本文的研究成果表明,将四元数理论与Gabor滤波器相结合,能够为面部表情识别任务提供一种新的解决方案。LQG-CNN的提出,不仅解决了传统CNN在处理颜色信息和空间变换方面的不足,还为轻量化神经网络设计提供了新的思路。未来,随着计算硬件的不断发展和算法的持续优化,四元数卷积神经网络有望在更多实际应用中发挥重要作用,特别是在需要实时处理和高精度识别的场景中。

为了进一步推广LQG-CNN的应用,本文还提供了完整的代码实现,方便研究者和开发者进行复现和改进。代码的开源不仅有助于学术交流,也为实际应用提供了技术支持。通过不断优化模型结构和参数设置,LQG-CNN有望在更多复杂环境下实现更高效的面部表情识别。

综上所述,LQG-CNN的提出为实时面部表情识别提供了一种新的技术路径。通过将四元数理论引入卷积神经网络,该模型在处理颜色信息和空间变换方面表现出色,同时保持了较低的计算成本。这种轻量化设计不仅提升了模型的运行效率,还增强了其在实际应用中的适应性。未来,随着相关技术的不断发展,LQG-CNN有望在更多领域中得到应用,为人工智能技术的发展做出更大的贡献。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号