基于端到端注意力增强Transformer的生物仿生可穿戴设备图像描述模型研究

【字体: 时间:2025年08月05日 来源:Advanced Intelligent Systems 6.1

编辑推荐:

  这篇研究提出了一种创新的端到端注意力增强Transformer模型(EAET),针对生物仿生可穿戴设备中的实时图像描述任务进行了优化。通过多粒度视觉特征整合(DGAM)和自适应双向掩码注意力机制(ABMA),模型在MSCOCO数据集上实现了CIDEr指标2.1个百分点的提升,并在RK3588硬件平台上展现出26.4ms的低延迟和2.3W的超低功耗特性,为智能眼镜等边缘设备提供了高效的视觉辅助解决方案。

  

图像描述技术在生物仿生可穿戴设备中的应用突破

摘要

现有基于Transformer的图像描述方法存在两个主要局限:编码阶段难以充分表征多区域视觉特征,解码阶段无法有效利用未来语义信息。针对这些问题,本研究提出了一种注意力增强的图像描述模型。实验证明,该模型在MSCOCO数据集上的CIDEr指标较基线提升2.1个百分点,在可穿戴平台上展现出实时高效性。

1 引言

随着深度学习发展,多模态学习近年来备受关注。图像描述(Image Captioning)作为典型任务,旨在识别和理解图像中的元素与关系,通过跨模态关联生成准确、流畅的自然语言描述。该技术不仅应用于多模态图像检索和视觉辅助,更在提升生物仿生可穿戴设备的用户体验方面发挥关键作用。

传统Transformer采用编码器-解码器架构,但现有方法存在两个主要问题:1)编码阶段依赖传统注意力机制提取特征,难以学习密集注意力图;2)解码阶段因单向掩码无法利用后续上下文信息。这些问题在需要实时视觉辅助的可穿戴场景中尤为突出。

2 相关工作

2.1 图像描述

近期研究探索了图像描述与可穿戴特定多模态数据的结合。Huang等开发了便携式自我中心视觉语言模型,Xu设计了基于LLM的对话助手,这些研究凸显了可穿戴场景对轻量级且上下文感知的描述架构的需求。

2.2 神经网络机器翻译

Zhou等证明了右向左(R2L)转移预测在提升生成表达准确性中的关键作用。针对生物仿生可穿戴设备,本研究提出的ABMA可以自适应整合L2R和R2L转移特征,确保生成的描述既精确又符合上下文。

3 端到端注意力增强Transformer

3.1 模型架构

提出的端到端注意力增强图像描述(EAET)结构包含两个目标:充分提取图像目标特征;使模型具备观察和预测后续信息的能力。

3.2 多粒度图像编码器

采用分治策略分别处理网格特征和区域特征。通过多头自注意力机制编码粗粒度特征,并创新性地引入密集全局注意力模块(DGAM),在不增加计算成本的情况下增强全局密集信息。

3.3 自适应双向解码器

解码组件采用自适应双向解码(ABD)结构,包含ABMA、多头交叉注意力和残差归一化模块。通过前馈门控层自适应学习权重rt和zt,增强模型对历史与未来句子信息的整合能力。

3.4 排序策略

在推理阶段采用排序策略选择最优描述作为最终输出,通过长度惩罚机制计算L2R和R2L句子每个位置的对数概率。

3.5 训练部分

整个训练过程包含两个阶段:交叉熵(XE)损失优化和自临界序列训练的变体优化。第一阶段训练15个周期,第二阶段采用自批判训练优化CIDEr分数。

4 实验部分

4.1 实验设置

在MSCOCO数据集上进行实验,采用Karpathy分割法。评估指标包括BLEU、ROUGE、SPICE、METEOR和CIDEr(缩写为B1/4、M、R、C、S)。

4.2 消融实验

比较实验表明,特征融合方法有效整合了粗粒度和细粒度特征,DGAM对区域特征展现出良好的聚合效果。

4.3 效果分析

4.3.1 编码组件影响

相比仅使用粗粒度特征的方法,本文方法在CIDEr指标上从122.6提升至123.9。

4.3.2 自适应双向解码器影响

ABMA无需人工干预即可确定关注历史和未来信息的适当权重,提升模型描述能力。

4.4 定量分析

在Rockchip RK3588硬件平台上的实验显示,本文模型推理延迟仅26.4ms,内存占用281.4MB,峰值功耗2.3W,显著优于BLIP和VinVL等基线。

4.5 定性分析与可视化

可视化结果表明,本文模型生成的描述比基线模型更准确丰富。例如在检测女性吃热狗的图像时,能准确识别目标数量;在公交车图像中能捕捉"红色"和"白色"颜色信息。

5 结论

提出的EAET方法通过自注意力和交叉注意力的固有优势整合多粒度特征,并采用DGAM进行目标特征聚合。解码组件能同时利用历史和未来上下文描述信息,自适应调整关注重点。硬件验证证实其边缘部署能力,为推进生物仿生可穿戴设备发展展现出巨大潜力。

这项研究在保持模型轻量化的同时,显著提升了图像描述的准确性和实时性,为可穿戴设备中的视觉辅助应用提供了创新解决方案。未来工作将聚焦于进一步优化模型,并探索其在各类生物仿生可穿戴平台上的更多应用场景。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号