视觉-触觉跨模态对应关系研究:振动与形状的关联机制解析

【字体: 时间:2025年09月04日 来源:Displays 3.4

编辑推荐:

  本文创新性地提出两种全景视听刺激的多模态扫视路径预测方案:基于长短期记忆网络(LSTM)的LSSCAN模型通过分模态处理单元实现渐进式预测优化,而基于Transformer的TRSCAN模型利用probSparse自注意力机制和跨模态嵌入策略提升长程依赖捕捉能力。研究证实LSSCAN擅长惯性模式建模,TRSCAN在视觉上下文利用方面表现卓越,为降低VR运动光子延迟(motion-to-photon latency)和优化焦点渲染(foveated rendering)提供关键技术支撑。

  

Highlight

全景视频头眼运动数据集

主观实验广泛研究了全景内容的头部运动(HM)和眼动(EM)数据采集。头部运动通过头戴显示器(HMD)的六自由度(6-DOF)定位功能记录,扫视路径则由嵌入式眼动仪捕捉。早期研究主要聚焦于......

全景视频扫视路径预测模型

目标是通过历史扫视路径和上下文信息预测未来注视轨迹:fθ:(Yt-l:t,Xt-l:t+h)→Yt:t+h。其中Yt-l:t表示用于预测的历史扫视序列,Xt-l:t+h包含通过比较视听显著性(audio-visual saliency)与视觉特征获得的上下文信息。

实验

遵循扫视路径预测标准流程,我们将显著性图和扫视路径下采样至每秒5帧进行训练评估。由于均方误差(MSE)在经纬度维度比较中存在边界效应缺陷,采用球面距离度量更准确。

结论

本文提出的LSSCAN(LSTM架构)和TRSCAN(Transformer架构)双模型方案,前者通过分模态处理实现渐进优化,后者利用probSparse自注意力机制整合嵌入信息,为全景视听刺激的认知行为建模开辟新途径。

(注:根据要求省略文献引用标识,专业术语保留英文缩写并采用/标签规范格式)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号