
-
生物通官微
陪你抓住生命科技
跳动的脉搏
视觉-触觉跨模态对应关系研究:振动与形状的关联机制解析
【字体: 大 中 小 】 时间:2025年09月04日 来源:Displays 3.4
编辑推荐:
本文创新性地提出两种全景视听刺激的多模态扫视路径预测方案:基于长短期记忆网络(LSTM)的LSSCAN模型通过分模态处理单元实现渐进式预测优化,而基于Transformer的TRSCAN模型利用probSparse自注意力机制和跨模态嵌入策略提升长程依赖捕捉能力。研究证实LSSCAN擅长惯性模式建模,TRSCAN在视觉上下文利用方面表现卓越,为降低VR运动光子延迟(motion-to-photon latency)和优化焦点渲染(foveated rendering)提供关键技术支撑。
Highlight
全景视频头眼运动数据集
主观实验广泛研究了全景内容的头部运动(HM)和眼动(EM)数据采集。头部运动通过头戴显示器(HMD)的六自由度(6-DOF)定位功能记录,扫视路径则由嵌入式眼动仪捕捉。早期研究主要聚焦于......
全景视频扫视路径预测模型
目标是通过历史扫视路径和上下文信息预测未来注视轨迹:fθ:(Yt-l:t,Xt-l:t+h)→Yt:t+h。其中Yt-l:t表示用于预测的历史扫视序列,Xt-l:t+h包含通过比较视听显著性(audio-visual saliency)与视觉特征获得的上下文信息。
实验
遵循扫视路径预测标准流程,我们将显著性图和扫视路径下采样至每秒5帧进行训练评估。由于均方误差(MSE)在经纬度维度比较中存在边界效应缺陷,采用球面距离度量更准确。
结论
本文提出的LSSCAN(LSTM架构)和TRSCAN(Transformer架构)双模型方案,前者通过分模态处理实现渐进优化,后者利用probSparse自注意力机制整合嵌入信息,为全景视听刺激的认知行为建模开辟新途径。
(注:根据要求省略文献引用标识,专业术语保留英文缩写并采用/标签规范格式)
生物通微信公众号
知名企业招聘