视觉-触觉跨模态对应关系研究：振动与形状的关联机制解析

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月04日 来源：Displays 3.4

编辑推荐：

　　本文创新性地提出两种全景视听刺激的多模态扫视路径预测方案：基于长短期记忆网络（LSTM）的LSSCAN模型通过分模态处理单元实现渐进式预测优化，而基于Transformer的TRSCAN模型利用probSparse自注意力机制和跨模态嵌入策略提升长程依赖捕捉能力。研究证实LSSCAN擅长惯性模式建模，TRSCAN在视觉上下文利用方面表现卓越，为降低VR运动光子延迟（motion-to-photon latency）和优化焦点渲染（foveated rendering）提供关键技术支撑。

Highlight

全景视频头眼运动数据集

主观实验广泛研究了全景内容的头部运动（HM）和眼动（EM）数据采集。头部运动通过头戴显示器（HMD）的六自由度（6-DOF）定位功能记录，扫视路径则由嵌入式眼动仪捕捉。早期研究主要聚焦于......

全景视频扫视路径预测模型

目标是通过历史扫视路径和上下文信息预测未来注视轨迹：f_θ:(Y_t-l:t,X_t-l:t+h)→Y_t:t+h。其中Y_t-l:t表示用于预测的历史扫视序列，X_t-l:t+h包含通过比较视听显著性（audio-visual saliency）与视觉特征获得的上下文信息。

实验

遵循扫视路径预测标准流程，我们将显著性图和扫视路径下采样至每秒5帧进行训练评估。由于均方误差（MSE）在经纬度维度比较中存在边界效应缺陷，采用球面距离度量更准确。

结论

本文提出的LSSCAN（LSTM架构）和TRSCAN（Transformer架构）双模型方案，前者通过分模态处理实现渐进优化，后者利用probSparse自注意力机制整合嵌入信息，为全景视听刺激的认知行为建模开辟新途径。

（注：根据要求省略文献引用标识，专业术语保留英文缩写并采用_{/^{标签规范格式）}}

热点排行

新闻专题

联系信箱：

粤ICP备09063491号