基于时序与结构增强的音频视觉分割解码方法研究

【字体: 时间:2025年05月14日 来源:Digital Signal Processing 2.9

编辑推荐:

  针对音频视觉分割(AVS)任务中时序建模不足和结构预测不精确的问题,研究人员提出了一种融合时序增强模块(TEM)和音频视觉解码器的新框架,通过引入结构相似性(SSIM)损失提升边界一致性。实验表明该方法在多个数据集上mIoU和F-score指标超越现有模型,为多模态感知提供了新思路。

  

在数字信号处理领域,音频与视觉的协同感知一直是研究热点。人类大脑能自然融合视听信息,但让机器实现这种能力却面临巨大挑战。音频视觉分割(AVS)作为新兴任务,要求模型根据声音精准定位视频中发声物体的像素级掩膜,比传统声源定位(SSL)更精细。尽管现有方法通过跨模态交互取得进展,但两大瓶颈依然突出:一是动态视频中时序关系建模不足,导致运动物体分割不一致;二是音频关联区域的结构预测粗糙,边界模糊问题显著。这些问题严重制约了AVS在自动驾驶、智能监控等场景的应用效果。

复旦大学的研究团队在《Digital Signal Processing》发表论文,提出创新性解决方案。该研究采用编码器-解码器架构,核心包括:1) 时序增强模块(TEM)通过可学习上下文令牌捕捉帧间依赖;2) 多尺度音频视觉解码器结合高效注意力(Efficient-Attention)机制;3) 引入SSIM损失函数保持结构完整性。实验覆盖AVSBench、BAVL等数据集,样本包含真实场景与合成数据。

方法论
研究采用分阶段处理策略:视觉编码器提取空间特征,音频编码器获取频谱特征。TEM模块创新性地使用记忆编码器蒸馏单帧信息,通过令牌交换实现时序校准。解码阶段,音频语义被动态注入多尺度视觉特征,配合层级注意力实现精细分割。损失函数组合二元交叉熵与SSIM,强化边界优化。

数据集
验证集包含AVS-Object的单物体场景、AVS-Semantic的多物体场景,以及合成数据AVS-Synthetic。对比实验显示,该方法在复杂运动场景下mIoU提升3.2%,F-score提高2.7%,尤其在乐器演奏、动物运动等高频变化场景优势显著。

结论与讨论
该研究首次系统解决了AVS中时序连贯性与结构精度的矛盾。TEM模块克服了传统Mamba架构的空间关系丢失缺陷,而认知启发的解码设计比后处理细化更有效。值得注意的是,SSIM损失的引入使边缘错误率降低19%,证实结构约束对音频引导分割的关键作用。这项工作为多模态感知提供了新范式,其模块化设计易于迁移到医疗影像分析等跨模态任务。未来可探索音频-视觉-文本三模态协同,进一步逼近人类认知水平。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号