
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于交叉注意力机制的AI图像配准网络在全景立体直播系统中的应用研究
【字体: 大 中 小 】 时间:2025年08月13日 来源:Engineering Applications of Artificial Intelligence 8
编辑推荐:
本文提出了一种基于交叉注意力机制(Cross-attention)的CAWarpNet图像配准算法,通过局部Transformer模块增强特征对应关系捕获,并结合扭曲等变(warp-equivariance)约束优化单应性矩阵估计,显著提升了全景图像拼接质量。该研究为增强现实/虚拟现实(AR/VR)领域的全景立体直播系统提供了关键技术支撑,实验表明其能有效减少伪影并满足实时传输需求。
亮点
• 提出采用交叉注意力Transformer的图像配准策略,显著提升特征对应信息捕获能力
• 创新性引入带扭曲等变约束的损失函数,优化单应性(homography)估计过程
• 构建的全景直播系统基本满足日常直播需求
交叉注意力图像配准网络
本方法通过特征金字塔网络(FPN)进行多尺度特征提取,并在每层末端接入基于交叉注意力结构的局部Transformer模块(见图2)。这种设计能在特征提取阶段同步捕获不同尺度特征间的对应关系,为后续单应性矩阵计算提供更丰富的空间关联信息。
扭曲等变损失函数
该损失函数由单应性残差损失Lhr和扭曲等变约束Lwe组成(公式10),其中ν和ζ为平衡参数。通过强制网络在特征空间估计的单应性矩阵与原始图像变换关系对齐,有效降低了神经网络对图像几何变换的干扰。
全景直播系统
如图4所示,系统整合了从图像采集到立体观看的全功能模块。图像重建网络与配准算法协同工作,实时生成高保真全景画面,验证了算法在复杂场景下的实用性。
实验
采用两阶段无监督训练策略:先在合成COCO数据集上训练60万次,再用真实数据集UDIS-D微调40万次。仅需输入参考图像和目标图像,即可实现端到端的单应性矩阵预测。
结论
本研究通过交叉注意力机制和扭曲等变约束的联合优化,建立了特征提取与单应性估计的深度关联,为全景系统提供了更精准的图像配准方案。未来将进一步探索动态场景下的实时拼接技术。
生物通微信公众号
知名企业招聘