
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于辅助语言增强的遥感图像描述生成:DIA模型的多语言特征融合与跨模态优化
【字体: 大 中 小 】 时间:2025年07月31日 来源:Pattern Recognition 7.6
编辑推荐:
针对遥感图像描述(RSIC)任务中单语言模型忽略跨语言信息的问题,西北工业大学团队提出DIA模型,通过共享视觉特征提取器、语言无关特征增强(LiFE)模块和语言桥接机制,在UCM数据集上实现BLEU-4提升5.06%、CIDEr提升16.86%,为多语言遥感智能解译提供新范式。
在人工智能与遥感技术深度融合的今天,如何让卫星"看图说话"已成为地理信息智能化的关键挑战。传统遥感图像描述(RSIC)技术虽能生成基础场景描述,却面临两大瓶颈:一是依赖单一语言训练导致语义表达受限,二是视觉特征提取存在语言偏见。更棘手的是,不同语言对同一场景的差异化表述(如中文"停放的飞机"与英文"airplanes parked"的语序差异)蕴含的丰富语言学信息长期未被有效利用。
西北工业大学智能开放光电系统(iOPEN)研究院的Tao Yang、Qing Zhou和Qi Wang团队在《Pattern Recognition》发表的研究中,创新性地提出DIA(Deriving Linguistic Information from Auxiliary Languages)模型。该研究突破性地发现,通过法语、西班牙语等辅助语言的句法结构差异,能显著提升目标语言(如英语)的描述生成质量。实验证明,这种跨语言增强策略使模型在保持单语言推理效率的同时,实现了描述准确性与语言流畅性的双重突破。
研究团队采用三项核心技术:首先构建共享视觉特征提取器,集成预训练的CNN和CLIP模型;其次设计语言无关特征增强(LiFE)模块,通过多视角注意力机制消除CLIP的英语偏好;最后建立语言桥接机制,使目标语言生成器(TLG)能动态学习辅助语言生成器(ALG)的建模能力。特别值得注意的是,团队构建了首个双语NWPU数据集验证跨语言有效性。
方法设计
共享视觉特征提取器采用ResNet-50和CLIP的混合架构,LiFE模块通过形态学梯度、Gabor滤波等语言无关操作提取底层视觉特征。多视角注意力机制将语义深度特征与语言无关特征权重比设为λ=0.7时达到最优平衡。语言桥接采用双向LSTM架构,通过门控机制控制信息流强度。
实验结果
在UCM数据集上,DIA的BLEU-4达42.31%,较基线模型提升5.06个百分点。跨语言测试表明,当辅助语言为法语时,英语描述的CIDEr指标提升最显著(16.86%)。消融实验验证LiFE模块使语言偏见降低23.7%,语言桥接贡献了38.2%的性能增益。
讨论与展望
该研究首次证明跨语言标注数据中的句法差异可作为正则化项,有效提升单语言RSIC性能。语言桥接机制为多模态学习提供新思路——在不增加推理开销的前提下,通过训练阶段的跨语言知识蒸馏提升模型表现。未来工作可探索更多语种组合及低资源语言场景,这对推动全球遥感知识共享具有重要意义。研究局限性在于当前实验仅验证了印欧语系语言的效果,对汉语等孤立语的增强机制仍需进一步探索。
生物通微信公众号
知名企业招聘