基于辅助语言增强的遥感图像描述生成：DIA模型的多语言特征融合与跨模态优化

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年07月31日 来源：Pattern Recognition 7.6

编辑推荐：

　　针对遥感图像描述(RSIC)任务中单语言模型忽略跨语言信息的问题，西北工业大学团队提出DIA模型，通过共享视觉特征提取器、语言无关特征增强(LiFE)模块和语言桥接机制，在UCM数据集上实现BLEU-4提升5.06%、CIDEr提升16.86%，为多语言遥感智能解译提供新范式。

在人工智能与遥感技术深度融合的今天，如何让卫星"看图说话"已成为地理信息智能化的关键挑战。传统遥感图像描述(RSIC)技术虽能生成基础场景描述，却面临两大瓶颈：一是依赖单一语言训练导致语义表达受限，二是视觉特征提取存在语言偏见。更棘手的是，不同语言对同一场景的差异化表述（如中文"停放的飞机"与英文"airplanes parked"的语序差异）蕴含的丰富语言学信息长期未被有效利用。

西北工业大学智能开放光电系统(iOPEN)研究院的Tao Yang、Qing Zhou和Qi Wang团队在《Pattern Recognition》发表的研究中，创新性地提出DIA（Deriving Linguistic Information from Auxiliary Languages）模型。该研究突破性地发现，通过法语、西班牙语等辅助语言的句法结构差异，能显著提升目标语言（如英语）的描述生成质量。实验证明，这种跨语言增强策略使模型在保持单语言推理效率的同时，实现了描述准确性与语言流畅性的双重突破。

研究团队采用三项核心技术：首先构建共享视觉特征提取器，集成预训练的CNN和CLIP模型；其次设计语言无关特征增强(LiFE)模块，通过多视角注意力机制消除CLIP的英语偏好；最后建立语言桥接机制，使目标语言生成器(TLG)能动态学习辅助语言生成器(ALG)的建模能力。特别值得注意的是，团队构建了首个双语NWPU数据集验证跨语言有效性。

方法设计
共享视觉特征提取器采用ResNet-50和CLIP的混合架构，LiFE模块通过形态学梯度、Gabor滤波等语言无关操作提取底层视觉特征。多视角注意力机制将语义深度特征与语言无关特征权重比设为λ=0.7时达到最优平衡。语言桥接采用双向LSTM架构，通过门控机制控制信息流强度。

实验结果
在UCM数据集上，DIA的BLEU-4达42.31%，较基线模型提升5.06个百分点。跨语言测试表明，当辅助语言为法语时，英语描述的CIDEr指标提升最显著(16.86%)。消融实验验证LiFE模块使语言偏见降低23.7%，语言桥接贡献了38.2%的性能增益。

讨论与展望
该研究首次证明跨语言标注数据中的句法差异可作为正则化项，有效提升单语言RSIC性能。语言桥接机制为多模态学习提供新思路——在不增加推理开销的前提下，通过训练阶段的跨语言知识蒸馏提升模型表现。未来工作可探索更多语种组合及低资源语言场景，这对推动全球遥感知识共享具有重要意义。研究局限性在于当前实验仅验证了印欧语系语言的效果，对汉语等孤立语的增强机制仍需进一步探索。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号