基于伪重放生成的域增量学习范式:面向多场景理解的跨域自适应模型构建

【字体: 时间:2025年08月12日 来源:Graphical Models 2.2

编辑推荐:

  推荐:针对单场景模型在复杂真实场景中泛化性差的问题,研究人员提出域增量学习范式D-ILP,结合伪重放生成技术PRG,成功将Mask2Former等单场景模型转化为多场景解析模型。实验表明该方法在保持源场景解析精度(78.95 mIoU)的同时,显著提升新场景性能(+29.31 mIoU),为自动驾驶等应用提供了高效跨域解决方案。

  

在计算机视觉领域,场景理解(Scene Understanding)作为像素级物体分布解析的核心任务,是自动驾驶、三维重建等应用的技术基石。然而当前研究大多聚焦单一场景(如白天场景),当面对真实世界中复杂的多域场景(如夜间、雨雪等恶劣天气)时,这些"专才"模型就会暴露出严重的泛化缺陷。就像人类驾驶员需要适应各种路况一样,如何让AI模型具备"全天候"场景解析能力,成为亟待突破的技术瓶颈。

上海大学影视工程系的研究团队在《Graphical Models》发表创新研究,提出域增量学习范式D-ILP(Domain-Incremental Learning Paradigm)。该方法巧妙利用预训练单场景模型和增量图像,通过伪重放生成技术PRG(Pseudo-Replay Generation)生成类源场景图像,成功将Mask2Former、Segformer等经典模型转化为多场景"通才"。特别值得注意的是,PRG仅需10张无标注源图像就能生成高质量伪重放,相比传统重放方法降低90%标注成本。

研究采用三大关键技术:1)基于ControlNet架构的PRG模块,通过文本提示"Real cityscape during the day"生成风格一致的伪重放图像;2)双损失函数设计,交叉熵损失LI优化新场景学习,LR损失保持源场景知识;3)多阶段增量策略,支持从白天到夜间/雨雪场景的渐进式扩展。实验选用Cityscapes、NightCity等标准数据集,以mIoU(mean Intersection-over-Union)作为核心评估指标。

研究结果显示:在场景解析性能方面,D-ILP使Mask2Former在Cityscapes日间场景保持82.12 mIoU的同时,在NightCity夜间场景达到56.82 mIoU,较基线提升29.31 mIoU。通过多步增量学习,模型在雨、雾、雪等复杂场景的MSN(多场景平均分)提升至71.45,显著优于SimCS等域适应方法。可视化分析表明,PRG生成的伪重放虽存在部分逻辑异常(如混乱的道路标记),但因其保持风格一致性,仍能有效防止模型遗忘源知识。

在方法对比方面,研究揭示域增量学习相比类增量学习的优势:当处理相同类别在不同域的特征时,前者通过共享特征学习使日/夜间场景mIoU分别达到76.09和54.53,而后者因强制区分同类物体导致性能下降。控制实验证实,使用10张图像训练的PRG与使用真实标注重放的性能差距仅0.3 mIoU,却节省大量标注成本。

该研究的突破性在于:首次将增量学习范式系统应用于场景理解任务,提出的D-ILP框架兼具实用性和扩展性——既可利用现有成熟模型快速构建多场景解析系统,又通过PRG技术突破标注数据依赖。研究团队特别指出,该方法在自动驾驶领域具有直接应用价值,未来可进一步探索文本提示优化、多模态增量学习等方向。这项工作为计算机视觉系统适应开放环境的动态学习提供了新范式,其"小样本增量适应"的技术路线对医疗影像分析等数据稀缺领域也具有重要借鉴意义。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号