
-
生物通官微
陪你抓住生命科技
跳动的脉搏
UNICOM:基于扩散模型的无掩模统一图像合成框架实现前景感知与上下文真实感
【字体: 大 中 小 】 时间:2025年08月02日 来源:Neurocomputing 6.5
编辑推荐:
本文推荐:华中科技大学团队提出UNICOM框架,首次实现无需掩模标注(mask annotations)的端到端图像合成(image composition)。该模型通过背景提示(background prompt)和空间映射模块(space mapping module),在分割数据集上自监督训练(self-supervised),同步解决目标定位与外观协调(appearance harmonization)等子任务,显著提升合成图像的视觉真实感(realism)与语义一致性(faithfulness)。
亮点
我们提出UNICOM框架,其三大创新点包括:1)首创无掩模(mask-free)的端到端图像合成范式;2)通过背景提示(background prompt)实现上下文感知生成;3)利用分割数据集构建自监督(self-supervised)训练三元组,突破人工标注限制。
统一图像合成
UNICOM框架包含三个核心模块:1)背景提示编码器提取场景上下文特征;2)空间映射模块(space mapping module)对齐参考图像与文本条件扩散模型的嵌入空间;3)基于修复(inpainting)的自监督训练策略。如图2所示,该架构使模型能自适应调整前景姿态(如将侧视汽车转为前视)以匹配背景透视。
结果与讨论
实验采用Stable Diffusionv2.0作为基础模型,搭配OpenCLIP(ViT-H-14)图像编码器。定量评估显示,UNICOM在FID(Frechet Inception Distance)和LPIPS(Learned Perceptual Image Patch Similarity)指标上超越Blended Diffusion等基线模型。消融研究证实,背景提示使合成图像的空间一致性提升23.6%。
结论
UNICOM首次实现多子任务统一的图像合成,通过预训练扩散模型(pre-trained diffusion model)的先验知识,显著减少人工干预。该框架为大规模内容生成(large-scale content generation)提供了实用解决方案,未来可扩展至医学影像合成等跨领域应用。
生物通微信公众号
知名企业招聘