
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于图像修复的InpaintingPose框架:实现人体姿态迁移中的背景一致性保持与精准姿态控制
【字体: 大 中 小 】 时间:2025年08月10日 来源:Image and Vision Computing 4.2
编辑推荐:
这篇论文创新性地提出InpaintingPose框架,通过图像修复(inpainting)技术将人体外观与背景解耦,在姿态迁移任务中有效保持背景一致性。该方法采用InpaintingNet架构,结合外观控制机制(AppearanceNet)和初始噪声优化策略,在DeepFashionv2和TikTok数据集上分别达到4.74/26.74的FID分数,显著优于现有方法(如PIDM/NTED)。
Highlight
本研究提出三大创新点:
基于图像修复(inpainting)的InpaintingPose框架,通过分离人体外观与背景,避免传统方法(如PIDM/NTED)因整体空间变换导致的背景失真问题
创新外观控制机制,通过图像适配器(image adapter)提取语义特征,结合AppearanceNet保留纹理特征,经注意力机制注入InpaintingNet实现外观精准迁移
初始噪声优化策略解决Stable Diffusion在极亮背景下生成不稳定的问题,无需额外计算成本即可消除伪影
Diffusion models and image inpainting
扩散模型(Diffusion models)在可控图像生成领域取得重大突破,其中Stable Diffusion通过潜在扩散模型(LDM)在隐空间操作显著降低计算成本。该模型整合VAE编解码器、U-Net去噪器和CLIP文本编码器,支持文本/图像多模态引导,成为图像修复(inpainting)任务的标杆。
Preliminary
稳定扩散基础架构
Stable Diffusion包含三大核心模块:
VAE(变分自编码器)实现图像与隐空间双向转换
U-Net通过时间步长条件机制执行渐进式去噪
CLIP文本编码器提供跨模态语义控制
这种架构在保持生成质量的同时,将计算复杂度降低至传统像素空间扩散模型的1/16
Setup
实验设置
在TikTok和DeepFashionv2数据集上验证方法:
DeepFashionv2采用256×176分辨率测试,该数据集含52,712张白底时尚图像
定量评估显示,本方法在极亮背景下仍能保持生成稳定性,FID分数显著优于基线模型
Conclusion
InpaintingPose框架通过解耦外观与背景的创新设计,在人体姿态迁移任务中实现三大突破:背景零干扰、外观高保真、亮场强鲁棒。该技术为虚拟试衣、医学影像合成等需要精准局部编辑的场景提供新范式。
生物通微信公众号
知名企业招聘