基于区域语义引导的文本到图像扩散模型注意力图谱优化研究

【字体: 时间:2025年09月04日 来源:Computer Vision and Image Understanding 3.5

编辑推荐:

  本文提出CoRe Diffusion框架,通过区域分配机制和掩膜引导策略,解决扩散模型(Diffusion Models)生成过程中注意力图谱(attention maps)的语义碎片化和区域泄漏问题。创新性地结合生成语义护理(GSN)框架与定制化损失函数,显著提升多概念文本输入的视觉表达准确性,为图像生成领域提供更精准的语义控制方案。

  

亮点

我们揭示了现有注意力图谱优化方法的两大核心缺陷:非连续区域生成(Fragmented and Scattered Regions)和意外区域渗透(Unintended Region Leakage),这些缺陷会显著降低注意力图谱的语义丰富度。

方法论

本研究的CoRe Diffusion框架包含两大创新模块:

  1. 1.

    概念区域分配系统:采用拓扑感知算法生成连续语义区域,配合基于区域交并比(IoU)的优化损失函数

  2. 2.

    动态掩膜引导:在去噪(denoising)全周期施加空间约束,防止概念特征跨区域扩散

实验设置

在50步生成流程中,前25步进行损失优化,全程应用掩膜引导。测试集包含200组多概念提示词,定量评估显示本方法在概念保真度(CLIP-score)上较基线模型提升37.2%。

结论

CoRe Diffusion通过区域级语义监控机制,在Stable Diffusion等主流架构上实现了:

• 概念区域连贯性提升(p<0.01)

• 属性错配率降低62%

• 支持用户自定义空间约束输入

该框架为医学影像合成等需要精确空间控制的领域提供了新范式。

作者贡献声明

第一作者吴浩轩负责算法开发与论文撰写,通讯作者Po Lai-Man指导研究设计,所有作者均参与成果验证。

利益冲突声明

作者声明不存在可能影响本研究客观性的财务或个人关系。

(注:根据要求省略文献引用标识,专业术语保留英文缩写并采用上标下标格式,未使用SVG标签)

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号