
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于区域语义引导的文本到图像扩散模型注意力图谱优化研究
【字体: 大 中 小 】 时间:2025年09月04日 来源:Computer Vision and Image Understanding 3.5
编辑推荐:
本文提出CoRe Diffusion框架,通过区域分配机制和掩膜引导策略,解决扩散模型(Diffusion Models)生成过程中注意力图谱(attention maps)的语义碎片化和区域泄漏问题。创新性地结合生成语义护理(GSN)框架与定制化损失函数,显著提升多概念文本输入的视觉表达准确性,为图像生成领域提供更精准的语义控制方案。
亮点
我们揭示了现有注意力图谱优化方法的两大核心缺陷:非连续区域生成(Fragmented and Scattered Regions)和意外区域渗透(Unintended Region Leakage),这些缺陷会显著降低注意力图谱的语义丰富度。
方法论
本研究的CoRe Diffusion框架包含两大创新模块:
概念区域分配系统:采用拓扑感知算法生成连续语义区域,配合基于区域交并比(IoU)的优化损失函数
动态掩膜引导:在去噪(denoising)全周期施加空间约束,防止概念特征跨区域扩散
实验设置
在50步生成流程中,前25步进行损失优化,全程应用掩膜引导。测试集包含200组多概念提示词,定量评估显示本方法在概念保真度(CLIP-score)上较基线模型提升37.2%。
结论
CoRe Diffusion通过区域级语义监控机制,在Stable Diffusion等主流架构上实现了:
• 概念区域连贯性提升(p<0.01)
• 属性错配率降低62%
• 支持用户自定义空间约束输入
该框架为医学影像合成等需要精确空间控制的领域提供了新范式。
作者贡献声明
第一作者吴浩轩负责算法开发与论文撰写,通讯作者Po Lai-Man指导研究设计,所有作者均参与成果验证。
利益冲突声明
作者声明不存在可能影响本研究客观性的财务或个人关系。
(注:根据要求省略文献引用标识,专业术语保留英文缩写并采用上标下标格式,未使用SVG标签)
生物通微信公众号
知名企业招聘