基于区域语义引导的文本到图像扩散模型注意力图谱优化研究

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年09月04日 来源：Computer Vision and Image Understanding 3.5

编辑推荐：

　　本文提出CoRe Diffusion框架，通过区域分配机制和掩膜引导策略，解决扩散模型（Diffusion Models）生成过程中注意力图谱（attention maps）的语义碎片化和区域泄漏问题。创新性地结合生成语义护理（GSN）框架与定制化损失函数，显著提升多概念文本输入的视觉表达准确性，为图像生成领域提供更精准的语义控制方案。

亮点

我们揭示了现有注意力图谱优化方法的两大核心缺陷：非连续区域生成（Fragmented and Scattered Regions）和意外区域渗透（Unintended Region Leakage），这些缺陷会显著降低注意力图谱的语义丰富度。

方法论

本研究的CoRe Diffusion框架包含两大创新模块：

1.
概念区域分配系统：采用拓扑感知算法生成连续语义区域，配合基于区域交并比（IoU）的优化损失函数
2.
动态掩膜引导：在去噪（denoising）全周期施加空间约束，防止概念特征跨区域扩散

实验设置

在50步生成流程中，前25步进行损失优化，全程应用掩膜引导。测试集包含200组多概念提示词，定量评估显示本方法在概念保真度（CLIP-score）上较基线模型提升37.2%。

结论

CoRe Diffusion通过区域级语义监控机制，在Stable Diffusion等主流架构上实现了：

• 概念区域连贯性提升（p<0.01）

• 属性错配率降低62%

• 支持用户自定义空间约束输入

该框架为医学影像合成等需要精确空间控制的领域提供了新范式。

作者贡献声明

第一作者吴浩轩负责算法开发与论文撰写，通讯作者Po Lai-Man指导研究设计，所有作者均参与成果验证。

利益冲突声明

作者声明不存在可能影响本研究客观性的财务或个人关系。

（注：根据要求省略文献引用标识，专业术语保留英文缩写并采用^上标_下标格式，未使用SVG标签）

热点排行

新闻专题

联系信箱：

粤ICP备09063491号