基于知识与丰富细节的生成对抗网络(GAN),用于人类驱动的文本到图像合成

《Visual Informatics》:Knowledge and multi-detail enhanced GAN for human-driven text-to-image synthesis

【字体: 时间:2025年10月02日 来源:Visual Informatics 3.9

编辑推荐:

  人类驱动文本到图像合成中存在图像僵硬、与背景不协调及人类细节丢失问题。本文提出知识与多细节增强生成对抗网络(KMDE-GAN),通过知识检索模块获取与文本语义匹配的背景图像作为参考,利用CLIP的多层特征提取技术增强人类细节,结合知识注意力机制选择性融合信息,并通过双判别器优化生成过程。实验表明,该方法在身份保留和提示一致性上优于基线,生成速度提升300倍,参数量减少95%,且无需针对每个人类进行微调。

  人类驱动的文本到图像合成任务旨在生成既符合给定文本语义又保留特定人类视觉特征的可控图像。例如,当提供“一个在海滩上的男人”以及该人的照片时,模型的目标是生成一幅描绘该人在海滩上的图像。尽管当前基于扩散模型的方法在这一任务中取得了显著进展,但它们仍面临两个主要挑战:一是生成的图像显得僵硬和不自然,几乎像是人像与背景的拼贴;二是生成图像中的人像细节与输入不一致,导致原始身份特征的丢失。为了解决这些问题,本文提出了一种结合外部知识与多细节增强的生成对抗网络(GAN)模型,用于人类驱动的文本到图像合成任务。该方法利用外部知识作为参考,以提升人像与背景的和谐度,并通过CLIP的多层特征增强人像细节。

为了更好地理解这一方法的创新点,我们首先回顾了传统的文本到图像合成任务,即基于给定文本生成语义一致且视觉逼真的图像。与之不同,人类驱动的文本到图像合成任务不仅需要符合文本语义,还需要保留特定人类的视觉特征。现有的方法,如文本反转(Textual Inversion)和快速组合器(FastComposer),虽然在某些方面取得了进展,但在生成自然的图像方面仍存在不足。文本反转方法通过在冻结的文本到图像模型的嵌入空间中编码人类图像为新的“单词”,从而实现人类驱动的图像合成。快速组合器则通过交叉注意力定位监督来解决人像融合问题。然而,这些方法在生成高质量图像时仍然存在显著挑战。

本文提出的方法旨在通过引入外部知识和多细节增强机制来解决上述问题。首先,通过知识检索模块,利用给定文本在数据库中查找与之语义相关的图像,作为生成的参考。这一过程类似于人类在绘画时参考现有图像,以获取布局、背景和细节信息,从而减少绘画的复杂性并生成更自然的图像。其次,通过多细节增强模块,提取CLIP模型的多层特征,以更准确地表示人类图像。这一设计可以避免当前方法中因仅使用CLIP的最终层特征而导致的细节丢失问题。CLIP模型的多层特征能够捕捉不同层次的细节信息,其中较浅的层关注外观特征,而较深的层则强调语义特征。通过动态融合这些多层特征,可以更有效地保留人类的细节特征。

此外,本文还引入了知识注意力增强模块,以实现人像、文本和知识之间的无缝融合。该模块通过计算知识图像中不同区域的重要性,选择性地整合有用信息并过滤噪声,从而确保生成的图像既符合文本语义,又保留人类的视觉特征。最后,为了提升生成图像的质量,本文设计了双判别器,一个用于确保生成图像的质量,另一个则用于指导多细节增强模块准确捕捉人像细节。

在实验部分,本文在FFHQ数据集上评估了所提出的方法。FFHQ数据集包含60,000张高质量的人脸图像,每张图像都配有手动标注的描述。实验结果显示,本文的方法在多个指标上优于现有的基线方法。首先,在身份保持方面,本文的方法相比FastComposer提升了13%,在多人类驱动生成任务中提升了4%。其次,在提示一致性方面,本文的方法也表现出显著的优势,其一致性指标比其他方法高出25%。此外,本文的方法在推理速度和资源消耗方面也优于现有的扩散模型方法,其推理速度是现有最快方法的300倍,仅使用了5%的参数量。

通过消融实验,本文进一步验证了所提出方法的有效性。消融实验表明,知识检索模块对于生成自然图像至关重要,其去除后会导致身份保持和提示一致性指标的显著下降。此外,知识注意力增强模块能够有效处理知识与文本之间的不一致性问题,而多细节增强模块则通过融合CLIP模型的多层特征,显著提升了细节保持能力。最后,双判别器的设计确保了生成图像的质量,使得多细节增强模块能够更准确地捕捉人像细节。

本文的方法不仅在性能上优于现有方法,还在实际应用中展现出更高的效率和更低的计算需求。相比于需要对每个新的人像进行微调的扩散模型方法,本文的方法仅需一张输入图像即可生成图像,无需为每个个体单独微调模型。这一特点使得本文的方法在实际应用中更加便捷和高效,减少了用户操作和计算资源的消耗。

综上所述,本文提出了一种结合外部知识与多细节增强的GAN模型,用于人类驱动的文本到图像合成任务。该方法在保持人像细节和提升人像与背景的自然融合方面表现出色,同时在推理速度和资源消耗方面具有显著优势。实验结果表明,本文的方法在多个指标上均优于现有方法,具有广泛的应用前景。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号