-
生物通官微
陪你抓住生命科技
跳动的脉搏
新的人工智能工具比最先进的方法更快地生成高质量的图像
【字体: 大 中 小 】 时间:2025年03月28日 来源:AAAS
编辑推荐:
麻省理工学院和英伟达的研究人员开发了一种混合人工智能方法,可以生成与最先进的扩散模型质量相同或更好的逼真图像,但运行速度快9倍,使用的计算资源更少。该工具使用自回归模型快速捕获大图,然后使用小扩散模型来细化图像的细节。
快速生成高质量图像的能力对于生成逼真的模拟环境至关重要,这些环境可用于训练自动驾驶汽车避免不可预测的危险,使其在真实街道上更安全。
但越来越多地用于生成此类图像的生成式人工智能技术存在缺陷。一种流行的模型,称为扩散模型,可以创建令人惊叹的逼真图像,但对于许多应用程序来说,速度太慢,计算量太大。另一方面,支持像ChatGPT这样的llm的自回归模型要快得多,但它们产生的图像质量较差,而且经常充满错误。
麻省理工学院和英伟达的研究人员开发了一种新方法,将两种方法的优点结合在一起。他们的混合图像生成工具使用一个自回归模型来快速捕获大图像,然后使用一个小扩散模型来细化图像的细节。
他们的工具被称为HART (Hybrid Autoregressive Transformer的缩写),可以生成与最先进的扩散模型质量相当或超过的图像,但速度要快9倍。
生成过程比典型的扩散模型消耗更少的计算资源,使HART能够在商用笔记本电脑或智能手机上本地运行。用户只需要在HART界面中输入一个自然语言提示符就可以生成图像。
HART可以有广泛的应用,比如帮助研究人员训练机器人完成复杂的现实任务,帮助设计师为视频游戏制作引人注目的场景。
“如果你正在画一幅风景画,而你只是一次画完整个画布,它可能看起来不太好。但如果你画大的画面,然后用更小的笔触来完善图像,你的画看起来会好得多。这是HART的基本思想,”25岁的Haotian Tang博士说,他是HART新论文的共同主要作者。
两全其美
众所周知,流行的扩散模型,如稳定扩散和DALL-E,可以产生非常详细的图像。这些模型通过一个迭代过程生成图像,在这个过程中,它们预测每个像素上的一些随机噪声,减去噪声,然后重复预测和“去噪”的过程多次,直到它们生成一个完全没有噪声的新图像。
由于扩散模型在每一步对图像中的所有像素进行去噪,并且可能有30个或更多的步骤,因此该过程缓慢且计算成本高。但由于模型有多次机会纠正错误的细节,因此图像是高质量的。
通常用于预测文本的自回归模型可以通过顺序地预测图像的补丁来生成图像,每次预测几个像素。他们不能回头纠正自己的错误,但顺序预测的过程比扩散要快得多。
这些模型使用称为标记的表示来进行预测。自回归模型利用自编码器将原始图像像素压缩成离散的标记,并从预测的标记重建图像。虽然这提高了模型的速度,但在压缩过程中发生的信息丢失会导致模型生成新图像时出现错误。
通过HART,研究人员开发了一种混合方法,该方法使用自回归模型来预测压缩的离散图像标记,然后使用小扩散模型来预测残余标记。剩余令牌通过捕获离散令牌遗漏的细节来补偿模型的信息损失。
“我们可以在重建质量方面取得巨大的进步。我们的残留标记学习高频细节,比如物体的边缘,或者人的头发、眼睛或嘴巴。在这些地方,离散的代币可能会出错,”Haotian Tang说。
由于扩散模型只在自回归模型完成其工作后预测剩余的细节,因此它可以通过8个步骤完成任务,而不是标准扩散模型通常需要30个或更多的步骤来生成整个图像。这种额外扩散模型的最小开销允许HART保留自回归模型的速度优势,同时显着增强其生成复杂图像细节的能力。
他补充说:“扩散模型更容易完成工作,从而提高了效率。”
优于大型模型
在HART的发展过程中,研究人员在有效整合扩散模型以增强自回归模型方面遇到了挑战。他们发现,在自回归过程的早期阶段加入扩散模型会导致误差的累积。相反,他们的最终设计是应用扩散模型来预测剩余token作为最后一步,这大大提高了生成质量。
他们的方法结合了具有7亿个参数的自回归变压器模型和具有3700万个参数的轻量级扩散模型,可以生成与具有20亿个参数的扩散模型生成的图像质量相同的图像,但速度要快9倍左右。它比最先进的模型节省了31%的计算量。
此外,由于HART使用自回归模型来完成大部分工作——与支持llm的模型类型相同——因此它与新一类统一视觉语言生成模型的集成更加兼容。在未来,人们可以与一个统一的视觉语言生成模型进行交互,也许通过要求它显示组装一件家具所需的中间步骤。
“llm是各种模型的良好接口,比如多模态模型和可以推理的模型。这是一种将智能推向新前沿的方法。一个高效的图像生成模型将开启许多可能性。”
未来,研究人员希望沿着这条路走下去,在HART架构的基础上构建视觉语言模型。由于HART具有可扩展性和可通用性,因此他们还希望将其应用于视频生成和音频预测任务。
# # #
这项研究的部分资金来自麻省理工学院- ibm沃森人工智能实验室、麻省理工学院和亚马逊科学中心、麻省理工学院人工智能硬件项目和美国国家科学基金会。用于训练该模型的GPU基础设施由NVIDIA捐赠。
下载安捷伦电子书《通过细胞代谢揭示新的药物靶点》探索如何通过代谢分析促进您的药物发现研究
10x Genomics新品Visium HD 开启单细胞分辨率的全转录组空间分析!
知名企业招聘
今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号