
-
生物通官微
陪你抓住生命科技
跳动的脉搏
UniAnimate:驯服统一的视频扩散模型以实现一致的人体图像动画效果
《Science China-Information Sciences》:UniAnimate: taming unified video diffusion models for consistent human image animation
【字体: 大 中 小 】 时间:2025年10月04日 来源:Science China-Information Sciences 7.6
编辑推荐:
视频生成框架UniAnimate通过统一视频扩散模型整合身份与姿态引导,采用支持随机及初始帧条件化的噪声输入提升长时生成能力,并引入状态空间模型替代Transformer优化效率,实验验证其在24帧至1分钟视频合成中均优于现有方法。
近期基于扩散的人体图像动画技术在合成视频方面取得了显著的成功,这些视频能够精确地遵循给定的参考身份和一系列期望的动作姿势。尽管如此,仍存在两个局限性:(i) 需要额外的参考模型来将身份图像与主视频路径对齐,这大大增加了优化难度和模型参数的数量;(ii) 生成的视频时长通常较短(例如24帧),限制了其实际应用。为了解决这些缺点,我们提出了一个名为UniAnimate的框架,以实现高效且长期的人体视频生成。首先,为了降低优化难度并确保时间连贯性,我们通过整合一个统一的视频扩散模型,将参考图像、姿势引导信息和噪声视频映射到一个共同的特征空间中。其次,我们提出了一种统一的噪声输入方式,既支持随机噪声输入,也支持以第一帧为条件的输入,从而增强了生成长时间视频的能力。最后,为了更有效地处理长序列数据,我们探索了一种基于状态空间模型的替代时间建模架构,以取代原有的计算密集型时间Transformer。广泛的实验结果表明,UniAnimate在定量和定性评估中均优于现有的最先进技术。值得注意的是,通过迭代使用第一帧条件策略,UniAnimate甚至能够生成高度一致的一分钟视频。代码和模型可在https://unianimate.github.io/处公开获取。
近期基于扩散的人体图像动画技术在合成视频方面取得了显著的成功,这些视频能够精确地遵循给定的参考身份和一系列期望的动作姿势。尽管如此,仍存在两个局限性:(i) 需要额外的参考模型来将身份图像与主视频路径对齐,这大大增加了优化难度和模型参数的数量;(ii) 生成的视频时长通常较短(例如24帧),限制了其实际应用。为了解决这些缺点,我们提出了一个名为UniAnimate的框架,以实现高效且长期的人体视频生成。首先,为了降低优化难度并确保时间连贯性,我们通过整合一个统一的视频扩散模型,将参考图像、姿势引导信息和噪声视频映射到一个共同的特征空间中。其次,我们提出了一种统一的噪声输入方式,既支持随机噪声输入,也支持以第一帧为条件的输入,从而增强了生成长时间视频的能力。最后,为了更有效地处理长序列数据,我们探索了一种基于状态空间模型的替代时间建模架构,以取代原有的计算密集型时间Transformer。广泛的实验结果表明,UniAnimate在定量和定性评估中均优于现有的最先进技术。值得注意的是,通过迭代使用第一帧条件策略,UniAnimate甚至能够生成高度一致的一分钟视频。代码和模型可在https://unianimate.github.io/处公开获取。