注意力引导的多尺度时序交互扩散模型在3D人体运动生成中的应用

【字体: 时间:2025年08月14日 来源:Neurocomputing 6.5

编辑推荐:

  本文提出了一种创新的注意力引导多尺度时序交互扩散模型(AMTIDM),通过多尺度时序交互网络(MTIN)和运动-文本交互模块(MTIB)有效解决了文本-运动特征对齐问题。该模型采用轻量级噪声调度预测器和BDDM加速策略,在HumanAct12和UESTC数据集上达到最优性能,同时显著降低了DDPMs的计算成本(FLOPs)和参数量。

  

Highlight

我们的贡献可总结如下:

• 提出多尺度时序交互网络(MTIN),无需复杂数据预处理即可有效整合多尺度时序特征

• 设计运动-文本交互块(MTIB)并引入注意力引导损失函数,显著提升文本指令与生成运动的一致性

• 开发轻量级噪声调度预测器,结合BDDM加速策略,在保证生成质量前提下大幅减少采样步数

• 在HumanAct12和UESTC数据集上实现最优性能,其R-Precision指标可媲美真实人体运动数据(基于HumanML3D基准测试),同时参数量和计算量(FLOPs)低于多数扩散模型

Related work

人体运动生成方法主要分为四类:基于生成对抗网络(GAN)的方法、变分自编码器(VAE)方法、扩散模型方法及其他。其中:

GAN-based方法:如Ahn等采用带文本标注的生成对抗网络;DVGANs结合卷积和循环判别器,将类别标签作为文本输入

扩散模型方法展现出显著优势,但存在计算成本高和特征对齐不足等问题

Pipeline

我们的目标是根据自然语言描述生成对应的3D人体运动序列。如图2所示,训练阶段对运动序列x0∈RF×J×D(F为帧数,J为关节数,D为关节表征维度)实施扩散过程,通过逆向去噪学习条件分布pθ(x0|c)。

Datasets

HumanML3D:最大规模的文本-运动数据集,包含14,616个运动序列和44,970条描述

KIT:包含6,018个运动-文本对,其中4,888个用于训练

Conclusion and discussion

本文提出的AMTIDM模型具有更少的训练参数和计算量(FLOPs),通过整合多尺度时序信息和注意力引导损失,在文本条件和动作条件运动生成任务中均超越现有方法。该模型为动画制作、虚拟现实和机器人领域提供了高效解决方案。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号