
-
生物通官微
陪你抓住生命科技
跳动的脉搏
注意力引导的多尺度时序交互扩散模型在3D人体运动生成中的应用
【字体: 大 中 小 】 时间:2025年08月14日 来源:Neurocomputing 6.5
编辑推荐:
本文提出了一种创新的注意力引导多尺度时序交互扩散模型(AMTIDM),通过多尺度时序交互网络(MTIN)和运动-文本交互模块(MTIB)有效解决了文本-运动特征对齐问题。该模型采用轻量级噪声调度预测器和BDDM加速策略,在HumanAct12和UESTC数据集上达到最优性能,同时显著降低了DDPMs的计算成本(FLOPs)和参数量。
Highlight
我们的贡献可总结如下:
• 提出多尺度时序交互网络(MTIN),无需复杂数据预处理即可有效整合多尺度时序特征
• 设计运动-文本交互块(MTIB)并引入注意力引导损失函数,显著提升文本指令与生成运动的一致性
• 开发轻量级噪声调度预测器,结合BDDM加速策略,在保证生成质量前提下大幅减少采样步数
• 在HumanAct12和UESTC数据集上实现最优性能,其R-Precision指标可媲美真实人体运动数据(基于HumanML3D基准测试),同时参数量和计算量(FLOPs)低于多数扩散模型
Related work
人体运动生成方法主要分为四类:基于生成对抗网络(GAN)的方法、变分自编码器(VAE)方法、扩散模型方法及其他。其中:
GAN-based方法:如Ahn等采用带文本标注的生成对抗网络;DVGANs结合卷积和循环判别器,将类别标签作为文本输入
扩散模型方法展现出显著优势,但存在计算成本高和特征对齐不足等问题
Pipeline
我们的目标是根据自然语言描述生成对应的3D人体运动序列。如图2所示,训练阶段对运动序列x0∈RF×J×D(F为帧数,J为关节数,D为关节表征维度)实施扩散过程,通过逆向去噪学习条件分布pθ(x0|c)。
Datasets
HumanML3D:最大规模的文本-运动数据集,包含14,616个运动序列和44,970条描述
KIT:包含6,018个运动-文本对,其中4,888个用于训练
Conclusion and discussion
本文提出的AMTIDM模型具有更少的训练参数和计算量(FLOPs),通过整合多尺度时序信息和注意力引导损失,在文本条件和动作条件运动生成任务中均超越现有方法。该模型为动画制作、虚拟现实和机器人领域提供了高效解决方案。
生物通微信公众号
知名企业招聘