注意力引导的多尺度时序交互扩散模型在3D人体运动生成中的应用

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

【字体：大中小】 时间：2025年08月14日 来源：Neurocomputing 6.5

编辑推荐：

　　本文提出了一种创新的注意力引导多尺度时序交互扩散模型(AMTIDM)，通过多尺度时序交互网络(MTIN)和运动-文本交互模块(MTIB)有效解决了文本-运动特征对齐问题。该模型采用轻量级噪声调度预测器和BDDM加速策略，在HumanAct12和UESTC数据集上达到最优性能，同时显著降低了DDPMs的计算成本(FLOPs)和参数量。

Highlight

我们的贡献可总结如下：

• 提出多尺度时序交互网络(MTIN)，无需复杂数据预处理即可有效整合多尺度时序特征

• 设计运动-文本交互块(MTIB)并引入注意力引导损失函数，显著提升文本指令与生成运动的一致性

• 开发轻量级噪声调度预测器，结合BDDM加速策略，在保证生成质量前提下大幅减少采样步数

• 在HumanAct12和UESTC数据集上实现最优性能，其R-Precision指标可媲美真实人体运动数据（基于HumanML3D基准测试），同时参数量和计算量(FLOPs)低于多数扩散模型

Related work

人体运动生成方法主要分为四类：基于生成对抗网络(GAN)的方法、变分自编码器(VAE)方法、扩散模型方法及其他。其中：

GAN-based方法：如Ahn等采用带文本标注的生成对抗网络；DVGANs结合卷积和循环判别器，将类别标签作为文本输入

扩散模型方法展现出显著优势，但存在计算成本高和特征对齐不足等问题

Pipeline

我们的目标是根据自然语言描述生成对应的3D人体运动序列。如图2所示，训练阶段对运动序列x₀∈R^F×J×D（F为帧数，J为关节数，D为关节表征维度）实施扩散过程，通过逆向去噪学习条件分布p_θ(x₀|c)。

Datasets

HumanML3D：最大规模的文本-运动数据集，包含14,616个运动序列和44,970条描述

KIT：包含6,018个运动-文本对，其中4,888个用于训练

Conclusion and discussion

本文提出的AMTIDM模型具有更少的训练参数和计算量(FLOPs)，通过整合多尺度时序信息和注意力引导损失，在文本条件和动作条件运动生成任务中均超越现有方法。该模型为动画制作、虚拟现实和机器人领域提供了高效解决方案。

热点排行

新闻专题

联系信箱：

粤ICP备09063491号