时间: 2025-12-11 08:48:31 | 作者: 竞彩体育篮球
【新智元导读】当元宇宙数字人急需「群舞技能」,音乐驱动生成技术却遭遇瓶颈——舞者碰撞、动作僵硬、
【新智元导读】当元宇宙数字人急需「群舞技能」,音乐驱动生成技术却遭遇瓶颈——舞者碰撞、动作僵硬、长序列崩坏。为解决这一些难题,南理工、清华、南大联合研发端到端模型TCDiff++,突破多人生成技术壁垒,实现高质量、长时序的群体舞蹈自动生成。该模型支持跨模态编舞,可一键生成和谐流畅的群舞表演,为虚拟演唱会、数字人集体演出等场景提供完整的AIGC解决方案。作为该领域首批基础模型之一,TCDiff++从AAAI 2025的开源成果TCDiff升级而来,并被IJCV 2025正式接收。
在常见的群舞数据中,超过80%的动作看起来几乎一样!更麻烦的是,每个舞者的动作数据维度高达100多,而位置坐标却只有可怜的3维——模型直接「脸盲」了,根本分不清谁是谁。
你有没有见过舞者上身跳得标准,双脚却像在冰上滑行?这就是典型的「脚部滑动」。其根源在于AI难以协调全身动作和脚下轨迹,导致视觉效果失真,观感十分出戏。
现有技术能生成几秒钟的群舞片断,可一旦拉到几分钟甚至更长,动作就开始突变、卡顿、不连贯。而现实中,一场真正的群舞表演动辄数分钟,音乐剧更要持续数小时——这之间的差距,正是当前技术亟待填补的关键空白。
群舞生成三大难题示意图以及TCDiff++效果,从左到右分别为多舞者碰撞、单舞者脚滑、长时生成位置突变问题、TCDiff++克服这些难题
在AAAI 2025发表的TCDiff模型,研究人员首次提出「轨迹可控」的生成思路,通过分离轨迹预测与动作生成的两阶段框架,有很大效果预防了群舞中的舞者碰撞。
然而,该设计也导致动作与位移衔接生硬,且在生成长序列时有可能会出现抖动、性能直线下降等问题。
为从根本上克服这些缺陷,研究团队最新推出了升级版——TCDiff++,一个从音乐到舞蹈的端到端生成模型。
顾名思义,TCDiff++是一个「轨迹可控」的扩散模型,核心创新在于其两阶段生成流程,专对于群舞的和谐性与真实感设计:
团体舞蹈解码器(Group Dance Decoder):作为第一道工序,它依据输入的音乐,首先生成一套整体协调、且能避免舞者相互碰撞的初始舞蹈动作。
步法适配器(Footwork Adaptor):接着,这个专门的模块会介入,它聚焦于舞者的脚部轨迹,对初始动作进行局部精修,生成扎实的脚步动作,从而有效消除「脚底打滑」的不自然现象。
代码提供的自动化渲染流程,能够获得项目主页中同样的视频结果,对Blender软件初学者友好
最终,系统将优化后的精准步法与协调的团体舞姿无缝融合,直接生成一段步伐稳扎、舞者间无碰撞的和谐群舞序列。
框架图,包含团体舞蹈解码器(Group Dance Decoder)和步法适配器(Footwork Adaptor),团体舞蹈解码器首先生成无轨迹碰撞的初始群舞动作;适配器随后对其脚部轨迹来优化,减轻滑步现象;最终将优化后的步法自然融入初始动作,合成协调稳定、舞步扎实的完整舞蹈序列
给舞者「排位置」:通过引入舞者定位嵌入(Dance Positioning Embedding),为每位舞者编码其在队伍中的左右相对位置,使模型能记住并维持整体队形,避免混乱。
增强角分:新增融合投影模块(Fusion Projection),将舞者特征映射到更高维空间,强化模型对不同舞者动作的辨识能力,减少身份混淆。
融合投影模块,左图是之前投影维度,右图是提出的融合投影模块,增加了输入维度以增强舞者区分度
全局距离约束:通过距离一致性损失函数,在全局层面合理约束舞者间距,确保生成队形既舒展又不会相互碰撞。
引入交换模式(swap mode):在生成初始动作时,将音乐特征与舞者之间特定的空间交换模式共同作为条件,从源头引导模型生成更合理的步法。
优化脚部轨迹:步法适配器对群舞解码器生成的原始动作进行专门优化。它利用脚跟、脚趾的触地状态和身体根骨骼的速度信息,针对性修正下半身运动,生成脚踏实地的步法,最后再与富有表现力的上半身动作融合,形成自然流畅的最终结果。
分段生成,平滑衔接:提出长序列扩散采样策略(Long Group Diffusion Sampling)。模型并非一次生成全部序列,而是以「分段生成、后半段重叠」的自回归方式推进。
在生成新片段时,会利用已生成片段的后半部分作为确定性条件,有效维持长序列中角色位置与动作的连贯性,避免突变。
实验测试表明,相较于现有方法,TCDiff++生成的群舞在个体动作质量和群体协调效果两方面均有显著提升,能够在较长音乐片段上持续产生高度同步、富有表现力且整体和谐的舞蹈表演。
不同模型在群舞指标和单舞者指标上的对比实验,TCDiff++获得多舞者指标最优、单舞者真实性多样性效果卓越
不同模型、不同人数在群舞指标和单舞者指标上的对比实验,TCDiff++定位和身体动作更加一致,从而在团体舞蹈指标中保持持续优势
EDGE(单舞者模型)在群舞场景中严重「水土不服」,因难以区分不同舞者,导致频繁的「脚底打滑」和舞者间碰撞。
CoDancers虽减轻了舞者混淆,却牺牲了整体队形的协调性与舞者间关联,且无法生成精准步法。
TCDiff通过分离坐标与动作的两阶段生成,提升了队形质量,但也导致动作与位置不匹配,影响了个体动作的自然度。
相比之下,TCDiff++凭借其端到端架构与内部模块的协同设计,有效解决了舞者身份混淆问题,确保了定位与身体动作的高度一致,从而在所有团体舞蹈指标上持续领先,并在单人动作的多样性与逼真度上表现卓越。
在延伸至720帧的长序列测试(表3)中,所有模型均出现性能衰退,具体表现为:
EDGE与GCD因缺乏空间信息引导,生成序列中会出现突兀的舞者位置交换。
CoDancers与TCDiff采用的自回归方法各有局限:前者忽略群体特征,导致队形不佳;后者因动作不确定性,误差会随时间累积,最后导致动作与位置严重脱节。
唯有TCDiff++凭借端到端设计,保证了位置与动作的一致性,并有效利用历史生成信息来维持位置稳定,成功实现了最佳的长序列生成效果。
消融实验,所有模块在不同程度上缓解了多名舞者碰撞和脚部滑动,从而使舞蹈动作更加逼真
消融实验的结果也表明当所有模块同时应用时,模型性能最佳。总体而言,所有模块都有助于提升模型在群体指标上的表现,从而证明了它们在增强群体舞蹈和谐性方面的有效性。
此外,团队还基于四项标准(动作真实感、音乐与动作的关联性、队形美感以及舞者的和谐感)做了用户调查研究。根据结果得出TCDiff++获得了更多用户的青睐,展现了在审美吸引力方面的卓越表现。
尽管TCDiff++在群体舞蹈生成上取得了突破,但它仍处于「基础版」阶段,在实用性与交互性上还存在很明显局限:
目前模型仅支持从音乐生成舞蹈这一基础功能,尚未引入文本描述、动作关键帧、舞种风格等多样化控制信号。
这虽然为跨模态生成打下了坚实基础,但在真实落地场景中(如虚拟演唱会或游戏剧情动画),用户往往需要更灵活的操控手段来精准表达创作意图。
研究人员选择优先攻克生成质量与流畅度这一核心难题,将「多模态交互控制」列为下一步突破的重点——这将是实现产品化应用的关键。
这背后既有算法建模处于早期阶段的原因,更受限于现有数据集中「换位动作」样本稀少、缺乏明确标注的客观限制。
随着更丰富的群舞数据与更细致的动作标注出现,结合下一代模型架构的优化,未来系统将能更精准、更自然地呈现队形动态变换之美。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
湖南催收巨头“永雄集团”再降1000万贱卖总部大楼,创始人老家另一幢大楼亦在叫卖;子公司179名员工曾被跨省执法带离
“鳌拜版圣诞老人”走红网络,“本尊”徐锦江多年前曾发文回应,网友:金钩拜,金钩拜,金钩鳌了拜
男子10天内做5次毛发毒检结果有阳有阴,为证清白奔波两年无果;律师:可申请重新鉴定
甲骨文业绩没有到达预期,资本开支比预期多约150亿美元,盘后重挫超10% 财报见闻
冀连梅 哪些孩子需要吃药预防流感?美国儿科学会为什么建议首选奥司他韦作为预防药物?