万物皆可绑?新AI自动绑定技术
无论是AI生成还是传统制作,随着3D内容创作飞速发展,业内对于自动化角色绑定工具的需求也越来越大。目前,传统的手工绑定仍然是动画流程中依赖专业知识且十分耗时的瓶颈环节。尽管骨骼动画长期以来都是3D动画的核心技术之一,但传统的绑定技术通常需要专业知识为基石,并且完成一个模型的绑定通常需要耗费数小时甚至更多的时间。深度学习的发展,催生了自动绑定方法,大幅加速了这一流程。现有的自动绑定方法大致可以分为两类:基于模板的绑定和无模板的绑定。然而,前者仅适用于特定的骨架结构,在处理与模板不符的模型时表现较差;后者虽然提供了更大灵活性,但生成结果常常不够稳定,甚至可能生成拓扑结构不合理的骨骼,且运动重定向困难。另外一类探索无骨骼的网格变形方法,虽然提供了新的可能性,但通常严重依赖已有的动作数据,难以泛化到新动作,且与行业内互留的骨骼动画管线兼容性差。尽管在不断迭代进步,当前的自动绑定技术仍难以满足日益增长的多样化3D模型绑定需求。于是踩在这个时间点上,一款面向多样化3D模型的绑骨黑科技UniRig,应运而生了。针对现有的技术局限性,UniRig团队提出了一种全新的,基于自回归模型与骨点交叉注意力机制(Bone-Point Cross Attention)的统一框架,将两个学习模型高效整合为单一流程,用于对各种3D模型进行自动绑定。UniRig利用自回归模型擅长捕捉序列依赖关系、并能生成结构化输出的强大能力,按“拓扑排序”生成骨骼树,确保结构合理、层次清晰。而这一切得益于团队提出的一种新型骨骼树标记化方法(Skeleton Tree Tokenization),能够高效地将骨架的层级结构编码为一串标记(tokens),明确表达骨骼树中的父子关系,指导模型生成合理输出。
此外,标记化方案还包含弹簧骨、模板骨等特定类型信息,支持运动重定向等下游任务。同时,UniRig还引入了一种骨骼-点交叉注意力机制(Bone-Point Cross Attention),精准预测蒙皮权重,捕捉生成的骨骼与输入网格之间的复杂关系。

为了训练UniRig,团队整理了一个名为Rig-XL的全新大规模数据集,包含超过14,000个具有多样骨架结构和对应蒙皮权重的3D模型;同时利用VRoid数据集(一组动漫风格角色),来进一步优化模型对细节丰富的角色模型的处理能力。
1.VRoid数据集整理
为了推动精细且富有表现力的骨骼绑定方法发展,特别是针对类人角色模型,团队从VRoidHub中精选了2,061个动漫风格3D模型。
首先根据骨骼数量对VRoidHub上的模型进行了删选,随后通过人工挑选进一步优化数据质量,确保骨骼结构的一致性,剔除骨骼绑定不完整或定义不规范的模型,构建了名为VRoid的高质量数据集。
VRoid数据集中的模型均采用VRW格式(专为虚拟现实应用中的3D虚拟角色设计的标准化文件格式),其标准化的类人骨骼定义与广泛使用的Mixamo骨骼系统兼容;同时支持特殊骨骼类型弹簧骨,通过在VRoid数据集中引入弹簧骨,UniRig模型能够学习生成支持这类动态效果的骨骼绑定方案,从而创造出更生动、更富有表现力的动画效果。
有无弹簧骨骼的模型动画对比:左边使用弹簧骨骼,头发和裙子更加自然流畅;右边未使用,导致整体显得僵硬、不真实。
2. Rig-XL数据集整理
为了训练出一个真正有泛化能力的自动骨骼绑定模型,必须依赖包含丰富骨骼结构和完整蒙皮权重的大规模数据集。为此,团队基于Objaverse-XL数据集,构建了一个全新的Rig-XL数据集。
虽然Objaverse-XL资源丰富,但其主要内容为静态物体,缺乏统一骨骼结构和蒙皮权重信息。为此团队通过经验规则与视觉语言模型VLMs,对数据进行了预处理:仅保留骨骼数量在10,256范围内的3D资产,确保每个资产具有单一、连通的骨骼树,提出了过于简单/复杂的模型以及多物体场景,保证了骨骼结构的完整性;在统一的纹理和光照条件下渲染每个模型,通过计算渲染图像的感知哈希值去重,然后使用ChatGPT-4o为每个模型生成描述性标签,将其分为8类。
在完成人工验证与修正,经过严格预处理后,Rig-XL数据集最终包含14,611个独特的3D模型,每个模型都具有良好的骨骼结构和完整的蒙皮权重。
骨骼数量分布特征
给3D模型“装骨骼”是一大挑战,由于关节间存在复杂的相互依赖关系,既要符合模型的几何特征,又要遵循合理的拓扑结构。与依赖固定模版或在处理多样化拓扑结构时表现不佳的传统方法不同,UniRig提出了一种自回归方法,能够按顺序生成骨骼树,每个关节的生成都是基于之前已经确定的关节位置来实现,既保证骨骼结构的合理性,又能适应各种复杂形状。在使用自回归模型预测骨骼树结构时,核心挑战是如何将骨骼的层级结构转换成适合Transformer模型的序列格式。这需要同时编码每根骨骼的空间坐标和骨骼间的层级关系。最简单的方法是按照深度优先或广度优先顺序简单地链接各骨骼坐标,然而这种方法会导致难以实施结构约束、产生冗余标记以及训练和推理效率低下等问题。为了解决上述问题,团队提出了一种新颖的骨骼树标记化方法,受到近期3D生成模型进展启发,将标准化后的连续骨骼坐标离散化,并采用特殊标记表示不同类型的骨骼结构;对于非模板骨骼,则使用DFS算法提取线性骨链,标记新分支,确保结构清晰有序。在完成骨骼树预测后,下一步就是要重点解决蒙皮权重(skinning weights)与骨骼属性(bone attributes)的预测问题。为此,团队提出了一种创新的预测框架,利用骨点交叉注意力机制,高效地建模预测骨骼与输入网格之间的复杂关系。基于预训练的Point Transformer V3提取网格特征,通过骨点交叉注意力机制建模顶点-骨骼关联。创新性地引入:1.骨骼等效训练策略:随机冻结骨骼子集并标准化损失权重,解决稀疏区域训练不平衡问题。2.物理模拟监督:通过Verlet积分模拟弹簧骨骼动力学,以运动重建损失优化权重预测。
实验表明,这一方法能够高效、准确地预测大规模皮肤权重矩阵,并生成符合物理规律的动画效果,尤其提升了如头发、手指等稀疏影响区域的表现。
1.人工辅助自动绑定
相比以往的自动绑定技术,UniRig的核心优势在于支持人机交互式调整。用户可以直接编辑预测生成的骨骼树,出发局部重新生成,快速修正错误或定制化需求。
编辑后的骨骼树可重新输入UniRig流程,生成优化后的绑定方案。
用户可以添加新分支或删除冗余结构
得益于在VRoid和Rig-XL数据集上训练的弹簧骨参数预测能力,UniRig尤其适合用于创建动画角色。可以从简单的网格输入中生成兼容VRM格式的模型,让用户能够轻松地将创作导出到Unity、UE等主流动画平台;弹簧骨物理系统可生成流畅自然的运动效果,特别适合于需要表情与肢体同步的应用场景。UniRig作为基于统一学习框架的3D模型自动绑定系统,在骨骼预测和蒙皮权重预测方面取得了最先进成果;依托于两大数据集,训练出的模型能够处理各种对象类别和骨骼结构。尽管UniRig具有诸多优势,但仍存在一定的局限性。与其他基于学习的方法一样,UniRig本质上依赖于训练数据的质量和多样性。因此,当遇到与训练数据差异显著的对象时,UniRig的表现可能会受到影响。未来团队可能会探索使用不同模态作为绑定过程的输入,或引入更复杂的物理模拟技术增强生成动画的真实性。这么看来还是挺值得期待的。好了,今天的分享到这里就告一段落,想要了解更多的小伙伴可以点击阅读原文,查看完整论文内容,咱们下期再见啦
~