万物皆可绑？新AI自动绑定技术

vroidVroid资讯

无论是AI生成还是传统制作，随着3D内容创作飞速发展，业内对于自动化角色绑定工具的需求也越来越大。

目前，传统的手工绑定仍然是动画流程中依赖专业知识且十分耗时的瓶颈环节。尽管骨骼动画长期以来都是3D动画的核心技术之一，但传统的绑定技术通常需要专业知识为基石，并且完成一个模型的绑定通常需要耗费数小时甚至更多的时间。

深度学习的发展，催生了自动绑定方法，大幅加速了这一流程。现有的自动绑定方法大致可以分为两类：基于模板的绑定和无模板的绑定。

然而，前者仅适用于特定的骨架结构，在处理与模板不符的模型时表现较差；后者虽然提供了更大灵活性，但生成结果常常不够稳定，甚至可能生成拓扑结构不合理的骨骼，且运动重定向困难。

另外一类探索无骨骼的网格变形方法，虽然提供了新的可能性，但通常严重依赖已有的动作数据，难以泛化到新动作，且与行业内互留的骨骼动画管线兼容性差。

尽管在不断迭代进步，当前的自动绑定技术仍难以满足日益增长的多样化3D模型绑定需求。于是踩在这个时间点上，一款面向多样化3D模型的绑骨黑科技UniRig，应运而生了。

针对现有的技术局限性，UniRig团队提出了一种全新的，基于自回归模型与骨点交叉注意力机制（Bone-Point Cross Attention）的统一框架，将两个学习模型高效整合为单一流程，用于对各种3D模型进行自动绑定。

UniRig利用自回归模型擅长捕捉序列依赖关系、并能生成结构化输出的强大能力，按“拓扑排序”生成骨骼树，确保结构合理、层次清晰。而这一切得益于团队提出的一种新型骨骼树标记化方法（Skeleton Tree Tokenization），能够高效地将骨架的层级结构编码为一串标记（tokens），明确表达骨骼树中的父子关系，指导模型生成合理输出。

此外，标记化方案还包含弹簧骨、模板骨等特定类型信息，支持运动重定向等下游任务。同时，UniRig还引入了一种骨骼-点交叉注意力机制（Bone-Point Cross Attention），精准预测蒙皮权重，捕捉生成的骨骼与输入网格之间的复杂关系。

为了训练UniRig，团队整理了一个名为Rig-XL的全新大规模数据集，包含超过14,000个具有多样骨架结构和对应蒙皮权重的3D模型；同时利用VRoid数据集（一组动漫风格角色），来进一步优化模型对细节丰富的角色模型的处理能力。

数据集

1.VRoid数据集整理

为了推动精细且富有表现力的骨骼绑定方法发展，特别是针对类人角色模型，团队从VRoidHub中精选了2,061个动漫风格3D模型。

首先根据骨骼数量对VRoidHub上的模型进行了删选，随后通过人工挑选进一步优化数据质量，确保骨骼结构的一致性，剔除骨骼绑定不完整或定义不规范的模型，构建了名为VRoid的高质量数据集。

VRoid数据集中的模型均采用VRW格式（专为虚拟现实应用中的3D虚拟角色设计的标准化文件格式），其标准化的类人骨骼定义与广泛使用的Mixamo骨骼系统兼容；同时支持特殊骨骼类型弹簧骨，通过在VRoid数据集中引入弹簧骨，UniRig模型能够学习生成支持这类动态效果的骨骼绑定方案，从而创造出更生动、更富有表现力的动画效果。

有无弹簧骨骼的模型动画对比：左边使用弹簧骨骼，头发和裙子更加自然流畅；右边未使用，导致整体显得僵硬、不真实。

2. Rig-XL数据集整理

为了训练出一个真正有泛化能力的自动骨骼绑定模型，必须依赖包含丰富骨骼结构和完整蒙皮权重的大规模数据集。为此，团队基于Objaverse-XL数据集，构建了一个全新的Rig-XL数据集。

虽然Objaverse-XL资源丰富，但其主要内容为静态物体，缺乏统一骨骼结构和蒙皮权重信息。为此团队通过经验规则与视觉语言模型VLMs，对数据进行了预处理：仅保留骨骼数量在10,256范围内的3D资产，确保每个资产具有单一、连通的骨骼树，提出了过于简单/复杂的模型以及多物体场景，保证了骨骼结构的完整性；在统一的纹理和光照条件下渲染每个模型，通过计算渲染图像的感知哈希值去重，然后使用ChatGPT-4o为每个模型生成描述性标签，将其分为8类。

在完成人工验证与修正，经过严格预处理后，Rig-XL数据集最终包含14,611个独特的3D模型，每个模型都具有良好的骨骼结构和完整的蒙皮权重。

骨骼数量分布特征

自回归骨骼树生成

给3D模型“装骨骼”是一大挑战，由于关节间存在复杂的相互依赖关系，既要符合模型的几何特征，又要遵循合理的拓扑结构。

与依赖固定模版或在处理多样化拓扑结构时表现不佳的传统方法不同，UniRig提出了一种自回归方法，能够按顺序生成骨骼树，每个关节的生成都是基于之前已经确定的关节位置来实现，既保证骨骼结构的合理性，又能适应各种复杂形状。

骨骼树标记化方法

在使用自回归模型预测骨骼树结构时，核心挑战是如何将骨骼的层级结构转换成适合Transformer模型的序列格式。这需要同时编码每根骨骼的空间坐标和骨骼间的层级关系。最简单的方法是按照深度优先或广度优先顺序简单地链接各骨骼坐标，然而这种方法会导致难以实施结构约束、产生冗余标记以及训练和推理效率低下等问题。

为了解决上述问题，团队提出了一种新颖的骨骼树标记化方法，受到近期3D生成模型进展启发，将标准化后的连续骨骼坐标离散化，并采用特殊标记表示不同类型的骨骼结构；对于非模板骨骼，则使用DFS算法提取线性骨链，标记新分支，确保结构清晰有序。