Human2LocoMan: Learning Versatile Quadrupedal Manipulation with Human Pretraining

2026/6/12

来源：RSS25

Takeaway Message

Human2LocoMan试图解决四足机器人操作数据昂贵的问题，通过利用大量人类演示数据对操作策略进行预训练，再用少量机器人数据完成适配。作者提出统一的人机数据表示和模块化跨本体 Transformer（MXT），证明即使人类与四足机器人存在巨大的 embodiment gap，人类演示仍然能够显著提升机器人操作能力。其核心贡献不在于新的控制算法，而在于验证了 human-to-quadruped transfer 的可行性。

文章背景

这篇工作关注的是一个近年来越来越重要但又比较尴尬的方向：四足机器人的操作能力。过去几年，四足机器人在运动领域已经取得了巨大进展，无论是复杂地形行走、跑跳还是自主导航，都已经相当成熟。但如果希望机器人真正进入家庭或者办公环境，仅仅会走是不够的，它还需要完成整理物品、搬运物体、使用工具等操作任务。因此很多研究者开始尝试给四足机器人加装机械臂，让它同时具备移动和操作能力。

然而，与运动能力相比，四足机器人的操作能力发展得明显慢得多。其中一个最重要的原因是数据。

如今大部分机器人操作策略都依赖模仿学习，而模仿学习的效果又高度依赖高质量演示数据。对于固定机械臂来说，人们已经建立了很多成熟的数据采集系统，可以通过遥操作快速收集大量演示。但对于像 LocoMan 这样的四足操作机器人，情况就复杂得多。操作者不仅要控制机械臂，还要控制整个身体姿态，采集成本和学习难度都会显著增加。于是作者提出一个很自然的问题：既然机器人数据昂贵，人类数据却相对容易获得，那么能否先利用大量人类演示进行预训练，再利用少量机器人数据完成适配？

这个想法听起来很合理，但真正困难的地方在于，人类和四足机器人之间存在巨大的 embodiment gap，也就是本体差异。过去一些利用人类数据辅助机器人的工作，大多建立在人形机器人或者机械臂与人类结构相似的前提下。而 LocoMan 完全不同。人类是直立结构，两只手长在肩膀两侧；LocoMan 是水平身体结构，操作臂安装在前腿位置；两者的运动学结构、动力学特性、感知方式都差异巨大。因此作者真正要解决的问题并不是如何训练一个 Transformer，而是如何让人类演示能够迁移到一个结构完全不同的四足机器人身上。

文章方法

Human2LocoMan 数据采集与药遥操

为了解决这个问题，作者首先从数据表示入手。他们认为，虽然人和机器人长得不一样，但对于操作任务而言，本质上都在做类似的事情。无论是人还是机器人，都有观察环境的视觉输入，都有表示身体位置的状态信息，都有末端执行器的位置和姿态，也都存在抓取与释放这样的动作。因此，与其去对齐具体关节或者电机，不如把这些更高层次、更具有语义意义的信息统一表示。于是作者设计了一套 XR 数据采集系统，通过 Vision Pro 记录人的动作，同时建立统一坐标系，把人和机器人的数据都映射到同一种表示空间中。这样，人类的头部对应机器人的身体，人的手腕对应机器人的末端执行器，人的抓握动作对应机器人的夹爪动作。作者希望模型学习的不是"人类如何弯曲某个关节"，而是"为了完成任务，末端执行器应该如何相对于身体运动"。

Modularized Cross-embodiment Transformer

完成统一表示之后，第二个问题又出现了。即便人类和机器人被映射到同一种坐标系，它们的数据分布依然差异巨大。机器人有腕部摄像头，人类没有；机器人有自己的动力学限制，人类没有；不同操作模式下，观测和动作维度甚至都会变化。如果简单地把所有信息都送进同一个编码器，模型很容易受到这些差异的干扰。因此作者提出了 MXT，也就是 Modularized Cross-embodiment Transformer。

MXT 的核心思想其实非常简单：共享决策逻辑，但不强行共享感知和动作空间。作者把整个网络拆成三部分。最前面是一组模块化 tokenizer，负责把不同模态的信息转换成 token；最后面是一组模块化 detokenizer，负责把 token 重新转换成具体动作；而中间的 Transformer 主干则在不同本体之间共享。这样做的好处是，人类和机器人虽然拥有不同的感知输入和动作输出，但它们可以共享更高层的决策能力。模型真正学习的是"看到这种场景后应该如何操作"，而不是"这个关节应该转多少度"。

作者进一步把这种模块化思想推向了更细粒度的层面。他们没有把所有图像统一编码，也没有把所有状态统一编码，而是把主摄像头图像、腕部图像、身体位姿、末端位姿、抓取状态等不同信息分别看作独立模态。每种模态都有自己的编码器和解码器。这样模型可以更明确地区分不同信息来源，同时保留各个本体特有的数据分布。作者认为，跨本体迁移真正需要共享的是模态之间的语义关系，而不是强行把所有数据压缩到同一种形式里。

在训练阶段，作者采用了非常直接的两阶段流程。首先利用容易采集的人类演示进行预训练，让模型学会各种操作任务中的通用决策规律。随后再利用少量 LocoMan 数据进行微调，让模型适应真实机器人的感知和控制方式。整个过程本质上就是把机器人操作学习中的"大模型预训练"思想搬到了跨本体模仿学习场景中。

实验验证

实验部分其实更多是在验证这个故事是否成立。作者构建了多个家庭操作任务，包括单臂和双臂玩具收纳、鞋架整理、猫砂铲取以及双手倒水等场景。这些任务覆盖了抓取、推拉、工具使用、双臂协同以及长时序操作等不同能力。结果表明，仅使用少量机器人数据时，模型性能有限；加入人类预训练之后，成功率明显提高，尤其是在未见过的新物体和新场景上提升更加明显。作者还发现，经过人类预训练的模型往往只需要一半左右的机器人数据，就能够达到甚至超过纯机器人训练的效果。这说明模型确实从人类演示中学到了一些可以迁移的操作知识，而不仅仅是在记忆机器人轨迹。

从更大的视角来看，这篇文章最大的价值其实不在于提出了某种特别复杂的新模型，而在于验证了一件以前并不确定的事情：即使在人类和四足机器人之间存在如此巨大的本体差异，人类演示仍然能够对机器人操作学习产生显著帮助。作者通过统一的数据表示和模块化网络结构，证明了这种跨本体迁移是可行的。某种意义上，这篇工作可以看作是把 EgoMimic、Open X-Embodiment 等工作中的跨本体学习思想，进一步推进到了四足操作机器人这一更困难的场景中。对于未来利用海量人类行为数据训练移动操作机器人而言，这是一个相当重要的信号。