Legged Locomotion in Challenging Terrains using Egocentric Vision

2026/6/10

来源：CoRL22

Takeaway

它真正证明的不是"机器人能爬楼梯"，而是"复杂地形运动控制并不一定需要显式地图和落脚点规划，短时记忆驱动的端到端视觉策略本身就足以完成这项任务"。这也是后来视觉运动控制路线能够逐渐兴起的重要起点之一。

背景

这篇 CoRL 2022 的工作，表面上是在讲"用前视深度相机爬楼梯"，但实际上作者真正想挑战的是当时四足机器人视觉运动控制领域的主流范式。

在这篇文章之前，几乎所有视觉四足机器人都遵循同一个框架：先感知，再建图，再规划，最后控制。机器人首先通过深度相机或者激光雷达构建 elevation map，然后在地图上寻找可行落脚点，再规划足端轨迹，最后交给 MPC 或控制器执行。这种方法的优点是模块清晰，但作者认为它存在一个根本问题：高程图本身不是直接观测，而是许多历史深度图经过位姿对齐后融合出来的结果。要完成这种融合，必须知道每一帧相机之间的相对位姿，因此系统不可避免地依赖 VIO、SLAM 或惯导里程计。一旦位姿估计出现漂移，误差会逐层向下传递，最终表现为错误落脚甚至摔倒。作者认为，人类行走时并不会先构建一个精确的局部三维地图，再计算脚应该踩在哪里，因此这种范式既脆弱，也不符合生物学启发。

因此作者提出一个非常激进的问题：能不能完全不要 elevation map，也不要 foothold planner，而是直接从第一视角深度图预测关节动作？

如果今天来看这个问题似乎比较自然，但在 2022 年其实非常大胆。因为四足机器人控制和自动驾驶不同，自动驾驶允许几十厘米甚至一两米的位置误差，而踩石头、跨沟壑要求厘米级甚至更高精度。很多研究者认为中间必须有显式地图，否则网络无法知道脚应该放在哪里。作者就是在挑战这个认知。

具体方法相关

论文中一个很重要的观察来自人类行走研究。人走楼梯的时候其实不会一直盯着自己的脚看，而是提前看未来几步的地面，然后依靠短时记忆完成之后的落脚。当后脚真正踩到某一级台阶时，那一级台阶早已离开视野。因此，视觉不仅仅是当前观测的问题，而是一个记忆问题。作者认为，如果机器人也采用前视相机，那么它必须具备类似能力，即记住几秒钟之前看到过的地形。正因为如此，整篇论文最关键的结构其实不是深度相机，而是 GRU。作者认为没有记忆，单帧视觉是不足以解决问题的。

接下来作者遇到一个工程问题。理论上最直接的方案是让 PPO 直接以深度图作为输入训练策略网络，但这在计算上几乎不可行。Isaac Gym 虽然很快，但深度图渲染仍然比普通物理仿真昂贵一个数量级。如果要训练数十亿步强化学习，渲染成本会成为瓶颈。因此作者提出了整篇论文最巧妙的设计——两阶段训练。

第一阶段根本不用深度图，而是使用所谓的 Scandots。Scandots 本质上是在机器人周围预定义一些采样点，直接读取这些位置的地面高度值。这些高度值能够很好地描述局部地形，但计算成本极低。于是作者先利用这些几乎免费的地形信息训练一个 PPO Teacher。这个 Teacher 实际上拥有接近"上帝视角"的地形感知能力，因此能够较快学会复杂地形运动。

第二阶段再引入真实深度图。此时不再做强化学习，而是固定 Teacher，让 Student 学习模仿 Teacher 输出的动作。由于监督学习的样本效率远高于强化学习，因此可以接受深度图带来的额外计算开销。最终部署时保留的只有 Student，Teacher 和 Scandots 都被丢弃。作者甚至从理论上证明，只要 Student 能够较好逼近 Teacher，而 Teacher 又接近最优策略，那么 Student 的性能也会接近最优。这部分理论推导实际上是在回答一个潜在质疑：如果 Teacher 能看到 Scandots，而 Student 只能看深度图，会不会出现信息缺失导致性能无法继承的问题。

在网络结构上，作者比较了两条路线。一条是 Monolithic，也就是把视觉、状态、控制全部塞进一个 GRU 里，直接输出关节目标角度。另一条则是建立在 RMA （Rapid Motor Adaptation，来源于RSS21）之上的结构。对于熟悉 RMA 的人来说很容易理解：RMA 本质上把控制器和环境表征分离。这里作者让视觉网络去估计 terrain latent γ_t，让另一条网络估计 environment latent z_t，然后把这两个 latent 连同本体状态一起送给控制器。Monolithic 更简单，但所有知识都隐含在网络内部；RMA 的优点是可以观察和替换 latent 表征，例如未来把深度图换成 RGB，或者把视觉 latent 换成其他传感器产生的 latent。

另一个非常有意思的点是，作者完全放弃了 gait prior。今天很多工作都会预先指定 trot、pace 或其他参考步态，但作者认为对于 A1 这种小型机器人，这些先验反而会成为限制。因为 A1 的髋关节高度只有 28cm，却需要爬接近 25cm 的台阶。对于这么小的机器人而言，标准 trot 动作根本无法把腿抬到足够高的位置。结果强化学习自动学出了一种大幅度 hip abduction 动作，也就是先向侧面绕开，再向上抬腿。这个动作并不是人工设计的，而是在奖励函数中自然涌现出来的。作者把它作为一个重要发现，因为这说明取消步态先验后，策略有可能发现人类没有明确设计过的新型运动模式。

实验结果

实验结果里最值得关注的不是楼梯，而是 stepping stones 和 gaps。因为楼梯在某种程度上还能依靠触觉和碰撞反馈慢慢摸索，而踩石头和跨沟壑则必须知道目标在哪里。作者设计了 Blind baseline，即完全没有视觉输入，只依赖本体感觉。结果在 stepping stones 上几乎走不了几步就掉下去，而视觉策略能够稳定走十几米甚至二十米左右。在真实机器人实验中，Blind baseline 在 gaps 和 stepping stones 上成功率为零，而视觉策略接近百分之百。这实际上证明了视觉信息不是提升性能，而是在某些任务中是完成任务的必要条件。