Attention-Based Map Encoding for Learning Generalized Legged Locomotion

2026/6/14

来源：Science Robotics 25

Takeaway Message

这篇工作试图解决一个长期困扰足式机器人领域的问题：模型规划器能精准踩点但不够鲁棒，强化学习足够鲁棒却很难在稀疏落脚地形上做到精准落脚。作者提出一种基于 Attention 的地图编码方式，让机器人自己学会从地形图中寻找未来落脚区域，从而第一次在纯端到端强化学习框架下，同时获得了精准踩点、强鲁棒性和跨地形泛化能力，并成功部署到四足机器人和人形机器人上。

背景

过去几年里，强化学习已经让四足机器人学会奔跑、跳跃、翻越障碍，也让人形机器人获得了越来越强的运动能力。但一个现象始终存在：这些策略在普通崎岖地面上表现很好，一旦进入踏脚石、横梁、木板桥、深坑这类稀疏支撑地形，性能往往迅速下降。原因并不复杂。在普通地形中，机器人只需要保持身体稳定向前移动即可，而在稀疏地形中，每一步落脚位置都至关重要，一个错误落脚就可能导致整次运动失败。强化学习虽然擅长学习鲁棒运动，却很难在巨大的搜索空间中自己发现哪些位置值得踩，因此往往缺乏模型规划器那种精确的落脚能力。与之相反，传统 MPC 和 Footstep Planner 恰恰擅长这件事情。它们会显式计算未来的落脚点，再通过优化器生成运动轨迹，因此能够在踏脚石和窄梁上实现极其精确的移动。然而这种精度来自于大量建模假设：准确地图、准确动力学模型、准确状态估计。一旦出现感知误差、地图漂移、摩擦变化或者地面变形，这些规划结果就可能失效。因此过去几年最好的结果往往来自混合架构：上层规划器负责找落脚点，下层强化学习负责执行。但这类系统复杂、计算开销大，而且仍然受限于规划器本身的能力。作者真正关心的问题是：能否让强化学习自己学会寻找落脚点，从而摆脱规划器？

具体工作

这篇工作的核心洞察来自于对模型规划器的重新理解。作者认为，所谓落脚规划，本质上是在地图中寻找未来最有价值的支撑区域。如果把这个过程看成一次"搜索"，那么 Attention 恰好是一种天然适合做搜索的机制。于是作者没有继续设计显式落脚预测器，而是让机器人利用自身状态去主动查询地图中的重要区域。机器人当前的速度、姿态和关节状态被编码成 Query，地图中的每一个地形点则对应 Key 和 Value。通过 Multi-Head Attention，网络会自动判断当前状态下哪些区域最值得关注，并将这些信息压缩成最终的地图表示，再交给策略网络生成动作。整个过程完全端到端训练，没有任何落脚点监督。

最有意思的现象也正是在这里出现的。训练完成后，作者发现网络学到的 Attention 几乎总是落在未来即将接触的支撑区域上。在踏脚石地形中，注意力会集中在下一块石头；在横梁地形中，注意力会沿着横梁分布；在深坑场景中，注意力会聚焦于坑另一侧能够支撑身体的位置。甚至当机器人收到一个并不合理的速度指令时，Attention 也不会盲目执行命令，而是优先保证可达性和稳定性。这意味着网络实际上自发学出了类似 Footstep Planner 的功能，但整个过程没有任何显式规划模块，也没有任何落脚点标签。作者因此获得了一种非常罕见的结果：不仅性能提升了，而且神经网络内部决策过程第一次变得直观可解释。

为了让这种落脚意识真正学出来，作者又设计了一套两阶段训练流程。第一阶段并不追求鲁棒性，而是在理想条件下让机器人先建立对于地形的基本理解。机器人只在有限的基础地形上训练，并使用完美地图和完美状态估计。此时 Attention 的任务很简单：先学会什么地方能够安全落脚。当这种能力形成之后，再进入第二阶段。作者逐渐引入更多复杂地形、感知噪声、地图漂移、外力扰动以及各种随机化因素，让机器人在保持落脚能力的同时学会应对真实世界中的不确定性。实验表明，如果从训练开始就把所有复杂因素全部加入进去，Attention 很难形成稳定的落脚模式，而这种循序渐进的训练方式则显著提高了泛化能力和最终性能。

实验效果

最终得到的策略展现出了非常强的泛化能力。无论是 ANYmal-D 四足机器人还是 GR-1 人形机器人，都能够在大量训练中从未出现过的地形上稳定行走，包括随机踏脚石、窄梁、单柱支撑面以及混合障碍物场景。更重要的是，这些能力不仅存在于仿真中，还直接迁移到了真实机器人。机器人不仅能够精准踩点，还会自然地产生许多恢复动作，例如利用膝盖支撑身体、摆臂维持平衡、滑倒后的快速补步，甚至在人形机器人上出现单脚跳跃换脚等复杂行为。这些动作没有任何人工规则设计，而是通过端到端强化学习自然涌现出来的。

从更大的视角来看，这篇论文真正值得关注的并不是又提出了一个新的 locomotion policy，而是它展示了一种新的思路：Attention 不只是语言模型中的信息选择机制，也可以成为机器人进行空间推理和落脚规划的核心工具。过去由 Footstep Planner 完成的事情，如今开始由 Attention 隐式完成；过去由显式优化器负责的决策，如今开始通过学习获得。这种从"规划器"向"Attention"迁移的趋势，实际上已经与当前 VLA、VLM 和具身基础模型的发展方向高度一致。