Attention-Based Map Encoding for Learning Generalized Legged Locomotion

2026/6/14

来源:Science Robotics 25

Takeaway Message

这篇工作试图解决一个长期困扰足式机器人领域的问题:模型规划器能精准踩点但不够鲁棒,强化学习足够鲁棒却很难在稀疏落脚地形上做到精准落脚。作者提出一种基于 Attention 的地图编码方式,让机器人自己学会从地形图中寻找未来落脚区域,从而第一次在纯端到端强化学习框架下,同时获得了精准踩点、强鲁棒性和跨地形泛化能力,并成功部署到四足机器人和人形机器人上。

背景

过去几年里,强化学习已经让四足机器人学会奔跑、跳跃、翻越障碍,也让人形机器人获得了越来越强的运动能力。但一个现象始终存在:这些策略在普通崎岖地面上表现很好,一旦进入踏脚石、横梁、木板桥、深坑这类稀疏支撑地形,性能往往迅速下降。原因并不复杂。在普通地形中,机器人只需要保持身体稳定向前移动即可,而在稀疏地形中,每一步落脚位置都至关重要,一个错误落脚就可能导致整次运动失败。强化学习虽然擅长学习鲁棒运动,却很难在巨大的搜索空间中自己发现哪些位置值得踩,因此往往缺乏模型规划器那种精确的落脚能力。与之相反,传统 MPC 和 Footstep Planner 恰恰擅长这件事情。它们会显式计算未来的落脚点,再通过优化器生成运动轨迹,因此能够在踏脚石和窄梁上实现极其精确的移动。然而这种精度来自于大量建模假设:准确地图、准确动力学模型、准确状态估计。一旦出现感知误差、地图漂移、摩擦变化或者地面变形,这些规划结果就可能失效。因此过去几年最好的结果往往来自混合架构:上层规划器负责找落脚点,下层强化学习负责执行。但这类系统复杂、计算开销大,而且仍然受限于规划器本身的能力。作者真正关心的问题是:能否让强化学习自己学会寻找落脚点,从而摆脱规划器?

具体工作

这篇工作的核心洞察来自于对模型规划器的重新理解。作者认为,所谓落脚规划,本质上是在地图中寻找未来最有价值的支撑区域。如果把这个过程看成一次"搜索",那么 Attention 恰好是一种天然适合做搜索的机制。于是作者没有继续设计显式落脚预测器,而是让机器人利用自身状态去主动查询地图中的重要区域。机器人当前的速度、姿态和关节状态被编码成 Query,地图中的每一个地形点则对应 Key 和 Value。通过 Multi-Head Attention,网络会自动判断当前状态下哪些区域最值得关注,并将这些信息压缩成最终的地图表示,再交给策略网络生成动作。整个过程完全端到端训练,没有任何落脚点监督。

最有意思的现象也正是在这里出现的。训练完成后,作者发现网络学到的 Attention 几乎总是落在未来即将接触的支撑区域上。在踏脚石地形中,注意力会集中在下一块石头;在横梁地形中,注意力会沿着横梁分布;在深坑场景中,注意力会聚焦于坑另一侧能够支撑身体的位置。甚至当机器人收到一个并不合理的速度指令时,Attention 也不会盲目执行命令,而是优先保证可达性和稳定性。这意味着网络实际上自发学出了类似 Footstep Planner 的功能,但整个过程没有任何显式规划模块,也没有任何落脚点标签。作者因此获得了一种非常罕见的结果:不仅性能提升了,而且神经网络内部决策过程第一次变得直观可解释。

为了让这种落脚意识真正学出来,作者又设计了一套两阶段训练流程。第一阶段并不追求鲁棒性,而是在理想条件下让机器人先建立对于地形的基本理解。机器人只在有限的基础地形上训练,并使用完美地图和完美状态估计。此时 Attention 的任务很简单:先学会什么地方能够安全落脚。当这种能力形成之后,再进入第二阶段。作者逐渐引入更多复杂地形、感知噪声、地图漂移、外力扰动以及各种随机化因素,让机器人在保持落脚能力的同时学会应对真实世界中的不确定性。实验表明,如果从训练开始就把所有复杂因素全部加入进去,Attention 很难形成稳定的落脚模式,而这种循序渐进的训练方式则显著提高了泛化能力和最终性能。

实验效果

最终得到的策略展现出了非常强的泛化能力。无论是 ANYmal-D 四足机器人还是 GR-1 人形机器人,都能够在大量训练中从未出现过的地形上稳定行走,包括随机踏脚石、窄梁、单柱支撑面以及混合障碍物场景。更重要的是,这些能力不仅存在于仿真中,还直接迁移到了真实机器人。机器人不仅能够精准踩点,还会自然地产生许多恢复动作,例如利用膝盖支撑身体、摆臂维持平衡、滑倒后的快速补步,甚至在人形机器人上出现单脚跳跃换脚等复杂行为。这些动作没有任何人工规则设计,而是通过端到端强化学习自然涌现出来的。

从更大的视角来看,这篇论文真正值得关注的并不是又提出了一个新的 locomotion policy,而是它展示了一种新的思路:Attention 不只是语言模型中的信息选择机制,也可以成为机器人进行空间推理和落脚规划的核心工具。过去由 Footstep Planner 完成的事情,如今开始由 Attention 隐式完成;过去由显式优化器负责的决策,如今开始通过学习获得。这种从"规划器"向"Attention"迁移的趋势,实际上已经与当前 VLA、VLM 和具身基础模型的发展方向高度一致。