AME-2 Agile and Generalized Legged Locomotion via Attention-Based Neural Map Encoding

2026/6/22

来源：arxiv2601

Takeaway Message

AME-2的核心目标是统一解决足式机器人领域长期存在的一个矛盾：泛化能力强的系统往往不够敏捷，而敏捷性极强的系统又往往依赖特定场景和大量工程调参。作者在AME-1提出的Attention-Based Map Encoding基础上，进一步引入全局地形理解、神经建图和不确定性感知，最终构建出一个覆盖感知、建图、控制和Sim-to-Real部署的完整框架，使机器人同时具备高动态运动能力和跨地形泛化能力。

如果说AME-1关注的是"机器人如何找到下一步该踩哪里"，那么AME-2关注的已经是一个更大的问题：机器人如何在未知环境中理解周围世界，并基于这种理解完成敏捷运动。作者认为，当前足式机器人领域实际上存在两条相对割裂的发展路线。一条路线强调泛化能力，通常依赖Elevation Map等显式地图表示，让机器人能够适应各种未见过的地形；另一条路线强调敏捷性，通常采用端到端视觉控制，通过大量强化学习训练获得跳跃、跑酷等高动态动作。然而前者往往受限于传统建图系统的刷新率和误差，难以支撑激烈运动；后者虽然动作漂亮，却容易过拟合训练环境，在陌生场景中的表现并不稳定。AME-2试图把这两条路线重新融合起来。

技术路线

作者观察到，显式地图其实并不是问题本身。真正的问题在于传统地图系统的表达能力有限。过去的Elevation Map本质上只是一个高度表，它告诉机器人哪里高、哪里低，却无法表达自己对这些信息有多大把握。当机器人面对遮挡、视野缺失或者传感器噪声时，地图中的错误信息往往会直接传递给控制器。因此AME-2首先改造了感知系统。它不再使用传统Elevation Mapping，而是训练一个轻量神经网络直接从深度图预测高度地图，同时输出对应的不确定性估计。这样得到的地图不仅包含地形结构，还包含可信度信息。对于机器人而言，这意味着它不再只是知道"这里是一块石头"，而是同时知道"我有多大把握认为这里是一块石头"。这种不确定性感知能力成为后续决策的重要依据。

在控制器部分，AME-2延续了AME-1最重要的思想——利用Attention替代传统落脚规划器。但作者发现，AME-1的Attention仍然存在一个局限：它主要依赖局部地形特征进行决策，而缺少对整体环境的理解。例如同样是一块凸起区域，在踏脚石场景中它可能是一个理想落脚点，而在连续楼梯场景中它可能只是普通台阶的一部分。如果机器人只能看到局部信息，就很难区分这些情况。因此AME-2引入了全局地形特征。整个地图首先被编码出局部特征和全局特征，然后利用机器人状态和全局特征共同生成Attention Query，再去筛选局部区域的重要性。这样Attention不再只是回答"哪里值得关注"，而是在回答"在当前这种环境下，哪里值得关注"。从本质上说，AME-2让机器人先理解环境，再决定落脚点。

这种设计带来了一个非常有趣的结果。AME-1已经证明Attention会自动聚焦到未来支撑区域，而AME-2进一步发现，不同地形会诱导出完全不同的Attention模式。在楼梯场景中，注意力会沿着台阶方向分布；在踏脚石场景中，注意力会集中到离散支撑面；在复杂障碍物场景中，注意力甚至会提前关注数步之后的关键区域。换句话说，Attention开始表现出一种类似"地形推理"的能力。它不再只是简单地寻找最近的落脚点，而是在利用全局环境信息推断未来运动需求。

为了让这种能力能够真正部署到真实机器人上，作者进一步设计了一套Teacher-Student训练框架。训练初期，Teacher使用仿真中的完美地图学习最优运动策略；随后Student接入真实的神经建图系统，在Teacher监督下学习如何利用带有噪声和不确定性的地图进行决策。这样做的原因非常现实：如果一开始就在强化学习训练环节中加入在线建图，训练速度和显存开销都会大幅增加。Teacher-Student框架使作者既能够获得理想环境下的高质量策略，又能够保证最终部署时使用的感知系统与训练阶段保持一致，从而提高Sim-to-Real迁移效果。

实验部分

从实验设计上也能看出作者的目标已经不仅仅是验证一种新的编码器。他们构建了密集地形、攀爬地形和稀疏地形三大类训练环境，并进一步组合出大量未见测试场景，包括碎石堆、连续攀爬、障碍跑酷和混合地形等复杂任务。更重要的是，同一套训练框架同时应用在ANYmal-D四足机器人和TRON1双足机器人上。作者希望证明的并不是某个特定机器人学会了某种技巧，而是Attention、Neural Mapping和RL组成的整体框架本身具备跨平台泛化能力。

从整个研究脉络来看，AME-2其实标志着ETH在足式机器人方向的一次重要转变。早期工作更多是在研究如何设计更好的控制器；AME-1开始探索Attention是否能够承担部分规划功能；而AME-2则进一步把Attention扩展到整个感知-控制闭环之中。地图不再只是控制器的输入，而成为一个带有语义和不确定性的中间表示；Attention也不再只是一个特征提取模块，而逐渐承担起环境理解和决策推理的职责。某种意义上，这篇工作已经非常接近今天具身基础模型的发展思路：利用统一表示连接感知、推理和控制，而不是依赖大量手工设计的中间模块。

如果要用一句话概括AME-2相对于前作的意义，我认为最准确的描述是：AME-1证明了Attention可以帮助机器人找到落脚点，而AME-2进一步证明了Attention可以成为连接感知、建图和运动控制的核心机制。在这个意义上，AME-2已经不再只是一篇Locomotion论文，而是在尝试回答未来具身智能系统应该如何组织感知与决策的问题。