NaVILA: Legged Robot Vision-Language-Action Model for Navigation

2026/4/8

来源:RSS25


一、论文目标与问题

论文研究 Vision-and-Language Navigation(VLN)在足式机器人上的实现,目标是:

  • 让机器人根据自然语言指令
  • 未知环境、无地图条件下完成导航
  • 并能在复杂真实场景(室内/户外)中运行

核心挑战在于:

将语言指令转化为低层关节控制是困难的


二、核心方法:NaVILA框架

1. 总体结构

NaVILA提出一个两层(two-level)架构

  • 上层:Vision-Language-Action(VLA)模型
  • 下层:视觉驱动的 locomotion policy

整体流程:

  1. 输入:语言指令 + 当前图像 + 历史图像
  2. VLM推理 → 输出"中层动作"(语言形式)
  3. 解析为速度指令
  4. RL控制器执行 → 输出关节控制

该结构如论文Fig.2所示


2. 中层动作(关键设计)

VLM不直接输出控制信号,而是输出:

  • "forward 75 cm"
  • "turn right 30 degrees"

即:

用语言表达带参数的动作,而不是低层控制


3. 方法优势(论文总结)

论文给出三点优势:

(1)解耦控制与推理

  • VLM负责高层决策
  • 控制器负责执行
  • 可跨机器人复用

(2)提升数据利用能力

  • 动作以语言表示
  • 可使用多种数据来源(如视频、QA等)
  • 不依赖低层控制标注

(3)双时间尺度

  • VLM:低频(高计算开销)
  • 控制器:高频(实时执行)

提高系统稳定性与实时性


三、VLM部分(高层模型)

1. 模型基础

基于 VILA(Vision-Language Model)架构,包括:

  • vision encoder
  • projector
  • LLM

处理流程:

  • 图像 → visual tokens
  • 映射到语言空间
  • 与文本一起输入 LLM
  • 自回归生成输出

2. 输入设计(VLN适配)

输入分为两类:

  • 历史帧(memory)
  • 当前帧(current observation)

处理方式:

  • 当前帧单独输入
  • 历史帧采样输入
  • 使用文本提示区分两者角色

3. Navigation Prompt

构造任务提示:

  • 明确历史观测与当前观测
  • 指示模型输出下一步动作
  • 动作类型包括:前进、转向、停止

4. 不使用视频编码器

论文选择:

  • 使用 image-based VLM
  • 而非 video encoder

原因:

  • 图文数据更丰富
  • 泛化能力更强

四、数据与训练

1. 人类视频数据(重要贡献)

数据来源:

  • 2000个YouTube第一视角视频

处理流程:

  1. 轨迹采样(entropy-based sampling)
  2. 位姿估计(MASt3R)
  3. 提取逐步动作
  4. 自动生成语言指令

得到:

  • 连续导航数据(trajectory + instruction)

2. 数据混合策略(SFT data blend)

训练数据包括四类:

  1. 真实视频导航数据
  2. 仿真VLN数据(R2R-CE, RxR-CE)
  3. 辅助导航任务(轨迹描述等)
  4. 通用VQA数据

目的:

  • 提高导航能力
  • 保持通用视觉语言能力

3. 仿真数据处理

  • 使用Habitat生成轨迹
  • 合并连续动作(如多个前进合并)
  • 平衡动作分布(如stop)

4. 训练方式

  • 从VILA预训练模型开始
  • 对整个模型进行SFT
  • 所有模块均参与训练

5. 推理

  • 使用正则表达式解析语言输出
  • 提取动作类型与参数(距离、角度)

五、低层控制(Locomotion Policy)

1. 输入

  • 速度指令(来自VLM)
  • 本体感知(速度、姿态、关节信息等)
  • LiDAR高度图

2. 输出

  • 关节目标位置(12维)

3. 控制方法

  • 使用 PPO 训练
  • actor-critic结构
  • 单阶段训练(无蒸馏)

4. 感知方式

使用 LiDAR:

  • 构建2.5D height map
  • 提供地形信息
  • 对透明物体与强光鲁棒

5. 仿真平台

  • 使用 Isaac Sim / Isaac Lab
  • 支持高吞吐训练(60K FPS)

六、实验结果

1. VLN性能

在 R2R-CE / RxR-CE:

  • success rate 提升约17%

2. 控制性能

  • 单阶段RL优于蒸馏方法

3. 仿真基准

提出:

  • VLN-CE-Isaac benchmark

结果:

  • 成功率提升约14%

4. 多机器人泛化

支持:

  • Unitree Go2
  • Unitree H1
  • Booster T1

5. 真实世界实验

  • 总体成功率:88%
  • 复杂任务:75%

七、论文贡献总结

论文主要贡献包括:


1. 提出两层VLA架构

  • 将高层推理与低层控制解耦
  • 使用语言作为中间动作表示

2. 引入语言化中层动作

  • 用自然语言表达动作(含参数)
  • 替代低层控制输出

3. 利用人类视频训练导航模型

  • 从真实视频中提取连续导航数据
  • 提升现实场景泛化能力

4. 构建新的仿真基准

  • VLN-CE-Isaac
  • 考虑真实机器人控制约束

5. 实现真实机器人部署

  • 在多平台机器人上验证
  • 展示跨平台适应性

八、核心结论

论文证明:

  • 使用语言形式的中层动作,可以有效连接VLM推理与机器人控制
  • 两层结构能够提升泛化能力与系统稳定性
  • 结合真实视频数据,有助于提升连续导航能力