NaVILA: Legged Robot Vision-Language-Action Model for Navigation
2026/4/8
来源:RSS25
一、论文目标与问题
论文研究 Vision-and-Language Navigation(VLN)在足式机器人上的实现,目标是:
- 让机器人根据自然语言指令
- 在未知环境、无地图条件下完成导航
- 并能在复杂真实场景(室内/户外)中运行
核心挑战在于:
将语言指令转化为低层关节控制是困难的
二、核心方法:NaVILA框架
1. 总体结构
NaVILA提出一个两层(two-level)架构:
- 上层:Vision-Language-Action(VLA)模型
- 下层:视觉驱动的 locomotion policy
整体流程:
- 输入:语言指令 + 当前图像 + 历史图像
- VLM推理 → 输出"中层动作"(语言形式)
- 解析为速度指令
- RL控制器执行 → 输出关节控制
该结构如论文Fig.2所示
2. 中层动作(关键设计)
VLM不直接输出控制信号,而是输出:
- "forward 75 cm"
- "turn right 30 degrees"
即:
用语言表达带参数的动作,而不是低层控制
3. 方法优势(论文总结)
论文给出三点优势:
(1)解耦控制与推理
- VLM负责高层决策
- 控制器负责执行
- 可跨机器人复用
(2)提升数据利用能力
- 动作以语言表示
- 可使用多种数据来源(如视频、QA等)
- 不依赖低层控制标注
(3)双时间尺度
- VLM:低频(高计算开销)
- 控制器:高频(实时执行)
提高系统稳定性与实时性
三、VLM部分(高层模型)
1. 模型基础
基于 VILA(Vision-Language Model)架构,包括:
- vision encoder
- projector
- LLM
处理流程:
- 图像 → visual tokens
- 映射到语言空间
- 与文本一起输入 LLM
- 自回归生成输出
2. 输入设计(VLN适配)
输入分为两类:
- 历史帧(memory)
- 当前帧(current observation)
处理方式:
- 当前帧单独输入
- 历史帧采样输入
- 使用文本提示区分两者角色
3. Navigation Prompt
构造任务提示:
- 明确历史观测与当前观测
- 指示模型输出下一步动作
- 动作类型包括:前进、转向、停止
4. 不使用视频编码器
论文选择:
- 使用 image-based VLM
- 而非 video encoder
原因:
- 图文数据更丰富
- 泛化能力更强
四、数据与训练
1. 人类视频数据(重要贡献)
数据来源:
- 2000个YouTube第一视角视频
处理流程:
- 轨迹采样(entropy-based sampling)
- 位姿估计(MASt3R)
- 提取逐步动作
- 自动生成语言指令
得到:
- 连续导航数据(trajectory + instruction)
2. 数据混合策略(SFT data blend)
训练数据包括四类:
- 真实视频导航数据
- 仿真VLN数据(R2R-CE, RxR-CE)
- 辅助导航任务(轨迹描述等)
- 通用VQA数据
目的:
- 提高导航能力
- 保持通用视觉语言能力
3. 仿真数据处理
- 使用Habitat生成轨迹
- 合并连续动作(如多个前进合并)
- 平衡动作分布(如stop)
4. 训练方式
- 从VILA预训练模型开始
- 对整个模型进行SFT
- 所有模块均参与训练
5. 推理
- 使用正则表达式解析语言输出
- 提取动作类型与参数(距离、角度)
五、低层控制(Locomotion Policy)
1. 输入
- 速度指令(来自VLM)
- 本体感知(速度、姿态、关节信息等)
- LiDAR高度图
2. 输出
- 关节目标位置(12维)
3. 控制方法
- 使用 PPO 训练
- actor-critic结构
- 单阶段训练(无蒸馏)
4. 感知方式
使用 LiDAR:
- 构建2.5D height map
- 提供地形信息
- 对透明物体与强光鲁棒
5. 仿真平台
- 使用 Isaac Sim / Isaac Lab
- 支持高吞吐训练(60K FPS)
六、实验结果
1. VLN性能
在 R2R-CE / RxR-CE:
- success rate 提升约17%
2. 控制性能
- 单阶段RL优于蒸馏方法
3. 仿真基准
提出:
- VLN-CE-Isaac benchmark
结果:
- 成功率提升约14%
4. 多机器人泛化
支持:
- Unitree Go2
- Unitree H1
- Booster T1
5. 真实世界实验
- 总体成功率:88%
- 复杂任务:75%
七、论文贡献总结
论文主要贡献包括:
1. 提出两层VLA架构
- 将高层推理与低层控制解耦
- 使用语言作为中间动作表示
2. 引入语言化中层动作
- 用自然语言表达动作(含参数)
- 替代低层控制输出
3. 利用人类视频训练导航模型
- 从真实视频中提取连续导航数据
- 提升现实场景泛化能力
4. 构建新的仿真基准
- VLN-CE-Isaac
- 考虑真实机器人控制约束
5. 实现真实机器人部署
- 在多平台机器人上验证
- 展示跨平台适应性
八、核心结论
论文证明:
- 使用语言形式的中层动作,可以有效连接VLM推理与机器人控制
- 两层结构能够提升泛化能力与系统稳定性
- 结合真实视频数据,有助于提升连续导航能力