2026/4/8

来源：RSS25

一、论文目标与问题

论文研究 Vision-and-Language Navigation（VLN）在足式机器人上的实现，目标是：

让机器人根据自然语言指令
在未知环境、无地图条件下完成导航
并能在复杂真实场景（室内/户外）中运行

核心挑战在于：

将语言指令转化为低层关节控制是困难的

二、核心方法：NaVILA框架

1. 总体结构

NaVILA提出一个两层（two-level）架构：

上层：Vision-Language-Action（VLA）模型
下层：视觉驱动的 locomotion policy

整体流程：

输入：语言指令 + 当前图像 + 历史图像
VLM推理 → 输出"中层动作"（语言形式）
解析为速度指令
RL控制器执行 → 输出关节控制

该结构如论文Fig.2所示

2. 中层动作（关键设计）

VLM不直接输出控制信号，而是输出：

"forward 75 cm"
"turn right 30 degrees"

即：

用语言表达带参数的动作，而不是低层控制

3. 方法优势（论文总结）

论文给出三点优势：

（1）解耦控制与推理

VLM负责高层决策
控制器负责执行
可跨机器人复用

（2）提升数据利用能力

动作以语言表示
可使用多种数据来源（如视频、QA等）
不依赖低层控制标注

（3）双时间尺度

VLM：低频（高计算开销）
控制器：高频（实时执行）

提高系统稳定性与实时性

三、VLM部分（高层模型）

1. 模型基础

基于 VILA（Vision-Language Model）架构，包括：

vision encoder
projector
LLM

处理流程：

图像 → visual tokens
映射到语言空间
与文本一起输入 LLM
自回归生成输出

2. 输入设计（VLN适配）

输入分为两类：

历史帧（memory）
当前帧（current observation）

处理方式：

当前帧单独输入
历史帧采样输入
使用文本提示区分两者角色

构造任务提示：

明确历史观测与当前观测
指示模型输出下一步动作
动作类型包括：前进、转向、停止

4. 不使用视频编码器

论文选择：

使用 image-based VLM
而非 video encoder

原因：

图文数据更丰富
泛化能力更强

四、数据与训练

1. 人类视频数据（重要贡献）

数据来源：

2000个YouTube第一视角视频

处理流程：

轨迹采样（entropy-based sampling）
位姿估计（MASt3R）
提取逐步动作
自动生成语言指令

得到：

连续导航数据（trajectory + instruction）

2. 数据混合策略（SFT data blend）

训练数据包括四类：

真实视频导航数据
仿真VLN数据（R2R-CE, RxR-CE）
辅助导航任务（轨迹描述等）
通用VQA数据

目的：

提高导航能力
保持通用视觉语言能力

3. 仿真数据处理

使用Habitat生成轨迹
合并连续动作（如多个前进合并）
平衡动作分布（如stop）

4. 训练方式

从VILA预训练模型开始
对整个模型进行SFT
所有模块均参与训练

5. 推理

使用正则表达式解析语言输出
提取动作类型与参数（距离、角度）

五、低层控制（Locomotion Policy）

1. 输入

速度指令（来自VLM）
本体感知（速度、姿态、关节信息等）
LiDAR高度图

2. 输出

关节目标位置（12维）

3. 控制方法

使用 PPO 训练
actor-critic结构
单阶段训练（无蒸馏）

4. 感知方式

使用 LiDAR：

构建2.5D height map
提供地形信息
对透明物体与强光鲁棒

5. 仿真平台

使用 Isaac Sim / Isaac Lab
支持高吞吐训练（60K FPS）

六、实验结果

1. VLN性能

在 R2R-CE / RxR-CE：

success rate 提升约17%

2. 控制性能

单阶段RL优于蒸馏方法

3. 仿真基准

提出：

VLN-CE-Isaac benchmark

结果：

成功率提升约14%

4. 多机器人泛化

支持：

Unitree Go2
Unitree H1
Booster T1

5. 真实世界实验

总体成功率：88%
复杂任务：75%

七、论文贡献总结

论文主要贡献包括：

1. 提出两层VLA架构

将高层推理与低层控制解耦
使用语言作为中间动作表示

2. 引入语言化中层动作

用自然语言表达动作（含参数）
替代低层控制输出

3. 利用人类视频训练导航模型

从真实视频中提取连续导航数据
提升现实场景泛化能力

4. 构建新的仿真基准

VLN-CE-Isaac
考虑真实机器人控制约束

5. 实现真实机器人部署

在多平台机器人上验证
展示跨平台适应性

八、核心结论

论文证明：

使用语言形式的中层动作，可以有效连接VLM推理与机器人控制
两层结构能够提升泛化能力与系统稳定性
结合真实视频数据，有助于提升连续导航能力

NaVILA: Legged Robot Vision-Language-Action Model for Navigation