Guardian: Detecting Robotic Planning and Execution Errors with Vision-Language Models

2026/2/6

来源：arxiv2512

豆师傅摘要

针对当前机器人操纵系统中规划与执行故障频发，但故障数据稀缺、现有检测方法精度低且泛化性差的问题，本文提出自动故障生成方法与 Guardian 视觉语言模型（VLM），实现高精度机器人故障检测与推理。首先，本文设计了一套程序化故障生成流程：通过扰动仿真（RLBench）与真实机器人（BridgeDataV2、UR5）的成功轨迹，生成涵盖规划（错误操作对象、缺失子任务等 5 类）与执行（未闭合夹爪、抓取不准等 5 类）的多样化故障，并自动标注细粒度故障类别与逐步推理轨迹，构建了 RLBench-Fail（14K 执行样本、7K 规划样本）、BridgeDataV2-Fail（10K 执行样本、6K 规划样本）、UR5-Fail（570 执行样本、370 规划样本）三个新基准数据集，填补了故障数据在多样性与场景覆盖上的空白。其次，本文提出 Guardian 模型：基于 InternVL3-8B 架构，采用多视角图像独立编码（避免信息压缩），结合链式推理（CoT）机制，将故障检测转化为视觉问答任务，可同时输出故障二元判断（成功 / 失败）与具体故障类别。模型通过低秩适应（LoRA）微调，冻结视觉编码器以降低计算成本，并设计 Vanilla、Thinking、Dropout 三种推理策略平衡精度与效率。实验表明，Guardian 在域内基准（RLBench-Fail、BridgeDataV2-Fail）上实现 83%-91% 的二元检测精度，超越 Qwen3-VL、GPT4.1 等大模型；在域外基准（RoboFail、UR5-Fail）上零样本泛化精度达 70%-89%，显著优于 AHA、Sentinel 等专用模型。将其集成到 3D-LOTUS++ 操纵系统后，仿真任务成功率提升 3%-8%，真实机器人在扰动场景下成功率提升 20%-80%，验证了其实用价值。本文为机器人故障检测提供了数据与模型双支撑，其自动故障生成方法与多视角推理模型为提升机器人操纵鲁棒性奠定基础。