202604 Working Progress

By 2026/4/5

验证模块的设计思路(持续迭代中):

  • 设计的宏观思路:
    • 流程层面示意图如下:
    • 模块层面示意图如下:
    • 按照独立模块 + 嵌入验证的方法组织整体的验证模块。对于流程中的重要环节(任执行闭环、任务规划闭环),应设计专门的模块负责验证。该模块主要包括一些抽象类,对验证输入输出、验证行为等进行一定抽象(在应用中,实例化该模块的具体实现并挂载到agent上,在流程关键环节调用该实例并做控制)。对于流程中的关键步骤,应在对应模块的实现中增加含有验证的版本,早发现早治疗。
    • 可以按照大流程 + 小环节的思路考虑验证对象
      • 在大流程(OODA)方面,需要关注两个层次的验证:① OODA的闭环情况(Action->同循环的Observe),验证当前的能满足本轮循环一开始的观察直到决策层面的目标(即验证行为是否满足需求);② OOD的(Observe->Orient->Decision),验证基于当前的观察与系统状态,agent指定的plan是否合理(即验证规划)。
      • 在小环节方面,框架中各个模块可以内置具体的、带有验证的实现。例如,在agent做reasoning的时候,可以设控制条件(如果是关键步骤)的同源twice-thinking机制,提高agent对即将采取的行为的把握程度;又如,在做memretrieval的时候,也可以设计对memory内容的反思 + double-retrieval之类的机制,减少hallucination的情况如,可以修改action模块,对action的结果做一步验证,确保action已按照self-claimed的结果完成。即验证关键步是否正确
    • 模块输入输出:模块输入基本对齐至待验证环节/模块的输入,包括总体任务规划、当前任务步骤、当前环境信息与本体状态、输入图像、来自记忆的上下文等;此外,还可设法由历史执行结果中获取一定验证经验,用于指导当前步骤的验证。输出为对于任务执行/规划的状态评价(文本信息)或实际流程控制信号(tool calling等,终止或重复当前步骤)。
  • 具体的设计原则:
    • 分层验证,即上述"独立模块+嵌入验证"的思路;
    • 分级验证,对于不同重要程度的模块按照不同的力度来验证,实现验证(执行正确性)与执行效率的权衡;
  • 可采取的设计选项:
    • 自我反思 + 第三方验证的验证形式;
      • 在基本的react迭代循环中引入reflection环节,让LLM/VLM自己反思循环中的问题;
      • 在流程中某些关键位置引入基于其他模型的复核机制,避免self-claim;
    • 离线 + 在线结合的验证形式;
      • 离线:offline policy learning, prompt engineering, etc.
      • 在线:通过流程编排动态判断规划、执行等情况,并进行流程控制;
    • 基于推理 + 基于证据 并存的验证形式;
      • 基于推理:根据LLM/VLM reasoning的方式进行验证;
      • 基于证据:将执行中的artifacts作为依据,用以增强LLM推理,提高可信度;