MEM: Multi-Scale Embodied Memory for Vision Language Action Models
2026/5/7
来源:arxiv2603
下面给你做一个结构化、尽量"论文级"的总结,我会按"问题 → 方法 → 关键设计 → 实验 → 结论"的逻辑来讲,方便你后续复用到精读/项目里。
一、论文核心问题
这篇论文关注的是:
如何让机器人(VLA模型)具备"长时记忆能力",从而完成真实世界的长时序任务?
传统VLA(Vision-Language-Action)模型的问题是:
- 只能看当前观测(或很短历史)
- 或者把历史全塞进Transformer → 计算爆炸 / latency过高
-
无法处理:
- 长任务(10分钟+)
- 部分可观测(被遮挡)
- 多阶段任务(比如做饭、收拾)
论文指出一个关键洞察:
不同时间尺度的记忆,本质上需要不同模态和不同抽象层级
二、核心方法:MEM(Multi-Scale Embodied Memory)
论文提出一个核心框架:
MEM = 多尺度 + 多模态记忆系统
它把记忆拆成两类:
| 记忆类型 | 表达方式 | 作用 |
|---|---|---|
| 短期记忆 | 视频(image sequence) | 处理遮挡、动态、操作细节 |
| 长期记忆 | 语言(text summary) | 记录语义事件、任务进度 |
📌 关键思想:
用视觉处理"细节",用语言压缩"语义"
三、整体架构(非常关键)
论文把策略分成两层:
1️⃣ 高层策略(High-Level Policy)
负责:
- 生成子任务 instruction(比如"拿盘子")
- 更新语言记忆
形式:
[ \pi_{HL}(l_{t+1}, m_{t+1} | o_t, m_t, g) ]
其中:
- ( m_t ):语言记忆(history summary)
- ( l_{t+1} ):下一步子任务
2️⃣ 低层策略(Low-Level Policy)
负责:
- 执行具体动作
形式:
[ \pi_{LL}(a_{t:t+H} | o_{t-K:t}, l_{t+1}, g) ]
特点:
- 只看短期视频记忆
- 不需要长历史
🔥 关键设计总结
用语言 memory 替代长序列 observation
从:
长序列图像 → Transformer(不可扩展)
变成:
短视频 + 长文本总结
这一步是整篇论文最核心的贡献。
四、关键技术细节
4.1 长期记忆:Language Memory
做法
用一句话总结过去发生的事情:
例子(论文原文):
-
mt:
I placed a plate in the cabinet and moved to the counter.
-
mt+1:
I placed a plate… and picked up a bowl.
训练方式(很关键)
不是人工标注,而是:
用 LLM 自动生成"记忆摘要"
输入:
- 子任务序列
- 成功/失败信息
输出:
- 当前应该记住的内容(压缩)
核心设计点
-
主动压缩
- 不记细节(颜色/数量等)
- 只保留"对未来有用的信息"
-
避免分布偏移(非常重要)
- naive做法:拼接所有历史 → 会失败
- MEM:只在成功时更新记忆
4.2 短期记忆:Video Encoder
问题:
多帧图像直接输入Transformer → 太慢
解决方案:
设计一个高效视频编码器
核心结构
基于 ViT,加入:
- 空间 attention(原本就有)
- 时间 attention(新增)
关键技巧:
- 分离时空 attention
- 只保留当前帧 token(压缩历史)
复杂度从:
[ O(n^2 K^2) ]
降到:
[ O(K n^2 + n K^2) ]
关键优点
- 不增加参数量
- 可以用预训练 ViT 初始化
- 支持实时推理(<300ms)
4.3 额外设计
- 状态(proprioception)→ 用 embedding,而不是文本
- 支持多相机输入
- 支持最长 15分钟记忆
五、实验结果(重点看结论)
5.1 长任务能力(最重要)
任务:
- 做饭(recipe setup)
- 清理厨房
结果:
- 无 memory:几乎失败
- MEM:显著提升成功率
结论:
必须同时有短期+长期记忆
5.2 消融实验
| 模型 | 结果 |
|---|---|
| 只有视频 memory | 不会记任务进度 |
| 只有语言 memory | 操作不稳定 |
| naive memory | 分布偏移严重 |
| MEM | 最好 |
5.3 In-context adaptation(很亮点)
任务:
- 拿筷子(失败后调整抓取)
- 开冰箱(方向不确定)
结果:
- 无 memory:重复失败
- 有 memory:会调整策略
提升:
- +11%
- +62%
5.4 与其他 memory 方法对比
对比:
- Pool memory(平均池化)
- Proprio-only
- 无 memory
结论:
MEM 是唯一在所有任务上都稳定的方案
5.5 不影响基础能力
重要结论:
加 memory 不会降低 manipulation 能力
(很多 prior work 会 degrade)
六、核心贡献总结
你可以把这篇论文总结成三句话:
✅ 1. 提出多尺度记忆框架(核心贡献)
长期 → 语言 短期 → 视频
✅ 2. 解决长时序 + 实时推理矛盾
通过:
- 视频压缩
- 语言总结
实现:
分钟级 memory + 毫秒级推理
✅ 3. 解锁新能力
- 长任务(15分钟)
- 部分可观测
- in-context adaptation
七、你可以怎么用这篇论文(结合你背景)
你现在在做:
- VLN / VLA
- memory system
- 多智能体协同
这篇论文对你非常关键的点是:
🔥 1. memory设计范式
你之前说:
想做层次化 memory + 时空记忆
这篇直接给了模板:
- semantic memory → language
- spatial/dynamic → video
🔥 2. 可以迁移到 VLN
VLN里:
- language memory → route history / decision history
- video memory → visual trajectory
🔥 3. multi-agent memory
你项目里的:
共享记忆 + 时空对齐
可以参考:
- language memory = shared global state
- video memory = local observation buffer
八、如果你要更深入
我可以帮你继续做:
- MEM vs Gato / RT-2 / Octo 的对比
- 如何把 MEM 改成 VLN memory
- 或直接帮你写"项目方案/论文思路"
你下一步想往工程实现还是研究抽象走?