全部版块 我的主页
论坛 数据科学与人工智能 人工智能
668 9
2025-10-29

摘要(Executive Summary)

记忆是智能的基石,它使智能体能够从过去学习、理解当下并规划未来。对于基于大型语言模型(LLM)的智能体而言,记忆系统正经历从简单上下文窗口到结构化、多层次、可治理体系的快速演化。本报告对智能体记忆的算法机制、记忆在系统层面的组成、可靠性挑战以及工程化前沿进行了系统综述。

首先,我们分析智能体如何利用记忆,从来源(内部经验、外部知识)、形式(文本化、参数化)以及心理学类比(工作记忆、情景记忆、语义记忆)三个维度建立分类,并深入探讨了从单智能体到多智能体(MAS)架构的演进,包括共享记忆池、黑板系统与层级记忆。

其次,本文强化了对记忆可靠性问题的剖析:幻觉、灾难性遗忘、记忆一致性缺失以及错误传播。这些问题不仅源自LLM的内部机制,还与智能体环境交互的动态特性、分布式信息同步与记忆治理不完善密切相关。文中列举了多项2025年实证研究,包括HEAL实验揭示的幻觉诱发率、Helmi模型化的多智能体一致性偏差、以及Xiong等对错误自强化的量化研究。

最后,本文总结了提升记忆可靠性的前沿方向:结构化与层级化记忆体系、基于验证与冲突解决的记忆治理、面向终身学习的持续学习机制,以及记忆可靠性评测基准的建立。其最终目标是构建可长期自主运行、可靠且可信赖的智能体系统。

1. 算法机制:智能体如何使用记忆

人类活动和记忆能力紧密相关,无论是长期还是短期记忆都对任务的成功起到至关重要的作用,AI智能体作为仿生技术,其任务能力与记忆系统同样联系紧密。和单纯的LLM推理不同,智能体(Agent)正在向工具化,长时程对话、自主决策与协同执行演进。此过程中,记忆系统不再是单一的上下文缓存,而是承担知识沉积、经验复用、语境对齐与协同协调的多重职责。与此同时,可靠性问题随之放大:由不充分或失配的检索造成的“虚构记忆”、由参数更新引起的“遗忘”、由分布式并发导致的“去同步”与“冲突”,都会沿着长链路任务与多体协作被放大并形成系统性失稳。为此,本文聚焦以下研究问题(RQ):

RQ1:LLM 智能体如何在不同知识来源与表征形式下组织与使用记忆?

RQ2:LLM智能体的记忆和传统计算系统内存系统有什么异同?

RQ3:影响记忆可靠性的失效模式及根因为何?是否可被工程化检验与缓解?

RQ4:面向真实部署,如何设计一套可操作的记忆治理层与评测体系?现代LLM智能体采用了多种记忆机制,可从心理学类比、信息来源和实现形式等维度加以区分。

1.1 认知心理启发的记忆类型

人类大脑的记忆系统是一个支持感知-动态加工-整合-再激活的复杂体系,主要包括了海马体,前额叶, 皮层组织。分别负责从将感知记忆转化为长期记忆的每一个步骤。为了让人工智能体更接近人类认知模型,研究者常将记忆系统划分为三种类型:

(1)工作记忆(Working Memory)是短期、易变的记忆,用于在任务执行中保持和处理信息。在LLM智能体中,这通常表现为上下文窗口(context window),包含近期的对话轮次、任务观察和当前指令。HiAgent(ACL 2025)通过“子目标分块(subgoal chunking)”的方式组织工作记忆,使长任务的处理更加高效并减少冗余,从而显著提升任务成功率。

(2)情景记忆(Episodic Memory)记录特定事件的过程与结果,例如“何时、何地、发生了什么”。在智能体中,这对应于跨任务的交互记录或实验轨迹。例如,Reflexion框架通过将以往任务的成功与失败经验以文字形式存储,让智能体在下一次尝试时能够反思和自我修正。

(3)语义记忆(Semantic Memory)对世界的一般性知识和概念的结构化理解,与个体经验无关。在智能体系统中,这类记忆常通过外部知识库实现,如ReAct框架能够动态调用维基百科等外部知识来增强推理。类似地,MemGPT(2023–2025)引入“虚拟内存(virtual memory)”概念,将语义记忆和工作记忆分层统一管理。

1.2 智能体记忆的来源与形式

AI Agent的运作方式多种多样,因此记忆存储有不同的来源,我们大概分成以下三大类:

试次内信息(Inside-trial):当前任务中的即时数据,是工作记忆的核心。 跨试次信息(Across-trial):多次交互中的经验累积,构成情景记忆。 外部知识(External knowledge):数据库、API、互联网资源构成语义记忆的基础。

表征形式:

  • n文本形式(显性记忆):信息以自然语言或结构化文本(如JSON、知识图谱)存储。A-MEM(2025)采用类似“卡片盒(Zettelkasten)”的结构,将知识条目互相关联,形成动态演化的语义网络。

  • n参数形式(隐性记忆):知识直接编码在模型权重中,通过微调或参数编辑实现。然而,这种方式存在灾难性遗忘风险,模型在学习新信息时可能覆盖旧知识。

  • n联合形式(混合记忆):多种记忆形式联合检索和管理,例如MIRIX(2025)将记忆划分为六个模块(核心、情景、语义、程序、资源、知识库),实现不同形式的联合检索与管理。

为了更好的揭示Agent记忆的层级化结构,下表将上文说明的记忆形式和来源进行映射,并实例化的说明了当前Agent系统中记忆相关组件的属性:

1.3 单智能体与多智能体记忆架构 单智能体记忆:通常由短期记忆(上下文窗口)与长期存储(如向量数据库)组成。主要挑战在于如何高效检索相关信息并控制上下文长度。

多智能体记忆(MAS):在多智能体环境中,记忆需支持协作与共享。当前主要架构包括:

2. 系统视角:智能体记忆的组成与实现

2.1 系统层次划分

从系统工程角度,智能体的记忆系统可划分为四个互补层级。

  • 表示层(Representation Layer):负责记忆条目的基础编码与索引。常采用 embedding 向量、哈希索引或结构化 JSON 节点,以支持高效相似度检索与语义查询。
  • 管理层(Memory Manager Layer):实现对记忆的增删查改、版本控制、回收与压缩。通常由 LLM 调用 API 接口(如 insert_memory、query_memory)实现,可视为“内核级管理单元”。
  • 存储层(Storage Layer):包括短期存储(cache/context buffer):高频访问的上下文数据,存放于 GPU/CPU 内存或 KV cache;中期存储(vector DB/semantic index):基于向量数据库(如 FAISS、Milvus、Chroma)实现的语义检索;长期存储(persistent DB/knowledge graph):基于 SQL 或 图数据库,用于知识持久化与跨任务共享。
  • 协调层(Coordinator/Orchestrator Layer):在多智能体或异构任务环境下,负责记忆访问的调度与同步,保证一致性与访问控制。典型实现包括 Blackboard 调度器、分布式 KV 一致性协议或 CRDT 机制。

2.2 核心模块功能

短期记忆模块(Working Memory Buffer):负责暂存当前会话或任务的关键上下文;典型实现为 token 窗口或滑动缓存。HiAgent 通过“子目标分块”策略,将长任务切分为可管理的局部记忆段,提高 token 效率。

长期记忆模块(Long-Term Memory Store):以 vector DB 为核心,维护跨任务的经验条目。每条记忆通常包含文本内容、时间戳、来源、置信度等元信息。A-MEM 采用 Zettelkasten 式链接结构,使记忆形成自组织网络。

知识接口模块(External Knowledge Adaptor):提供与外部知识库或 API 的双向交互能力,支持 RAG 模式下的语义增强。MemGPT 进一步引入“虚拟内存分页”,在内外存之间实现动态调度。

检索与写入控制器(Retrieval/Write Controller)在 LLM 调用前后完成记忆的过滤与更新。检索阶段:通过 embedding 相似度或语义匹配获取 top-k 候选;写入阶段:经置信度筛选、多源一致性验证后提交。该模块是实现记忆可靠性的“关口”。

多智能体共享与同步(Shared Memory Bus)在多智能体系统中,需维护共享状态一致性。常见方案包括:中心化黑板(Blackboard):各 Agent 通过读写 API 交换记忆;去中心化 CRDT/Vector-Clock 方案:通过时间戳与版本控制防止冲突覆盖;层级同步:本地缓存 → 团队共享 → 全局归档。

2.3 与基础设施的映射关系

在实际部署中,智能体记忆系统通常运行在容器化或分布式环境下, 推理服务通常由推理服务器,例如SGLang,vLLM等完成。根据Agent功能需要,记忆相关的支持基础设施可以大致划分为以下几层:

  • 计算层:LLM 推理服务(TGI、vLLM 等)负责工作记忆管理。

  • 存储层:向量数据库与关系数据库通过 RPC 接口与 LLM 交互。

  • 网络层:多智能体通过 gRPC 或 WebSocket 共享记忆;一致性保障可采用 RAFT 或 CRDT。

  • 监控层:通过日志与指标系统(如 Prometheus)监控记忆写入延迟、冲突率与命中率。

该层级化设计使记忆系统既具语义关联性(由 LLM 驱动),又具系统一致性(由 基础设施保障),实现算法与工程的结合。

2.4 Agent记忆系统和传统计算内存系统的比较

对于计算机系统体系熟悉的朋友,一定对传统的分层式内存管理机制不陌生,我们是否能把AI智能体系统和传统计算机系统做个比较,发现一些异同点?传统内存管理的机制是否可以重用?这里我们尝试从不同的维度进行比较,总结

如下表:

3. 研究前沿:记忆系统的可靠性挑战

尽管架构不断进步,智能体记忆的可靠性仍是关键瓶颈。我们将其划分为四类主要挑战,并结合最新研究提供实例与根因分析。

3.1 幻觉(包括行动幻觉)

现象:虚构记忆或错误回忆;在具身或工具调用场景中表现为“行动幻觉”(对环境状态或工具反馈的错误推断与行动)。根因:

  • 先验错配:语言先验在信息缺口处“自动填空”

  • 检索误配:召回过时/无关/错误条目导致“伪事实固定”

  • 缺乏环境绑定:文本记忆与真实世界状态未形成稳定映射

  • 实例:在场景—任务不一致(如目标物体并不存在)的设置下,幻觉显著上升(可高阶量级),并呈跨模型一致趋势;面向行动层的基准将幻觉细分为“对指令/历史/观测不忠实”,可量化检出。

工程对策:

  • 多体交叉评审(Reviewer/Verifier)作为常驻模块;

  • 验证式 RAG:将交叉事实核验置于写入前/高风险读前;

  • 不确定性标注(Confidence Tagging):对记忆项记录置信度、来源与时间戳,在检索排序中显式加权。

HEAL研究(Chakraborty et al., 2025)通过操控场景与任务的一致性,发现幻觉率最高可提升至40倍,证明幻觉与环境脱钩密切相关。MIRAGE-Bench(Zhang et al., 2025)提出“行动幻觉(Action Hallucination)”分类,区分对指令、历史与观测的不忠实情形,并提供统一量化指标。

3.2 灾难性遗忘(连续学习)

现象:模型引入新知识后,既有技能或偏好被突发覆盖。

根因:参数干扰(梯度更新覆盖旧知识)、分布漂移、回放失衡。

实例:在连续微调设置下,不同规模 LLM 普遍出现遗忘;规模增大并不天然缓解遗忘,若无正则/隔离,旧任务性能显著下滑。

工程对策:

  • EWC / 正交更新抑制参数干扰;

  • 生成式回放在隐私/存储受限下重建旧分布;

  • 参数隔离/动态扩容为新知识开辟独立容量。

Luo et al. (2023) 与 EMNLP 2024 Findings 实证指出:在连续微调场景中,模型规模越大,遗忘现象越严重。若无正则化或层级控制,旧知识几乎完全丢失。

3.3 一致性与完整性(尤指 MAS)

现象:共享记忆出现冲突与断裂,代理间对系统状态形成不一致观。

根因:上下文滑窗导致角色/承诺漂移;多源冲突;共享存储的并发与网络时延引发去同步。

实例:在黑板型协作中,若缺乏版本化与因果序,写后读竞态、覆盖与回滚失灵频发;一致性指数可度量共享与独立上下文的权衡。

工程对策:

  • 因果版本化/CRDT 思想用于共享记忆;

  • 两阶段提交 + 回滚确保写入原子性;

  • 快照检索/时间旅行提供读隔离与可审计性。

Helmi (2025) 建立一致性模型RCI(Response Consistency Index),定量分析共享上下文与独立上下文配置的偏差。黑板系统(bMAS)实验(Han & Zhang, 2025)显示,在并发访问中若无版本控制,容易出现写后读冲突,导致不同代理基于过时状态行动。

3.4 错误传播与自放大

现象:早期错误被写入情景记忆后在后续检索中被重复引用,形成“错误回路”。

根因:经验追随性(retrieval-following)与无监督“自证”机制。

实例:对长链路任务轨迹的系统性标注显示,循环确认、职责错配与协同误导是典型放大链。

工程对策:

  • 写入门控(Write-Gate):多源一致/置信阈超限方可落盘;

  • 错误指纹:将错误证据与记忆条目绑定,检索命中触发再验证;

  • 周期性体检:对矛盾集做自动冲突检测与合并。

Xiong et al. (2025) 证明,在无人工校验条件下,错误在长期任务中呈指数级放大。Why Do Multi-Agent Systems Fail? (2025)通过轨迹分析发现典型失效模式包括循环确认、责任漂移与协同误导。

作为智能体可靠性系列的第一篇, 本篇力求系统的介绍智能体不同的记忆内容, 形式,智能体系统记忆和传统计算机系统记忆存储的异同性,最后概括智能体记忆相关的可靠性挑战,后继的文章将深入解析相关可靠性技术。

参考文献(References)

◎ Nuster et al. (2024). A Survey on the Memory Mechanism of LLM-based Agents.

◎ Wang & Chen (2025). MIRIX: Multi-Agent Memory System for LLM Agents.

◎ Xu et al. (2025). A-MEM: Agentic Memory for LLM Agents.

◎ Han & Zhang (2025). Exploring Blackboard Architecture for Multi-Agent LLM Systems.

◎ Yuen et al. (2025). Intrinsic Memory Agents.

◎ Chakraborty et al. (2025). HEAL: Hallucinations in Embodied Agents.

◎ Zhang et al. (2025). MIRAGE-Bench: Benchmarking Hallucinations and Consistency in LLM Agents.

◎ Hu et al. (2025). MemoryAgentBench: Evaluating Memory in LLM Agents.

◎ Helmi (2025). Modeling Response Consistency in Multi-Agent Systems.

◎ Xiong et al. (2025). How Memory Management Impacts LLM Agents.

◎ Zheng et al. (2025). Lifelong Learning of LLM-based Agents: A Roadmap.

◎ Luo et al. (2023). Catastrophic Forgetting in Sequential Fine-tuning of LLMs.

◎ Guo et al. (2025). A Comprehensive Survey on Continual Learning in Generative Models.

◎ HiAgent (ACL 2025). Hierarchical Working Memory Management for Long-Horizon Tasks.

◎ MemGPT (2023). Virtual Memory Abstractions for LLM Agents.

推荐学习书籍 《CDA一级教材》适合CDA一级考生备考,也适合业务及数据分析岗位的从业者提升自我。完整电子版已上线CDA网校,累计已有10万+在读~ !

免费加入阅读:https://edu.cda.cn/goods/show/3151?targetId=5147&preview=0

二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

全部回复
6 小时前
记忆是智能的基石,它使智能体能够从过去学习、理解当下并规划未来。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

6 小时前
对于基于大型语言模型(LLM)的智能体而言,记忆系统正经历从简单上下文窗口到结构化、多层次、可治理体系的快速演化。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

6 小时前
本报告对智能体记忆的算法机制、记忆在系统层面的组成、可靠性挑战以及工程化前沿进行了系统综述。
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

5 小时前
thanks for sharing
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

5 小时前
非常棒的综述材料!感谢分享
二维码

扫码加我 拉你入群

请注明:姓名-公司-职位

以便审核进群资格,未注明则拒绝

点击查看更多内容…
栏目导航
热门文章
推荐文章

说点什么

分享

扫码加好友,拉您进群
各岗位、行业、专业交流群