
人工智能研究正在经历一场范式转变——从优先关注模型创新以刷新基准分数,转向强调问题定义与严谨的真实世界评估。随着该领域步入“下半场”,核心挑战转变为在长周期、动态变化及用户依赖环境中的真实效用:智能体需应对上下文爆炸,在长期交互过程中持续积累、管理并有选择性地复用海量信息。而加入记忆机制成为填补这一效用差距的关键解决方案。
基础智能体记忆可以从三个维度划分:记忆基质(memory substrate )、认知机制(cognitive mechanism)及记忆主体(memory subject )。其中,记忆基质,或称存储格式,描述记忆在不同情境下以何种形式呈现;记忆认知机制,描述记忆在流程或工作流中所承担的功能性角色;记忆主体,描述记忆旨在捕获并支持谁的信息。1、按照记忆基质(memory substrate )可以分为内部记忆与外部记忆: 1)内部记忆(Internal memory )指直接存储在模型架构内部的信息,涵盖其参数中嵌入的持久性知识(即参数化记忆)以及推理过程中使用的运行状态。 2)外部记忆(External memory)指在智能体模型参数或状态之外存储知识、信息与过往经验的任何记忆基质。智能体可通过检索与更新操作对外部记忆进行显式读写,从而实现知识及交互历史在跨会话场景下的可扩展存储、易更新维护与持久化保留。2、按照认知机制(cognitive mechanism)进行划分可分为情景、语义、感觉、工作与程序性记忆: 1)工作记忆(Sensory memory)是一种短时记忆机制,负责在执行推理、理解与学习等复杂任务时,对信息进行临时存储与主动操作,从而确保相关信息能够在持续进行的过程中得到动态维持。 2)感觉记忆(Working memory)指的是对传入知觉信号的短暂保留,通过短暂保存原始输入,为系统提供足够的决策时间以确定下一步的注意焦点,从而使注意机制与选择机制能够在更高层级的处理发生之前运作。 3)情景记忆(Episodic memory)是一种长时记忆形式,专门用于持久存储智能体的交互经验。它记录特定时空与环境背景下发生的具体事件,通常以交互轨迹、动作序列及关联反馈的组织形式存在。 4)语义记忆(Semantic memory)是一种长时记忆形式,专门用于存储抽象事实、一般概念与结构化知识。它为智能体提供去情境化的信息,这些信息跨时间保持稳定,并能够在不同情境与目标下重复使用。 5)程序性记忆(Procedural memory)是一种长时记忆形式,专门用于存储如何执行任务的知识。它编码特定场景下的操作技能、执行策略与自动化例程。与存储事实性知识的记忆不同,它将复杂动作序列抽象化为可复用的模式,从而使智能体能够高效、连贯地完成任务。所以按照认知机制(cognitive mechanism)进行划分,也可以分为短时记忆机制(short-term memory mechanism)和长时记忆机制(long-term memory mechanism),其中,感觉记忆和工作记忆为短时记忆,情景记忆、语义记忆和程序性记忆为长时记忆。3、按照记忆主体(memory subject)进行划分可分为以智能体为中心的记忆和以用户为中心的记忆: 1)以智能体为中心的记忆(Agent-centric memory )是指智能体通过自身任务执行历史或环境交互所积累的提炼知识、技能及操作任务先验。这类记忆能够支持现实环境中跨长上下文、长周期及长期运行的任务。 2)以用户为中心的记忆(User-centric memory)是指对用户特定事实与偏好的抽象化表征,涵盖传记数据、历史交互及明确表达的偏好等信息。这类记忆可跨会话、跨领域调用,旨在实现与用户的对齐,从而支持连贯的交互与助手任务执行。二、记忆操作机制(Memory Operation Mechanism)介绍1、单智能体记忆操作:在单智能体系统中,记忆操作机制定义了基础智能体如何在长周期交互与任务执行过程中,主动地构建、更新、控制并利用( constructs, updates, controls, and utilizes)记忆。现代智能体并非将记忆视为静态仓库,而是通过一系列操作对记忆进行动态调控,包括索引、检索、更新、压缩、摘要、遗忘与剪枝(indexing, retrieval, updating, compression, summarization, forgetting, and pruning)。这些操作共同调控过往经验如何融入当前推理与未来决策,构成了单智能体记忆系统的运作基石。单智能体记忆操作分为:存储与索引 / 加载与检索 / 更新与刷新 / 压缩与摘要 / 遗忘与保留。2、多智能体记忆操作:在多智能体系统中,记忆操作机制描述了多个智能体如何在协作过程中共同构建与复用记忆:每个智能体可持有独立的私有记忆,同时它们也能通过共享工作空间交流经验。除了有单智能体系统的基础操作,在多智能体情境下,更为关键的是跨智能体的读写规则:在每个任务中,系统需要为不同角色的智能体匹配合适的记忆。此外,系统通常还需引入额外的操作以消除冗余、解决冲突并维持记忆一致性。1)记忆架构(Memory Architecture):私有架构(Private-only)、共享工作空间(Shared-workspace)、混合架构(Hybrid)、编排架构(Orchestrated)。2)记忆路由(Memory Routing):基于编排的路由(Orchestrator-based Routing)、智能体发起路由(Agent-Initiated Routing)和记忆驱动路由(Memory-driven Routing) 基于编排的路由:该机制指由集中式编排器以统一方式做出路由决策。编排器维护全局任务状态与协作进度,将复杂目标分解为若干子任务,进而依据各工作智能体的角色与能力进行子任务分配,同时分发执行所需记忆并确定执行顺序。 智能体发起路由:该方法的路由决策并非由集中式编排器统一分配,而是由每个智能体根据自身角色与任务自主发起。信息通常首先发布至共享记忆池,随后智能体借助约束机制筛选所需记忆,并由此构建各自的记忆视图。 记忆驱动路由:该模式下的路由决策主要依赖于从记忆存储中检索。系统将当前任务表征为查询,在记忆存储中依次执行“检索、评分与重排序、选择”操作,获取最相关的记忆子集并将其注入上下文。此外,有时还可借助记忆间的结构化关联(例如基于图的扩展)对检索结果进行延伸,从而形成更为完整的经验片段集合。3)记忆隔离与冲突(Memory Isolation and Conflicts):基于写入控制的记忆隔离(Write Control for Memory Isolation)和基于反馈循环的记忆一致性机制(Memory Consistency with Feedback Loop)。 基于写入控制的记忆隔离:一种直接策略是在记忆写入与更新阶段实施隔离。在每个交互轮次中,智能体首先将新提取的候选事实与当前记忆状态进行比对,通过受控评估机制选择性地更新记忆,而非盲目追加新信息。 基于反馈循环的记忆一致性机制:与写入控制不同,此类方法将记忆冲突视为一致性层面的迭代优化过程。多智能体记忆系统通常将任务的硬性约束固化于稳定约束记忆区,供后续迭代轮次查阅参照;同时维护一个持续增长的反馈记忆区,用于记录早期轮次中的失败案例,从而为后续迭代的学习过程提供支撑。三、记忆学习策略(Memory Learning Policy) 依据学习信号将此类策略划分为三个不同的范式:提示、微调与强化学习。1、基于提示的记忆学习(Prompt-based Memory Learning):该范式将记忆策略参数化为自然语言提示,智能体通过执行这些提示来决定何时访问、修改或剪枝记忆。此类方法的核心优势在于规避昂贵的模型微调以及策略本身的高可解释性。此范式可划分为静态提示控制与提示优化两个方向。
1)静态提示控制:将记忆策略编码为固定、人工设计的规则,在执行过程中保持不变。记忆决策在设计阶段即通过提示模板或预定义模式固化,具备强可解释性与行为可预测性,但无法依据交互反馈或分布偏移进行自适应调整。
2)动态提示控制:动态提示控制探究如下问题:以自然语言提示编码的记忆策略,能否在不更新模型参数的前提下,基于经验与反馈在测试阶段动态调整?该范式不在设计阶段固化记忆行为,而是将记忆控制视为以语言为媒介、持续可修正的过程。
2、基于微调的参数化记忆策略(Fine-tuning: Parameterized Memory Policies):超越基于提示的自适应,监督微调将记忆策略内化至模型参数,从而实现更稳定、更可复用的记忆行为。从策略学习的视角审视,基于监督微调的方法探究记忆策略如何内化、如何实现稳定、以及在嵌入模型权重后如何高效执行。该范式可分为:策略的参数化内化(Policy Internalization into Parameters)、参数化策略的稳定性与边界控制(Parameterized Policy Stabilization and Boundary Control)、 参数化策略的效率与检索优化(Parameterized Policy Efficiency and Retrieval Refinement)
1)策略的参数化内化:基于监督微调的记忆控制其本质特征在于:记忆策略被内化至模型参数,从而将记忆从外部上下文操控问题转化为参数化策略表征。此类方法不在推理时依赖提示或显式缓冲,而是将记忆相关行为直接嵌入权重空间,使记忆使用具备跨任务的稳定性与可复用性。
2)参数化策略的稳定性与边界控制:除内化之外,监督微调还通过为写入、修正或抑制行为学习显式边界,使嵌入参数后的记忆策略得以稳定化。此类方法并非单纯扩展记忆容量,而是致力于在长期使用场景下防止误差累积、概念漂移与角色人格不一致。
3)参数化策略的效率与检索优化:除学习存储内容与策略稳定化之外,监督微调还被用于精细化参数化记忆策略在推理时的执行方式,尤其是在记忆读取与检索环节。此类方法不依赖穷举式上下文访问,而是将检索本身视为一种可学习策略,并对查询的构造方式、迭代优化过程及其在压缩记忆表征上的应用进行系统性优化。
3、基于强化学习记忆策略(Reinforcement Learning for Memory Policies):强化学习为记忆控制引入了一种根本性差异的范式——它使记忆策略能够通过交互与奖励反馈进行优化。与基于提示或监督的方法不同,强化学习允许下游任务结果反哺早期的记忆决策,从而使记忆构建本身成为一种可学习的策略。现有研究可被理解为:强化信号对记忆行为的塑造,其时间范围正在被持续延展。该范式可分为:步级记忆决策(Step-Level Memory Decisions)、轨迹级记忆表征(Trajectory-Level Memory Representation)、跨回合记忆与多智能体记忆(Cross-Episode and Multi-Agent Memory)
1)步级记忆决策:在最短的时间尺度上,强化学习通过将记忆管理建模为步级决策序列来应用于记忆控制。在此设定下,记忆操作被形式化为由学习策略选择的动作,并基于其对任务奖励的即时或短期影响进行优化。
2)轨迹级记忆表征:随着任务周期延长,记忆决策的价值往往仅在其对后续推理与动作选择的累积影响中显现。强化学习通过延迟任务结果反哺学习策略,使其能够对轨迹级记忆状态的构建、更新与维护进行塑造,从而适配此类长周期场景。
3)跨回合记忆与多智能体记忆:当记忆范围超越单条轨迹时,记忆不再仅服务于即时推理,而是在跨回合反复交互中沉淀经验,其价值亦随之涌现。在此尺度下,强化学习具有不可或缺性——唯有长期、跨回合的奖励信号能够判别记忆策略应当持久保留、动态调整或修订废弃哪些记忆。
总结:记忆正成为基础智能体在长周期、上下文爆炸及用户依赖环境中运行的关键组件。本文从三个维度对记忆设计进行统一梳理:记忆基质(内部与外部)、认知机制(感觉、工作、情景、语义与程序性记忆)及记忆主体(以用户为中心与以智能体为中心);进而分析记忆在单智能体与多智能体系统中的运作方式,以及其日益受提示、微调与强化学习策略塑造的演进路径。
以上内容来自论文:Rethinking Memory Mechanisms of Foundation Agents in the Second Half
文章来源:Aler笔记