1/3 Token↓，3×性能↑：通义 × 清华用强化学习重做Agent Memory

张开发

• 2026/4/21 18:44:21 • 15 分钟阅读

分享文章

1/3 Token↓，3×性能↑：通义 × 清华用强化学习重做Agent Memory

本文约1700字建议阅读5分钟本文介绍了 MemPO 用强化学习优化长程 Agent 记忆提质降本。LLM 长程Long-horizonAgent 在进行环境多轮交互时容易陷入“越用越慢、越用越不稳”的困境历史轨迹不断累积Context 线性膨胀Token 成本飙升还会触发 “Lost in the Middle”性能和稳定性持续下滑。现有方案大多依赖外置记忆库 / RAG 来“被动检索”相关片段但这类 Memory 往往难以与任务目标做端到端联合优化Agent 和记忆库“各司其职”。同时现有的基于强化学习的 Memory 管理方法往往缺乏一种有效机制针对 Memory 的更新内容进行引导优化Memory 的内容难以保证质量。如何让 Agent 在交互过程中自主组织历史信息并且通过强化学习优化 Memory 的信息质量同时还能对齐最终任务目标MemPOSelf-Memory Policy Optimization提供了一种解决方案使得模型对 Memory 进行自管理并引入了基于有效信息含量的 Memory-level 的优势估计引导 Memory 保留对解决任务更有效的信息提升记忆有效性。实验结果显示在长程任务基准上F1 最高提升 25.98%较 base 模型/ 7.1%较 SOTA 方法同时 Token 使用量下降 67.58% / 73.12%。论文标题MemPO: Self-Memory Policy Optimization for Long-Horizon Agents论文地址https://arxiv.org/abs/2603.00680代码地址https://github.com/TheNewBeeKing/MemPO模型和数据集地址https://huggingface.co/collections/NewBeeKing/mempo1、核心痛点长程 Agent 的“上下文膨胀”以及现有记忆方案的“被动与不可控”长程多轮交互越来越成为 LLM Agent 解决复杂问题的关键能力。为缓解由此带来的长上下文问题很多研究开始引入 Agent Memory。现有的主流方法是外置记忆库 RAG 检索按相似度从历史中召回片段再拼接进 Prompt。这种方式存在一个核心问题检索“相似”不等于“对任务最关键”难以与任务目标做端到端联合优化最终让记忆管理停留在被动流水线而非模型的内生能力。也有一些工作尝试用 RL 来改进 Agent 能力但落到“记忆”上仍相对有限要么把记忆管理做成独立的工具/组件没有与回答/推理的策略共同优化要么将记忆融入推理流程却缺少针对记忆质量的显式目标训练信号仍主要来自最终任务回报。长程交互下奖励稀疏信用分配困难模型很难学清楚“到底是哪一步的记忆写得好/坏”在影响最终成败导致记忆容易冗余、遗漏关键信息。因此MemPO 的核心目标是不仅要“用 RL 训练 Agent”还需要为记忆本身设计可学习、可归因的优化信号让模型在交互过程中主动压缩、组织并保留最有助于任务完成的信息。2、MemPO引入 Memory-level 的优势估计引导 Memory 保留有效信息MemPO 采用 Multi-turn RLRollout 采样阶段模型与外界进行多轮交互每一轮交互模型都会生成历史上下文的 Memory。优势计算时MemPO 采用两类优势估计相结合的方式来得到最终结果。Advantages of Global Trajectory 用以衡量轨迹整体的准确性使用答案准确性和格式准确性来进行奖励计算此部分的优势估计可以表示为而 Advantages of Informative Memory 用以衡量每一段生成的 Memory 内保留了多少对于解决问题有效的信息。其奖励计算通过已知 Memory 内容的情况下生成最终正确答案的后验概率来表示其中后验概率具体由正确答案 Token 概率的几何平均表示此部分的优势估计可以表示为这样模型在训练的过程中就可以通过奖励的反馈情况来学习什么样的 Memory 内容是对于解决最终问题更加有效的这样就大大缓解了 Memory 内容的不可控性和盲目性。最终整体的优势估计可以表示为3、实验结果在多目标的 web search 数据集上与基础的 ReAct、Agentic-RL 模型以及基于 RAG/RL 的 Memory 算法相比MemPO 均取得了显著的 SOTA 性能其中 Token 消耗降低为 ReAct 的 1/3性能提升 3 倍。〓主实验结果MemPO 在提升样例正确答案条件概率的同时显著增加了预测结果的准确率。在复杂的长程交互任务上MemPO 显著提升了交互轮次与正确答案条件概率。〓正确答案条件概率分桶样本数量分布Ratio/准确率ACC〓交互轮次分桶样本数量分布Ratio/正确答案条件概率Probability随着任务复杂度提升Objective NumberMemPO 相比 GRPO 展现出更明显的优势。在实验中发现较为简单的任务需要更丰富的上下文信息而在更为复杂的长程交互任务上更多的历史交互上下文信息反而带来更多的干扰信息导致性能下降。〓消融分析— MemPO vs. GRPO (左) / Inference 历史上下文填充策略右4、总结MemPO 将 Memory 变成了可训练的策略变量与模型的 Think 与、Action 进行联合优化。通过把“写记忆”纳入强化学习的信用分配链路MemPO 解决了长程交互里的难点——让模型知道哪些中间信息值得占用上下文预算、哪些噪声应该被主动丢弃。最终使得上下文更短但信息密度更高工具调用与回答更不容易跑偏同时获得成本下降与性能上升的双重收益。这也意味着未来长程 Agent Memory 的关注点可能从“如何更好地检索历史”转向“能否用学习机制持续产出高质量、可控的内生记忆”。编辑于腾凯校对林亦霖关于我们数据派THU作为数据科学类公众号背靠清华大学大数据研究中心分享前沿数据科学与大数据技术创新研究动态、持续传播数据科学知识努力建设数据人才聚集平台、打造中国大数据最强集团军。新浪微博数据派THU微信视频号数据派THU今日头条数据派THU

更多文章

前端开发 2026/4/21 18:44:21

避坑指南：Android 12 RenderEffect模糊效果开发中，你可能遇到的5个‘坑’及解决方案

Android 12 RenderEffect模糊效果开发实战避坑指南在Android 12中引入的RenderEffect API为开发者提供了更便捷的高斯模糊实现方式，但在实际开发中，我们往往会遇到各种意料之外的问题。本文将基于真实项目经验，剖析五个最常见的"坑&quo…

PowerToys中文优化终极指南：让微软效率工具箱说"中国话" 【免费下载链接】PowerToys-CN PowerToys Simplified Chinese Translation 微软增强工具箱自制汉化项目地址: https://gitcode.com/gh_mirrors/po/PowerToys-CN 你是否曾经面对PowerToys强…

张开发

前端开发 2026/4/21 18:14:49

告别安装包！用7-Zip的-sfx选项，5分钟制作一个傻瓜式软件分发exe

5分钟打造零门槛软件分发包：7-Zip自释放EXE全攻略每次给客户发软件包时，最怕听到"解压软件怎么用？"这类问题。作为独立开发者，我花了三年时间才找到这个被低估的神技——7-Zip的SFX自释放功能。它能把复杂的安装流程压…

张开发

1/3 Token↓，3×性能↑：通义 × 清华用强化学习重做Agent Memory

最新文章

深入群晖Office文件格式：解析osheet数据结构并批量转换为xlsx

Unity WebGL打包到手机，如何一键干掉那个烦人的兼容性弹窗？

智能数据标注实战指南：10倍效率提升的自动化解决方案

新手工程师必看：搞定EMI传导干扰，从理解差模和共模开始（附实战案例）

求100~200间的全部素数

Prism方差分析结果看不懂？手把手教你解读F值、P值与方差分析表

推荐文章

【SAP Basis】从SU01出发：深度解析SAP用户类型与安全策略

3分钟掌握RPG Maker解密技巧：解锁游戏资源宝藏

终极编程语言图标库：50+高清开发标志一键获取

Colmap实战解析：从特征提取到鲁棒匹配的工程化实现

别再手动调音效了！用这5款Unity音频插件，让你的游戏音效瞬间‘活’起来

Ryujinx模拟器终极指南：免费在PC上畅玩Switch游戏的完整教程

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

避坑指南：Android 12 RenderEffect模糊效果开发中，你可能遇到的5个‘坑’及解决方案

FPGA代码：德扬米联客PCIE光纤通信项目的实现

Beyond Compare 5密钥生成器：三步实现免费激活的终极方案

Flutter+高德地图实战：5分钟搞定周边POI搜索功能（附完整代码）

postman接口自动化测试详解

电力系统中的不对称短路故障研究：短路故障频次、严重程度及其电压暂降特征的分析与MATLAB仿真验证

抖音内容高效获取指南：从零开始掌握批量下载技巧

PWA应用实战：从零打造离线可用的高性能Web应用在当今移动优先的

打造全能Linux掌上电脑：JetDeck SCOUT硬件与软件设计

一键多平台直播推流：OBS Multi-RTMP插件终极指南

PowerToys中文优化终极指南：让微软效率工具箱说“中国话“

告别安装包！用7-Zip的-sfx选项，5分钟制作一个傻瓜式软件分发exe