8k上下文超越128k模型原理(非常详细),长文本优化从入门到精通,收藏这一篇就够了!

张开发
2026/4/15 16:59:03 15 分钟阅读

分享文章

8k上下文超越128k模型原理(非常详细),长文本优化从入门到精通,收藏这一篇就够了!
一句话讲清楚阿里巴巴集团与浙江大学联合提出 ContextBudget一种预算感知的上下文管理框架让 LLM 智能体在严格上下文窗口限制下通过强化学习自适应地压缩历史交互信息在 32 目标复杂任务中实现 5 倍性能提升且在不同预算下保持稳定表现。背景长程推理中的上下文困境随着 LLM 智能体在长程交互应用中的能力不断增强如何有效管理上下文已成为一个紧迫问题。智能体在多轮推理过程中交互历史会迅速累积导致上下文急剧膨胀。与此同时最大上下文窗口受到部署资源的严格限制——包括内存占用、推理延迟和服务成本。现有方法的两大致命缺陷大多数现有的上下文压缩方法采用无预算感知budget-free的设定将压缩视为静态操作没有显式地根据可用上下文预算进行调节。这种简化带来了两种关键失败模式预算宽松时智能体可能过度压缩擦除关键证据降低信息保真度。预算紧张时智能体可能压缩不足导致上下文溢出引发截断或脆弱的推理失败。最近的工作开始将预算感知引入智能体推理研究工具调用预算和输出 token 预算等约束。然而这些方法主要通过外部控制来调节计算或动作次数并没有系统性地解决当上下文窗口本身成为限制资源时的主动历史压缩问题。ContextBudget 框架概览阿里巴巴与浙大团队提出的 Budget-Aware Context ManagementBACM框架核心思想是将上下文压缩形式化为一个带上下文预算约束的序列决策问题让压缩决策能够根据剩余的上下文容量在整个推理过程中动态适应。预算感知上下文管理框架的整体流水线。智能体首先观察预算条件状态然后执行精炼动作进行上下文更新最后通过多轮 GRPO 训练优化策略。框架包含三个核心机制(1) 预算条件状态与延迟加载在追加新观察之前智能体先评估可用容量调整现有上下文再纳入新信息。(2) 提交块聚合机制支持智能体根据当前预算自适应地决定何时压缩以及压缩多少。(3) 预算感知 GRPO 目标与渐进式上下文课程学习通过多轮 GRPO 优化决策过程使用渐进式收紧的上下文预算课程。核心方法详解预算条件状态与延迟加载传统的上下文管理方式是直接将新观察追加到上下文中当上下文满时再进行压缩。ContextBudget 改变了这个顺序——先评估后加载。具体来说团队扩展了标准 MDP引入了预算条件状态。在步骤 智能体获得一个增强状态其中 表示总上下文预算 表示当前上下文缓冲区的 token 长度 表示剩余上下文预算。 表示当前推理状态 表示待处理观察的 token 长度。注意观察的大小是可见的但内容仍然隐藏。给定这个状态智能体在访问新观察之前先确定一个精炼动作。具体地策略采样 来产生满足预算约束的更新上下文 然后将观察追加形成下一个上下文这种设计的关键在于上下文压缩是由 暗示的未来容量引导的而不是一个被动的后处理步骤。这种排序在纳入新观察之前保留了足够的容量确保上下文始终保持在预算约束内。提交块聚合机制为了支持动态预算下的自适应压缩团队引入了提交块聚合机制。该机制允许智能体根据当前预算决定何时压缩以及压缩多少。在步骤 上下文是一个包含 个连贯段的缓冲区每个段 是交互历史中语义连续的部分。根据预算感知状态 策略从三个互斥类别中采样结构化动作其中 表示所有段的索引集合 表示选定用于聚合的段索引子集。三种压缩模式Null当预算充足时跳过压缩。Partial选择一个非空真子集 其中 控制压缩强度。Full在严重预算约束下聚合所有段。这三种模式对应不同的预算压力下的行为高预算时策略倾向于保留完整的交互历史推迟压缩以保留最大上下文。中等预算时策略转向选择性聚合压缩冗余段同时保留显著信息。低预算时策略将上下文折叠为完全聚合的表示保持在预算内的同时支持长程推理。因为 在统一的动作空间中同时生成压缩决策 和推理动作智能体学会了将上下文缩减与下游任务性能协调起来。预算感知 GRPO 目标与渐进式上下文课程为了在不同预算下优化智能体的上下文管理团队采用强化学习结合渐进式上下文预算课程。他们利用 Group Relative Policy OptimizationGRPO实现样本效率无需价值评论器。课程学习设计团队定义了 个课程阶段具有单调递减的预算 。对于每个查询采样 个 rollout。每个 rollout 是一个完整的多轮交互包含 轮模型在各轮中执行上下文管理并生成响应。Rollout 的最终结果 定义为预测答案与真实答案之间的 F1 分数。团队根据整个 rollout 是否满足阶段特定的预算约束来分配奖励。在第 个课程阶段令 表示 rollout 在轮次 的受管理上下文大小。预算约束奖励和组相对优势计算为其中 是预算约束奖励只有当整个轨迹在所有轮次都满足预算约束时才能获得原始奖励 否则奖励为零。 是组相对优势通过组内归一化稳定优化。每个 rollout 产生跨多轮的 token 序列o _ i , m , t ∗ t 1 T ∗ i , m 其中 T _ i , m 是 i 中轮次 m 生成的数量。团队将轨迹级优势 A _ i ( j ) {o\_{i,m,t}}*{t1}^{T*{i,m}}其中T\_{i,m}是i中轮次m生成的数量。团队将轨迹级优势A\_i^{(j)}o_i,m,t∗t1T∗i,m其中T_i,m是i中轮次m生成的数量。团队将轨迹级优势A_i(j)广播到所有 token在 token 级别优化策略其中 是 token 级概率比 表示受管理上下文条件下的 token 状态。这种设计提供了清晰的学习信号只有成功且遵守预算的轨迹才会获得奖励而组相对归一化稳定了优化过程。通过将轨迹级优势广播到所有 token模型学会了在逐渐收紧的约束下将局部决策与全局有效的上下文管理对齐。实验结果数据集与评估指标团队在组合多目标 QA 和长程网页浏览基准上评估了 ContextBudget。多目标 QA 基准基于 Search-R1 使用的维基百科 QA 基准包括单跳数据集NQ、TriviaQA、PopQA和多跳数据集HotpotQA、2WikiMultiHopQA、MuSiQue、Bamboogle并将它们转换为多目标评估集。BrowseComp-Plus一个具有验证语料库的长程基准用于评估扩展多步推理设置中的性能。评估指标对于多目标 QA 基准计算每个目标的 token 级 F1 分数并报告所有目标的总和。对于 目标任务总分范围为 0 到 。对于 BrowseComp-Plus使用官方 LLM-as-a-Judge 协议报告所有样本的平均准确率。主要结果性能对比BACM-RL 在 BrowseComp-Plus 和多目标 QA 基准上实现了最佳平均性能。这在两个具有主要架构和参数差异的骨干模型7B 和 30B上都成立显示了广泛的适用性。与最强的先前基线 MEM1使用相同数据训练相比BACM-RL 在更难的设置中实现了特别大的增益包括在 32 目标任务中约5.0 倍的提升4.545 vs. 0.909。这种稳健性延伸到域外 BrowseComp-Plus 基准其中 30B 变体在 8k 预算下实现了 0.147 的准确率超过了具有 128k 上下文窗口的 235B Qwen3-Inst 模型0.136。在更耗上下文的 32 目标任务中与非 RL 消融相比的巨大差距4.545 vs. 0.208支持了预算感知 GRPO 目标设计的有效性。MethodContextBrowseComp-Plus Avg2-Obj8-Obj16-Obj32-ObjQwen3-235B-Inst (ReAct)128k0.1360.9481.8731.3151.412Qwen3-235B-Inst (ReAct)8k0.1180.8861.7821.2330.374Search-R1 (RL)8k0.0990.7601.7192.4971.022MEM1 (RL)8k0.0350.8382.3452.3911.210BACM-RL (7B)8k0.1270.9092.7904.0112.938ReAct (30B)8k0.1300.9382.0780.9310.208Search-R1 (RL)8k0.1281.0133.3101.9490.998Summary8k0.1370.9162.4562.9922.848BACM-RL (30B)8k0.1471.0323.5876.2554.545不同上下文预算下的鲁棒性不同最大上下文窗口大小16k-4k token下不同目标数量的性能表现。BACM-RL 在所有预算设置下都保持稳定。该方法在所有任务复杂度和广泛的上下文预算设置下都展现了优越性和稳定性。与无上下文管理的基线ReAct、基于 RL 的 Search-R1不同——这些方法仅在预算充足的简单任务上有竞争力——我们的方法在预算从 16k 减少到 4k token 时几乎保持不变。虽然 MEM1 和 Summary 等无预算策略部分缓解了性能下降但仍然较差。MEM1 由于逐轮过度压缩导致信息丢失而 Summary 由于延迟压缩导致推理失败。相比之下将上下文管理形式化为预算感知序列决策问题使得能够自适应地调节提交块聚合强度。这在极端 32 目标任务和 4k 限制下最为明显该方法实现了1.7 倍的累积 F1 提升超过最佳基线2.06 vs. 1.21。压缩效率分析固定 8k 上下文预算下的累积 F1 和平均压缩调用次数。BACM-RL 在轻负载时减少压缩调用在重负载时增加压缩调用。在固定 8k 预算下增益反映了预算感知管理而不是盲目增加压缩频率。轻负载时2/8 目标方法在 F1 上比 MEM1 提升 8.3%/18.7%0.84→0.912.35→2.79同时压缩调用减少 41.7%/35.8%1.92→1.122.15→1.38。重负载时16/32 目标压缩调用增加 43%/109%1.62→2.321.28→2.68F1 提升 67%/143%2.40→4.011.21→2.94。MEM1 由于上下文饱和和信号丢失而失败导致过早响应。而我们的方法平衡了 token 使用和性能。消融实验预算感知状态的影响关键组件的消融实验。移除预算元数据B会降低性能Ours w/o B而仅在无上下文管理的基线上添加 B 不会提升性能Search-R1 w/ B。完整模型Ours Full在所有目标和预算下都取得最佳性能。团队通过解耦预算元数据和压缩策略评估了四种配置的性能贡献BaseSearch-R1无上下文管理的原始模型。Search-R1 (w/ B)向智能体状态添加预算元数据。Ours (w/o B)使用学习的压缩策略无显式预算信号。Ours (Full)整合两者进行预算条件的上下文优化。结果表明从压缩机制中移除预算信息会导致跨上下文预算和多目标设置的显著性能下降。虽然 Search-R1 (w/ B) 仅产生边际增益但完整框架始终实现最高的累积 F1 分数。通过显式整合预算信号方法在保留原始上下文保真度和调用激进摘要之间实现了更优的动态权衡。渐进式上下文课程的消融统一 8k 测试预算下的动态上下文课程消融报告跨目标的累积 F1。渐进式课程Curriculum-Ours在所有目标数量下都优于静态和随机预算。团队比较了三种课程策略Static8k始终使用 8k 预算训练和测试。Random4k/8k随机采样 4k 或 8k 预算进行训练。Curriculum-Ours从 8k 逐渐收紧到 4k 的渐进式课程。结果表明渐进式课程在所有目标数量下都取得了最佳性能特别是在 16 和 32 目标任务中显著优于静态和随机策略。这证实了渐进式收紧预算能够帮助模型学会在更严格约束下做出有效的局部压缩决策。延迟加载的影响Variant2-Obj8-Obj16-Obj32-Objw/o Deferred0.8332.7063.9722.818w/ Deferred0.9092.7904.0112.938延迟加载在所有目标设置下都带来了性能提升特别是在 2 目标和 32 目标任务中分别提升了 9.1% 和 4.3%。这验证了先评估容量再加载观察的设计有效性。案例分析预算感知上下文管理的案例研究。智能体根据剩余预算自适应地选择 {NONE}、{Selective} 或 {ALL}从完全保留过渡到部分和完全聚合同时保留任务相关信息。案例研究展示了智能体在实际任务中的行为预算充足时智能体选择 NONE保留全部交互历史不执行任何压缩。预算中等时智能体选择 Selective选择性地聚合冗余段保留关键信息。预算紧张时智能体选择 ALL将所有段聚合为紧凑表示。这种自适应行为使得智能体能够在不同预算压力下做出最优的上下文管理决策既避免了信息丢失又防止了上下文溢出。训练动态分析Qwen2.5-7B-Instruct 在不同课程策略下的训练动态奖励、KL 损失、熵和摘要工具调用平均次数。渐进式课程Curriculum-Ours展现出更稳定的训练过程和更高的最终奖励。训练动态分析揭示了不同课程策略的影响奖励曲线Curriculum-Ours 策略在整个训练过程中保持了更高的奖励水平表明渐进式预算收紧能够引导模型学习更有效的上下文管理策略。KL 损失所有策略的 KL 损失都保持在较低水平说明模型在优化过程中没有偏离参考策略太远。熵Curriculum-Ours 策略的熵下降更为平缓表明模型在更长的时间内保持了探索能力。摘要工具调用次数Curriculum-Ours 策略的调用次数在训练初期较高随后逐渐稳定说明模型学会了在适当的时候使用压缩。总结与展望ContextBudget 的核心贡献在于将上下文管理从被动的后处理步骤转变为主动的预算感知序列决策。通过三个关键创新——预算条件状态与延迟加载、提交块聚合机制、以及预算感知 GRPO 目标与渐进式课程学习——该方法在长程推理任务中实现了显著的性能提升。关键优势跨模型规模适用在 7B 和 30B 骨干模型上都取得了最佳性能。极端任务表现优异在 32 目标任务中实现 5 倍性能提升。预算鲁棒性从 16k 到 4k 预算下保持稳定表现。压缩效率轻负载时减少不必要的压缩重负载时增加压缩强度。超越更大模型8k 预算的 30B 模型超越了 128k 上下文的 235B 模型。这一工作为 LLM 智能体在资源受限环境下的长程推理提供了新的范式具有重要的理论和实践价值。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

更多文章