大模型能“原地”改参数了！字节Seed北大新论文：测试时推理无需加层重训练

张开发

• 2026/4/15 3:44:55 • 15 分钟阅读

分享文章

鱼羊发自凹非寺量子位 | 公众号 QbitAI字节Seed最新研究让大模型能“原地改参数”了。既不用改模型结构也不用重新训练还跑得很快。具体是这么个情况。智能体时代嘛大家都知道模型们面对的任务开始变得越来越复杂、上下文越来越长。如何让大模型边干活边学习不断适应新的信息而不是在超长上下文中逐渐崩溃已经成为AI圈研究的一大重点。测试时训练TTT让模型能够在推理时更新部分参数但实际应用时问题仍然很复杂首先架构不兼容。现有的TTT需要引入全新的网络层甚至替换注意力机制导致必须从头开始做预训练。其次计算效率低。现有的TTT采用一个Token一个Token的顺序更新无法充分利用GPU/TPU的并行计算能力。还有优化目标不匹配的问题。现有TTT多采用重建目标reconstruction只让模型记住当前的词而不是为了预测下一个词设计。也就是说与语言模型核心的“预测下一个Token”的任务不匹配。针对这些问题来自字节Seed和北京大学的研究团队想到了一个小妙招不新增层也不改架构直接把Transformer里本来就有的MLP模块当成大模型的“临时小脑”。这个名为In-Place TTT原地测试时训练的方案让TTT可以作为即插即用的模块无缝集成到现有的预训练大模型中。实验证明Qwen3-4B、Llama3.1-8B、Qwen3-14B在装备In-Place TTT之后都原地变强了并且在长文本任务上提升尤为明显。这篇论文已经中了ICLR 2026 Oral。让大模型在推理时“原地改参数”话不多说还是来看论文的详细内容。In-Place TTT核心要解决的问题是在不折腾模型架构的前提下让大模型在推理/回答问题时也能悄悄更新自己适配当前的上下文。实现即插即用字节Seed和北大的研究人员主要做了3点创新。原地架构设计在In-Place TTT中研究人员巧妙地复用了Transformer中无处不在的MLP多层感知机。他们将MLP的最后一个投影矩阵Wdown作为快速权重fast weights在推理时进行原地更新。这样就无需引入新的专用层来处理快速权重。已经训好的大模型也可以拿来直接用不必重新训练。语言模型对齐的优化目标原来的TTT只让模型“记住当前Token”前文已经提到这与语言模型的优化目标是不一致的。为此In-Place TTT设计了专门针对自回归语言模型的优化目标通过引入一维卷积Conv1D和投影矩阵使TTT的目标值包含了未来 Token的信息从而显式地与“预测下一个Token”的任务对齐。研究人员还分析证明这种做法能促使快速权重压缩对未来预测有用的信息从而有效提升模型的上下文学习能力。高效的块级更新机制In-Place TTT是对MLP进行改造保留了原有的注意力层这就使得该方法可以实现分块更新不用再逐Token去处理。结合上下文并行技术In-Place能实现更高的吞吐量和计算效率支持更长的上下文。实验表明In-Place TTT能大幅提升现有模型如Qwen3-4B在128K甚至256K长上下文任务中的表现。在从头训练的对比中也优于其他TTT方法。研究团队In-Place TTT的论文一作是冯古豪和罗胜杰。冯古豪目前就读于北京大学是字节Seed的实习生。罗胜杰同样毕业于北大师从王立威教授和本文通讯作者贺笛教授。本文的另一位通讯作者是字节Seed的Wenhao Huang。论文地址https://arxiv.org/abs/2604.06169v1一键三连「点赞」「转发」「小心心」欢迎在评论区留下你的想法—完— 谁会代表2026年的AI龙虾爆火带动一波Agent与衍生产品浪潮。但真正值得长期关注的AI公司和产品或许不止于此。如果你正在做或见证着这些变化欢迎申报。让更多人看见你。 https://wj.qq.com/s2/25829730/09xz/一键关注点亮星标

大模型能“原地”改参数了！字节Seed北大新论文：测试时推理无需加层重训练

最新文章

数据分析方向毕业设计精选选题推荐【热门研究方向创新选题】2026

Openclaw 切换记忆搜索Memory search本地embedding模型

MATLAB箱线图绘制全攻略：从数据导入到高级美化（附常见问题解决）

pgRouting安装及使用示例

hyperf 对接企业微信将消息发送功能改造为异步，使用 HyperF AsyncQueue投递消息任务，失败后自动重试 3 次，超出重试次数后记录

hot100——哈希表

推荐文章

龙虾白嫖指南，请查收~勘

AI Agent在金融科技领域的应用实践：风控、投顾与合规

Unity3D动画插件DoTween进阶应用与性能优化指南

超表面贝塞尔光束生成系统代码功能深度解析

【5G系列】深入解析NAS层UAC：Access Identity与Access Category的获取机制

Spring with AI (): 搜索扩展——向量数据库与RAG(下)肺

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

Rust的匹配中的守卫条件

3步掌握英雄联盟LCU工具集：LeagueAkari智能游戏数据分析实战指南

为什么BigDecimal在金融计算中是必须的？

计算机毕业设计：Python大气污染物浓度预测与评估系统 Django框架可视化数据分析 Prophet时间序列大数据大模型深度学习（建议收藏）✅

【2026奇点智能技术大会权威解读】：大模型API网关设计的5大反模式与3层防御架构实战指南

Umi-CUT：三步批量处理图片黑边，解放你的生产力

告别Socket！用FDBUS在Ubuntu上快速搭建一个高性能IPC服务（附完整C++代码）

CodeBlocks-20.03与MinGW环境搭建：从零开始的高效开发指南

BeeWorks：打造安全可控的企业级内网即时通讯平台

2026奇点大会闭门报告首发（仅限首批技术决策者）：AI原生支付的实时清算引擎与零知识证明集成架构

当你装完了TRAE，你要做什么？

用PlantUML画一个完整的电商下单顺序图（以图书销售为例，附完整代码）

大模型能“原地”改参数了！字节Seed北大新论文：测试时推理无需加层重训练

最新文章

数据分析方向毕业设计精选选题推荐【热门研究方向创新选题】2026

Openclaw 切换记忆搜索Memory search本地embedding模型

MATLAB箱线图绘制全攻略：从数据导入到高级美化（附常见问题解决）

pgRouting安装及使用示例

hyperf 对接企业微信 将消息发送功能改造为异步，使用 HyperF AsyncQueue投递消息任务，失败后自动重试 3 次，超出重试次数后记录

hot100——哈希表

推荐文章

龙虾白嫖指南，请查收~勘

AI Agent在金融科技领域的应用实践：风控、投顾与合规

Unity3D动画插件DoTween进阶应用与性能优化指南

超表面贝塞尔光束生成系统代码功能深度解析

【5G系列】深入解析NAS层UAC：Access Identity与Access Category的获取机制

Spring with AI (): 搜索扩展——向量数据库与RAG(下)肺

相关文章

别再死记硬背MIPI状态转换图了！用Python脚本模拟单向/双向Data Lane状态机

HuggingFace模型下载终极优化：Autodl服务器上的国内镜像与断点续传技巧

Python EXE逆向解密深度解析：从加密打包到源码还原的完整流程

基于 Python 与 PyQt5 构建的特斯拉行车记录仪视频播放器

别再搞混了！PyTorch里CrossEntropyLoss和NLLLoss到底该用哪个？（附代码对比）

别再为Linux打印机驱动烦恼：foo2zjs开源驱动彻底解决兼容性问题

分享文章

更多文章

hyperf 对接企业微信将消息发送功能改造为异步，使用 HyperF AsyncQueue投递消息任务，失败后自动重试 3 次，超出重试次数后记录