Harness Engineering,让你三天做出产品原型,告别一周垃圾代码!

张开发
2026/4/14 23:39:32 15 分钟阅读

分享文章

Harness Engineering,让你三天做出产品原型,告别一周垃圾代码!
本文介绍了Harness Engineering的概念即围绕大模型搭建的外部框架用于控制、执行、验证和反馈从而驾驭AI的力量。文章指出随着模型能力的增强系统的成败越来越取决于外部框架而非模型本身。Harness Engineering通过拆分agent为初始化、编码和评估等角色并借鉴软件工程的实践解决了agent的“失忆”、“焦虑”和“不自审”问题。文章还提到了Claude Code代码泄漏事件展示了其六层Harness方法论强调了系统设计和工程智慧的重要性。最终得出结论随着模型越来越强Harness Engineering的作用将越大成为AI从业者真正的分水岭。同样是用AI写代码—— 有人三天做出了可以跑的产品原型 有人一周下来生成了一堆能看不能用的垃圾。差距不在模型在于有没有学会驾驭它。今天要聊的这个概念叫做Harness Engineering。 它正在成为2026年AI从业者之间真正的能力分水岭。什么是HarnessHarness字面意思是马具、缰绳。 套在马身上那一套装备——不是为了限制马而是为了把马的力量引导到正确方向。 没有马具马再强壮也只是乱跑有了马具力量才能变成效率。用在AI上逻辑完全一样 Harness Engineering就是围绕大模型搭建的那套控制、执行、验证和反馈的外部框架。当模型能力已经足够强的时候 系统成败越来越多地取决于模型外部的这套框架而不是模型本身。这个概念从哪儿来Anthropic一直在系统性的研究和实践这个方向2025年11月他们发表了第一篇工程博客 《Effective Harnesses for Long-Running Agents》 探讨如何让agent跨越多个上下文窗口持续工作。今年2月HashiCorp 联合创始人在他的博客文章中提到“Engineer the Harness”从一个资深AI开发者角度讲了自己对「harness engineering」的理解然后OpenAI发表了一篇文章《Harness engineering: leveraging Codex in an agent-first world》OpenAI认为在agent时代人类工程师的主要工作不再是亲手写代码而是设计一个让智能体能持续产出、持续纠错、持续升级的“工程驾驶舱harness”。刚刚过去的2026年3月Anthropic发表了升级版 《Harness Design for Long-Running Application Development》 把方法论推向了更复杂的多agent系统。Harness Engineering作为一个独立术语在2026年初被广泛讨论 是因为越来越多工程师发现换模型解决不了的问题换框架往往可以。它主要解决什么问题我们在开发agent的时候复杂任务通常要求• 长时间不间断工作横跨很多上下文窗口• 调用大量工具协调多个步骤• 最终产出符合质量要求、经过验证的结果听起来合理但实际跑起来会撞上三堵墙第一堵墙agent会失忆。上下文窗口有限一旦超出新会话开始时agent完全不知道之前发生了什么。就像一个每天上班都不记得昨天干了啥的员工。第二堵墙agent会焦虑。Anthropic把这个现象叫做上下文焦虑context anxiety——当模型感觉上下文快满了它会提前草草收尾宣布任务完成。但任务根本没完成。第三堵墙agent不会审视自己。让AI评价自己刚写的代码它几乎总会说很好很好。即使代码漏洞百出。这不是谦虚的问题而是结构性的盲区——对自己下狠手比对别人使绊子难得多。传统方法为什么不够用方式一Prompt Engineering用更好的提示词把任务讲清楚一旦任务复杂你很难在一段话里把所有细节和约束都说明白。天花板很低。方式二Context Engineering给模型更好的上下文压缩信息、组织文档让它理解任务全貌。 ~~比方式一进了一步~~但面对跨会话的长任务仍然解决不了失忆和焦虑的问题。这两种方式本质上都是在更好的跟模型说话。 而Harness Engineering的思路完全不同——不是更好地跟模型说话而是给模型搭一个能持续工作的系统。Harness怎么解决这个问题的Anthropic的第一代答案灵感来自一个朴素的地方观察优秀的软件工程师每天是怎么工作的。写commit、留进度记录、写交接文档…… 这些再平常不过的工程习惯被系统性地移植给了AI。具体做法是把agent拆成两个角色初始化agent这个agent的工作内容就是打地基—— 写启动脚本、列出200多条功能清单全部标记为未完成、建立进度记录文件、创建第一个git commit。 工作目标是给后来者留好完整的交接文档。编码agent他在每次开始新会话之前会有一套固定流程—— 先读git日志和进度文件搞清楚现在到哪一步 启动服务器跑一遍基础测试确认项目没坏 从清单里选一个最优先的未完成功能只做这一个 做完提交commit、更新进度文件留好交接。像一个永远准时交接班的工程团队。 每个人上班第一件事是读上个人的记录下班前给下个人留好文档。看到这里是不是打工牛马的味道出来了这套方案解决了失忆问题但还不够。面对更复杂、更主观、更长的任务新的问题浮出水面—— 尤其是那第三堵墙AI不会审视自己。Anthropic的灵感这次来自GAN——生成对抗网络。 GAN的核心思路是让生成者和判别者互相博弈逼出更高质量的输出。把这个思路搬到agent设计里 让两个agent互相博弈。生成者Generator负责干活实现功能。评估者Evaluator不写代码专门挑毛病。 用Playwright这样的工具像真实用户一样点击、操作、测试 然后按照一套明确的评分标准打分——功能完整性、视觉设计、代码质量…… 有一项不达标直接打回重做。生成者根据评估者的反馈迭代跑5到15轮整个过程可能需要4个小时。职场感是不是扑面而来一个拼命干活一个在旁边指指点点。但效果是真实的—— 对自己下狠手几乎不可能 但把评估者调教成一个职业刁难专家却是完全可以做到的。完整三层架构跟成熟软件工程重合如果任务更复杂还可以再加一层变成三个agent规划者Planner把用户的一句话需求扩展成完整的产品规格说明书。 强调想清楚做什么而不过度锁死技术细节。 ——职场对应理解领导意图、给团队设目标的那个人。生成者Generator按照规划一个功能一个功能地推进小步快跑。 ——职场对应埋头干活的你我。评估者Evaluator不动手只动嘴。像专业测试一样操作应用发现问题打分逼生成者返工。 ——职场对应那个永远在说这里还不够好的专家。这个架构已经跟成熟的软件工程流程高度重合产品规划 → 研发 → 测试只不过三个角色都是AI在扮演。来自实验数据的证明Anthropic自己做了对比测试同样的任务——构建一个复古2D游戏制作工具单agent运行20分钟花费9美元。 打开之后界面整洁但游戏根本玩不了核心功能的连接逻辑完全没有实现。完整harness运行6小时花费200美元。 不仅界面更精细最重要的是——游戏可以真正玩起来。贵了20倍但从看起来完成了到真的完成了这个差距才是真正的差距。什么才是完美的harness 架构不小心被泄漏的Claude Code代码做了一次绝佳的示范2026年3月31日 Anthropic不小心把内部调试用的源代码 打包进了公开发布的软件包里。50万行TypeScript代码1902个文件 就这样完全暴露在了公众面前。研究者们翻完这些代码之后 得出了一个让人意外的结论Claude Code的用户体验 60%来自模型本身40%来自harness。这40%是可以学习和复制的工程智慧。 也是决定下限的那40%。代码泄漏背后的秘密这套代码是最好的harness工程方法论实践揭示了六层harness方法论第一层系统提示词工程。Claude Code为每次交互 组装了一套巨大的系统提示词—— 身份、边界、规则、项目状态全部在你看不见的地方塞进去。第二层缓存经济学。你每次跟Claude Code对话背后都在调用API都在花钱。 代码里专门有一个模块追踪14种会导致缓存失效的场景 主动管理提示词缓存的命中率。说人话就是 系统提示词里有一大半是所有用户共享的、不变的内容 这部分可以缓存起来不用每次都重新发给AI—— 命中缓存就省钱没命中就多花钱。所以harness里专门有一层像管数据库查询计划一样 盯着缓存的命中率 主动决定什么时候保留、什么时候刷新。**第三层安全审查双AI。**背后有两个AI一个干活一个盯着。你以为Claude Code在自动运行时没有人监管 错。 每一个操作都有一个完全独立的AI分类器在旁边打分 这个操作安不安全 允许、需要确认、还是直接阻断 连续三次被拒绝系统自动降级停下来等你确认。这就是harness里的安全兜底—— 不是靠模型的自律而是靠系统的制度。**第四层记忆系统设计。**记忆只存人的偏好永远不存代码。这条原则看起来简单背后却有深刻的工程哲学 代码会变记忆不会自动更新。 如果AI记住了函数X在第30行 下次对话时代码已经重构 这条记忆就变成了毒药。所以harness的设计是 只记住你喜欢用TypeScript、喜欢简洁风格、讨厌废话 代码相关的事实永远实时读取从不依赖记忆。**第五层结构化上下文压缩。**压缩上下文不是总结一下是九段协议。当对话太长需要压缩时 Claude Code不是让AI随便摘要 而是严格按照九个维度提取—— 其中有一条是铁律用户说过的每一句话必须100%完整保留。 因为你说上次那样做不对的那句纠正 一旦被压缩掉AI就会重蹈覆辙。**第六层多agent协调。**多个AI协作靠的不是代码是语言。多个agent同时工作时 它们之间的协调方式出人意料—— 不是靠什么复杂的状态机制或调度框架 而是靠写在提示词里的自然语言指令 “不要给质量差的工作盖章”“超出权限的操作向上汇报”……六层加在一起就是claude code 组织管理哲学的工程化实现说明了什么最好的AI系统不是最聪明的AI系统 而是最不容易出错的AI系统。结语抓住大模型时代的职业机遇AI大模型的发展不是“替代人类”而是“重塑职业价值”——它淘汰的是重复性、低附加值的工作却催生了更多需要“技术业务”交叉能力的高端岗位。对于求职者而言想要在这波浪潮中立足不仅需要掌握Python、TensorFlow/PyTorch等技术工具更要深入理解目标行业的业务逻辑如金融的风险控制、医疗的临床需求成为“懂技术、懂业务”的复合型人才。无论是技术研发岗如算法工程师、研究员还是业务落地岗如产品经理、应用工程师大模型都为不同背景的职场人提供了广阔的发展空间。只要保持学习热情紧跟技术趋势就能在AI大模型时代找到属于自己的职业新蓝海。最近两年大模型发展很迅速在理论研究方面得到很大的拓展基础模型的能力也取得重大突破大模型现在正在积极探索落地的方向如果与各行各业结合起来是未来落地的一个重大研究方向大模型应用工程师年包50w属于中等水平如果想要入门大模型那现在正是最佳时机2025年Agent的元年2026年将会百花齐放相应的应用将覆盖文本视频语音图像等全模态如果你对AI大模型入门感兴趣那么你需要的话可以点击这里大模型重磅福利入门进阶全套104G学习资源包免费分享扫描下方csdn官方合作二维码获取哦给大家推荐一个大模型应用学习路线这个学习路线的具体内容如下第一节提示词工程提示词是用于与AI模型沟通交流的这一部分主要介绍基本概念和相应的实践高级的提示词工程来实现模型最佳效果以现实案例为基础进行案例讲解在企业中除了微调之外最喜欢的就是用提示词工程技术来实现模型性能的提升第二节检索增强生成RAG可能大家经常会看见RAG这个名词这个就是将向量数据库与大模型结合的技术通过外部知识来增强改进提升大模型的回答结果这一部分主要介绍RAG架构与组件从零开始搭建RAG系统生成部署RAG性能优化等第三节微调预训练之后的模型想要在具体任务上进行适配那就需要通过微调来提升模型的性能能满足定制化的需求这一部分主要介绍微调的基础模型适配技术最佳实践的案例以及资源优化等内容第四节模型部署想要把预训练或者微调之后的模型应用于生产实践那就需要部署模型部署分为云端部署和本地部署部署的过程中需要考虑硬件支持服务器性能以及对性能进行优化使用过程中的监控维护等第五节人工智能系统和项目这一部分主要介绍自主人工智能系统包括代理框架决策框架多智能体系统以及实际应用然后通过实践项目应用前面学习到的知识包括端到端的实现行业相关情景等学完上面的大模型应用技术就可以去做一些开源的项目大模型领域现在非常注重项目的落地后续可以学习一些Agent框架等内容上面的资料做了一些整理有需要的同学可以下方添加二维码获取仅供学习使用

更多文章