刚刚,一篇最全Agent Harness综述来了!

Agent 模型 工具 上下文 Harness
发布于 2026-06-14
3

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:Agent 系统的核心瓶颈已从模型能力转向模型外部的工程外壳(Harness),提升 Agent 在真实任务中的可靠性需要系统化地构建执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估与安全治理七层能力。

关键要点:

  • 同一模型换用不同 Harness 配置,性能可提升数倍至数十倍,模型能力并非唯一决定因素。
  • Agent 工程演进历经 Prompt Engineering、Context Engineering 到 Harness Engineering 三个阶段,后者解决模型在真实世界中的可靠执行。
  • 完整的 Agent Harness 包含 ETCLOVG 七层:Execution、Tooling、Context、Lifecycle、Observability、Verification、Governance。
  • 可观测性与治理是生产级 Agent 的独立关键层,确保知道 Agent “做了什么”和“被允许做什么”。
  • Agent 评估应从“排行榜机制”转向“质量控制机制”,以完整执行轨迹(trace)为评估对象,关注结果正确性、路径合理性与评估器可信度。

内容结构:

  • 光换模型,可能不是 Agent 最有效的升级:学术界长期偏重模型能力,但实际瓶颈在于 Harness 系统;实例表明改变工具格式、系统 prompt 等可带来 10 倍性能提升。
  • Agent 工程经历了三次迁移:Prompt Engineering(怎么跟模型说话)→ Context Engineering(模型该看见什么)→ Harness Engineering(怎么让模型在真实世界可靠干活)。
  • 一个 Harness 到底包括什么?:提出 ETCLOVG 七层框架,分别对应执行环境、工具接口、上下文与记忆、生命周期与编排、可观测性、验证评估、治理与安全。
  • 为什么可观测性和治理要单独拿出来?:生产环境中,Agent 会执行真实动作,必须追踪其行为(可观测性)并限制其权限(治理),两者不是附属功能。
  • 有了 Harness,Agent 的评价方式也要变:最终成功率背后混杂多重变量,需以完整执行轨迹为评估对象,记录所有中间步骤,判断结果、路径和评估器可信度。
  • 生产 Agent 最大的矛盾:能力越强,控制越难:成本/质量/速度三角、能力/控制矛盾、Harness 各层耦合效应,任何修改都可能改变整个系统行为。
  • 从 Agent Framework 到 Agent Platform:早期竞争在于快速构建 Agent 循环,现在转向让循环长期可靠运行,竞争核心是整套 Harness 能力。
  • 下一阶段,Agent 要学会“少加脚手架”:随着模型变强,应重新评估不必要的控制层,Harness 设计需要知道何时加控制、何时删控制。
  • 结语:Agent 下一场竞争是模型外面的工程外壳;开发者的提问应从“哪个模型更强”转向“在哪个环境、怎样被管理”。

文章总结:Agent 要从玩具变为基础设施,关键在于构建完整的 Harness 工程系统,而非单纯追求模型能力提升;生产环境中,可观测性、治理、评估和系统耦合设计比模型本身更值得投入。

Datawhale