刚刚，一篇最全Agent Harness综述来了！

Agent 模型工具上下文 Harness

发布于 2026-06-14

214

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：刚刚，一篇最全Agent Harness综述来了！

文章来源：

Datawhale

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：Agent 系统的核心瓶颈已从模型能力转向模型外部的工程外壳（Harness），提升 Agent 在真实任务中的可靠性需要系统化地构建执行环境、工具接口、上下文管理、生命周期编排、可观测性、验证评估与安全治理七层能力。

关键要点：

同一模型换用不同 Harness 配置，性能可提升数倍至数十倍，模型能力并非唯一决定因素。
Agent 工程演进历经 Prompt Engineering、Context Engineering 到 Harness Engineering 三个阶段，后者解决模型在真实世界中的可靠执行。
完整的 Agent Harness 包含 ETCLOVG 七层：Execution、Tooling、Context、Lifecycle、Observability、Verification、Governance。
可观测性与治理是生产级 Agent 的独立关键层，确保知道 Agent “做了什么”和“被允许做什么”。
Agent 评估应从“排行榜机制”转向“质量控制机制”，以完整执行轨迹（trace）为评估对象，关注结果正确性、路径合理性与评估器可信度。

内容结构：

光换模型，可能不是 Agent 最有效的升级：学术界长期偏重模型能力，但实际瓶颈在于 Harness 系统；实例表明改变工具格式、系统 prompt 等可带来 10 倍性能提升。
Agent 工程经历了三次迁移：Prompt Engineering（怎么跟模型说话）→ Context Engineering（模型该看见什么）→ Harness Engineering（怎么让模型在真实世界可靠干活）。
一个 Harness 到底包括什么？：提出 ETCLOVG 七层框架，分别对应执行环境、工具接口、上下文与记忆、生命周期与编排、可观测性、验证评估、治理与安全。
为什么可观测性和治理要单独拿出来？：生产环境中，Agent 会执行真实动作，必须追踪其行为（可观测性）并限制其权限（治理），两者不是附属功能。
有了 Harness，Agent 的评价方式也要变：最终成功率背后混杂多重变量，需以完整执行轨迹为评估对象，记录所有中间步骤，判断结果、路径和评估器可信度。
生产 Agent 最大的矛盾：能力越强，控制越难：成本/质量/速度三角、能力/控制矛盾、Harness 各层耦合效应，任何修改都可能改变整个系统行为。
从 Agent Framework 到 Agent Platform：早期竞争在于快速构建 Agent 循环，现在转向让循环长期可靠运行，竞争核心是整套 Harness 能力。
下一阶段，Agent 要学会“少加脚手架”：随着模型变强，应重新评估不必要的控制层，Harness 设计需要知道何时加控制、何时删控制。
结语：Agent 下一场竞争是模型外面的工程外壳；开发者的提问应从“哪个模型更强”转向“在哪个环境、怎样被管理”。