关于Agent Harness,我整理了一个最小版!

Agent harness 工具 评分 插件
发布于 2026-06-14
3

我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。

扫码阅读
手机扫码阅读

文章主旨:提出并阐释一个最小化Agent评测框架(Harness)的核心构成与价值,强调通过结构化记录过程而非仅看最终结果来有效评估Agent性能。

关键要点:

  • Agent评测需记录工具调用、执行过程等中间信息,而非仅关注最终回答。
  • 最小Harness由Task、Environment、Tools、Trace、Grader五个模块构成。
  • 一个简易Eval Case示例展示了任务、固定环境、限定工具和可检查评分规则的组合。
  • 公开资料中Anthropic、SWE-agent、Terminal-Bench、SWE-bench等为Harness设计提供参考。
  • Harness把Agent运行过程变成可复现、可记录、可评分的实验,便于定位问题。

内容结构:

  1. 引言:作者指出评测Agent不能只看最终答案,需要稳定记录执行过程,引出Harness概念。Harness可理解为将Agentic Model放入可运行、可记录、可评分的小环境。
  2. 一个最Mini的Harness解决什么问题?若仅手动测试Agent,易忽略工具调用细节。Mini Harness将任务放入固定环境,记录执行过程,最终输出完整记录(任务、环境、工具调用、结果、评分原因)。
  3. Mini Harness最少需要哪些模块?拆分为5个模块:Task(任务输入)、Environment(可操作环境)、Tools(工具接口)、Trace(执行记录)、Grader(评分器)。并分别说明各模块作用。
  4. 一个Eval Case可以怎么写?通过一个JSON示例展示Mini Eval Case,包含任务、环境、工具、评分规则(must_read、answer_should_include等)。Harness需记录Trace(工具调用序列)和Grade(成功/失败及原因)。该记录价值在于可定位问题(未调用工具、错误回答、效率问题等)。
  5. 公开资料里有哪些参考?列举:Anthropic(区分Eval Harness与Agent Harness)、SWE-agent(强调Agent-Computer Interface影响)、Terminal-Bench(任务结构含instruction、隔离环境、测试脚本)、SWE-bench(给出issue,生成patch并测试)。
  6. 写在最后:建议先搭建骨架,第一版能串起任务、环境、工具、执行记录、评分器即可。有了这套结构,可分析任务理解、工具选择、参数填写、结果读取、步骤冗余、评分规则等问题。

文章总结:文章实用性强,提供了一套从零构建Agent评测支架的指南,强调过程记录对于问题定位和系统改进的核心价值。

Datawhale