关于Agent Harness，我整理了一个最小版！

Agent harness 工具评分插件

发布于 2026-06-14

175

版权声明

我们非常重视原创文章，为尊重知识产权并避免潜在的版权问题，我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容，访问作者的公众号页面获取完整文章。

查看原文：关于Agent Harness，我整理了一个最小版！

文章来源：

Datawhale

扫码关注公众号

扫码阅读

手机扫码阅读

文章主旨：提出并阐释一个最小化Agent评测框架（Harness）的核心构成与价值，强调通过结构化记录过程而非仅看最终结果来有效评估Agent性能。

关键要点：

Agent评测需记录工具调用、执行过程等中间信息，而非仅关注最终回答。
最小Harness由Task、Environment、Tools、Trace、Grader五个模块构成。
一个简易Eval Case示例展示了任务、固定环境、限定工具和可检查评分规则的组合。
公开资料中Anthropic、SWE-agent、Terminal-Bench、SWE-bench等为Harness设计提供参考。
Harness把Agent运行过程变成可复现、可记录、可评分的实验，便于定位问题。

内容结构：

引言：作者指出评测Agent不能只看最终答案，需要稳定记录执行过程，引出Harness概念。Harness可理解为将Agentic Model放入可运行、可记录、可评分的小环境。
一个最Mini的Harness解决什么问题？若仅手动测试Agent，易忽略工具调用细节。Mini Harness将任务放入固定环境，记录执行过程，最终输出完整记录（任务、环境、工具调用、结果、评分原因）。
Mini Harness最少需要哪些模块？拆分为5个模块：Task（任务输入）、Environment（可操作环境）、Tools（工具接口）、Trace（执行记录）、Grader（评分器）。并分别说明各模块作用。
一个Eval Case可以怎么写？通过一个JSON示例展示Mini Eval Case，包含任务、环境、工具、评分规则（must_read、answer_should_include等）。Harness需记录Trace（工具调用序列）和Grade（成功/失败及原因）。该记录价值在于可定位问题（未调用工具、错误回答、效率问题等）。
公开资料里有哪些参考？列举：Anthropic（区分Eval Harness与Agent Harness）、SWE-agent（强调Agent-Computer Interface影响）、Terminal-Bench（任务结构含instruction、隔离环境、测试脚本）、SWE-bench（给出issue，生成patch并测试）。
写在最后：建议先搭建骨架，第一版能串起任务、环境、工具、执行记录、评分器即可。有了这套结构，可分析任务理解、工具选择、参数填写、结果读取、步骤冗余、评分规则等问题。

文章总结：文章实用性强，提供了一套从零构建Agent评测支架的指南，强调过程记录对于问题定位和系统改进的核心价值。