关于Agent Harness,我整理了一个最小版!
版权声明
我们非常重视原创文章,为尊重知识产权并避免潜在的版权问题,我们在此提供文章的摘要供您初步了解。如果您想要查阅更为详尽的内容,访问作者的公众号页面获取完整文章。
Datawhale
扫码关注公众号
扫码阅读
手机扫码阅读
文章主旨:提出并阐释一个最小化Agent评测框架(Harness)的核心构成与价值,强调通过结构化记录过程而非仅看最终结果来有效评估Agent性能。
关键要点:
- Agent评测需记录工具调用、执行过程等中间信息,而非仅关注最终回答。
- 最小Harness由Task、Environment、Tools、Trace、Grader五个模块构成。
- 一个简易Eval Case示例展示了任务、固定环境、限定工具和可检查评分规则的组合。
- 公开资料中Anthropic、SWE-agent、Terminal-Bench、SWE-bench等为Harness设计提供参考。
- Harness把Agent运行过程变成可复现、可记录、可评分的实验,便于定位问题。
内容结构:
- 引言:作者指出评测Agent不能只看最终答案,需要稳定记录执行过程,引出Harness概念。Harness可理解为将Agentic Model放入可运行、可记录、可评分的小环境。
- 一个最Mini的Harness解决什么问题?若仅手动测试Agent,易忽略工具调用细节。Mini Harness将任务放入固定环境,记录执行过程,最终输出完整记录(任务、环境、工具调用、结果、评分原因)。
- Mini Harness最少需要哪些模块?拆分为5个模块:Task(任务输入)、Environment(可操作环境)、Tools(工具接口)、Trace(执行记录)、Grader(评分器)。并分别说明各模块作用。
- 一个Eval Case可以怎么写?通过一个JSON示例展示Mini Eval Case,包含任务、环境、工具、评分规则(must_read、answer_should_include等)。Harness需记录Trace(工具调用序列)和Grade(成功/失败及原因)。该记录价值在于可定位问题(未调用工具、错误回答、效率问题等)。
- 公开资料里有哪些参考?列举:Anthropic(区分Eval Harness与Agent Harness)、SWE-agent(强调Agent-Computer Interface影响)、Terminal-Bench(任务结构含instruction、隔离环境、测试脚本)、SWE-bench(给出issue,生成patch并测试)。
- 写在最后:建议先搭建骨架,第一版能串起任务、环境、工具、执行记录、评分器即可。有了这套结构,可分析任务理解、工具选择、参数填写、结果读取、步骤冗余、评分规则等问题。
文章总结:文章实用性强,提供了一套从零构建Agent评测支架的指南,强调过程记录对于问题定位和系统改进的核心价值。
Datawhale
Datawhale
扫码关注公众号
没有了
上一篇
我用 Codex 做研究后,总结出 6 条有用经验!
下一篇
还在用多套工具管项目?
一个平台搞定产品、项目、质量与效能,告别整合之苦,实现全流程闭环。
查看方案
Datawhale的其他文章
加入社区微信群
与行业大咖零距离交流学习
PMO实践白皮书
白皮书上线
白皮书上线