#evaluation

2 posts

May 22, 2026

Agent Eval 全景：怎么评、怎么设计、怎么学

评测范式正在断裂。SWE-bench 退役后，Agent 产品团队该如何衡量真实能力？本文从实操流程、设计方法论、学习路径三个维度拆解 Agent Eval 全景。

#agent #evaluation #benchmark

May 5, 2026

Agent Benchmark 正在失效：为什么静态评估无法衡量真实的 Agent 能力

Claw-Eval-Live 揭示静态 Agent 评估的三种失效模式，提出需求驱动的活 benchmark 设计——季度刷新任务分布，同时保持版本内可复现。

#AI #agent #evaluation