May 5, 2026 Agent Benchmark 正在失效:为什么静态评估无法衡量真实的 Agent 能力 Claw-Eval-Live 揭示静态 Agent 评估的三种失效模式,提出需求驱动的活 benchmark 设计——季度刷新任务分布,同时保持版本内可复现。 #AI #agent #evaluation