Atlas Graph Explorer

eval-run:gaia.claude-code.2025

EvalRunbenchmarks/eval-runs/gaia-claude-code.yaml·Open in Graph →

eval-run:gaia.claude-code.… EvalRun

agent-version:claude-code@… AgentVersion

test-set:gaia-validation TestSet

benchmark:gaia Benchmark

eval-harness:inspect-ai EvalHarness

eval-harness:helm EvalHarness

eval-harness:lm-eval-harness EvalHarness

eval-harness:openai-evals EvalHarness

eval-harness:promptfoo EvalHarness

judge:gpt-4o-pairwise Judge

judge:claude-3-5-sonnet-ru… Judge

judge:exact-match Judge

rubric:helpfulness-1-5 Rubric

rubric:safety-3-axis Rubric

rubric:code-quality Rubric

eval-result:mmlu.qwen-2-5-… EvalResult

eval-result:gaia.claude-co… EvalResult