Agentic AI Atlas

Agentic AI Atlasby a5c.ai

GitHub Docs Discord

Dark mode

iiiNode kind

Agentic AI Atlas · EvalResult

70 recordsa5c.ai

III.

Node kind ledger

EvalResult

Page 2 of 2

EvalResult records

Browse all EvalResult records in the current atlas snapshot.

Cluster · benchmarksTotal · 70Visible · 70

Filters & facets4 groups

evalRunId

eval-run:swe-bench-verified.gpt-5.2025-08 · 3 eval-run:swe-bench-verified.claude-sonnet-4-5.2025-09 · 2 eval-run:mmlu.qwen-2-5-72b.2024-09 · 1 eval-run:human-eval.qwen-2-5-72b.2024-09 · 1 eval-run:human-eval.qwen-2-5-coder-32b.2024-11 · 1 eval-run:livecodebench.qwen-2-5-coder-32b.2024-11 · 1 eval-run:mbpp.qwen-2-5-coder-32b.2024-11 · 1 eval-run:swe-bench-verified.claude-haiku-4-5.2025-10 · 1 eval-run:gpqa.claude-haiku-4-5.2025-10 · 1 eval-run:human-eval.claude-sonnet-4-6.2025-11 · 1 eval-run:mmlu.claude-sonnet-4-6.2025-11 · 1 eval-run:bfcl.claude-sonnet-4-5.2025-09 · 1

reportedAt

2025-09-29T00:00:00Z · 14 2025-08-07T00:00:00Z · 11 2025-06-17T00:00:00Z · 7 2024-11-12T00:00:00Z · 3 2024-12-26T00:00:00Z · 3 2025-01-20T00:00:00Z · 3 2024-07-23T00:00:00Z · 3 2024-09-19T00:00:00Z · 2 2025-10-15T00:00:00Z · 2 2025-11-15T00:00:00Z · 2 2026-05-04T00:00:00Z · 2 2024-12-06T00:00:00Z · 2

metricName

accuracy · 33 pass_rate · 16 pass@1 · 13 success_rate · 2 resolved_rate · 2 mc2 · 1 attack_success_rate · 1 pass_rate_high_compute · 1 pass_rate_headline · 1

unit

fraction · 69 pct · 1

id	displayName	cluster
eval-result:mmlu.phi-3-medium.001	eval-result:mmlu.phi-3-medium.001	benchmarks
eval-result:mmlu.qwen-2-5-72b.001	eval-result:mmlu.qwen-2-5-72b.001	benchmarks
eval-result:multipl-e.codestral-25-01.001	eval-result:multipl-e.codestral-25-01.001	benchmarks
eval-result:os-world.claude-sonnet-4-5.001	eval-result:os-world.claude-sonnet-4-5.001	benchmarks
eval-result:swe-bench-verified.claude-haiku-4-5.001	eval-result:swe-bench-verified.claude-haiku-4-5.001	benchmarks
eval-result:swe-bench-verified.claude-opus-4-5.001	eval-result:swe-bench-verified.claude-opus-4-5.001	benchmarks
eval-result:swe-bench-verified.claude-opus-4-7.001	eval-result:swe-bench-verified.claude-opus-4-7.001	benchmarks
eval-result:swe-bench-verified.claude-sonnet-4-5.001	eval-result:swe-bench-verified.claude-sonnet-4-5.001	benchmarks
eval-result:swe-bench-verified.claude-sonnet-4-5.high-compute.001	eval-result:swe-bench-verified.claude-sonnet-4-5.high-compute.001	benchmarks
eval-result:swe-bench-verified.gemini-2-5-flash.001	eval-result:swe-bench-verified.gemini-2-5-flash.001	benchmarks
eval-result:swe-bench-verified.gemini-2-5-pro.001	eval-result:swe-bench-verified.gemini-2-5-pro.001	benchmarks
eval-result:swe-bench-verified.gpt-5.001	eval-result:swe-bench-verified.gpt-5.001	benchmarks
eval-result:swe-bench-verified.gpt-5.headline	eval-result:swe-bench-verified.gpt-5.headline	benchmarks
eval-result:swe-bench-verified.gpt-5.headline.001	eval-result:swe-bench-verified.gpt-5.headline.001	benchmarks
eval-result:swe-bench-verified.o3.001	eval-result:swe-bench-verified.o3.001	benchmarks
eval-result:swe-bench.claude-code.001	eval-result:swe-bench.claude-code.001	benchmarks
eval-result:swe-bench.deepseek-v3.001	eval-result:swe-bench.deepseek-v3.001	benchmarks
eval-result:swe-bench.llama-3-1-405b.001	eval-result:swe-bench.llama-3-1-405b.001	benchmarks
eval-result:terminal-bench.claude-sonnet-4-5.001	eval-result:terminal-bench.claude-sonnet-4-5.001	benchmarks
eval-result:truthful-qa.claude-opus-4-5.001	eval-result:truthful-qa.claude-opus-4-5.001	benchmarks