Agentic AI Atlas

Agentic AI Atlasby a5c.ai

GitHub Docs Discord

Dark mode

iiiNode kind

Agentic AI Atlas · EvalResult

13 recordsa5c.ai

III.

Node kind ledger

EvalResult

Page 1 of 1

EvalResult records

Browse all EvalResult records in the current atlas snapshot.

Cluster · benchmarksTotal · 70Visible · 13

metricName: pass@1 x clear all

Filters & facets1 active · 4 groups

evalRunId

eval-run:swe-bench-verified.gpt-5.2025-08 · 3 eval-run:swe-bench-verified.claude-sonnet-4-5.2025-09 · 2 eval-run:mmlu.qwen-2-5-72b.2024-09 · 1 eval-run:human-eval.qwen-2-5-72b.2024-09 · 1 eval-run:human-eval.qwen-2-5-coder-32b.2024-11 · 1 eval-run:livecodebench.qwen-2-5-coder-32b.2024-11 · 1 eval-run:mbpp.qwen-2-5-coder-32b.2024-11 · 1 eval-run:swe-bench-verified.claude-haiku-4-5.2025-10 · 1 eval-run:gpqa.claude-haiku-4-5.2025-10 · 1 eval-run:human-eval.claude-sonnet-4-6.2025-11 · 1 eval-run:mmlu.claude-sonnet-4-6.2025-11 · 1 eval-run:bfcl.claude-sonnet-4-5.2025-09 · 1

reportedAt

2025-09-29T00:00:00Z · 14 2025-08-07T00:00:00Z · 11 2025-06-17T00:00:00Z · 7 2024-11-12T00:00:00Z · 3 2024-12-26T00:00:00Z · 3 2025-01-20T00:00:00Z · 3 2024-07-23T00:00:00Z · 3 2024-09-19T00:00:00Z · 2 2025-10-15T00:00:00Z · 2 2025-11-15T00:00:00Z · 2 2026-05-04T00:00:00Z · 2 2024-12-06T00:00:00Z · 2

metricName

accuracy · 33 pass_rate · 16 pass@1 · 13 success_rate · 2 resolved_rate · 2 mc2 · 1 attack_success_rate · 1 pass_rate_high_compute · 1 pass_rate_headline · 1

unit

fraction · 69 pct · 1

id	displayName	cluster
eval-result:human-eval-plus.claude-sonnet-4-5.001	eval-result:human-eval-plus.claude-sonnet-4-5.001	benchmarks
eval-result:human-eval-plus.gpt-5.001	eval-result:human-eval-plus.gpt-5.001	benchmarks
eval-result:human-eval.codestral-25-01.001	eval-result:human-eval.codestral-25-01.001	benchmarks
eval-result:human-eval.deepseek-v3.001	eval-result:human-eval.deepseek-v3.001	benchmarks
eval-result:human-eval.llama-3-1-405b.001	eval-result:human-eval.llama-3-1-405b.001	benchmarks
eval-result:human-eval.llama-3-3-70b.001	eval-result:human-eval.llama-3-3-70b.001	benchmarks
eval-result:human-eval.mistral-large-2.001	eval-result:human-eval.mistral-large-2.001	benchmarks
eval-result:human-eval.qwen-2-5-72b.001	eval-result:human-eval.qwen-2-5-72b.001	benchmarks
eval-result:human-eval.qwen-2-5-coder-32b.001	eval-result:human-eval.qwen-2-5-coder-32b.001	benchmarks
eval-result:livecodebench.qwen-2-5-coder-32b.001	eval-result:livecodebench.qwen-2-5-coder-32b.001	benchmarks
eval-result:math.deepseek-r1.001	eval-result:math.deepseek-r1.001	benchmarks
eval-result:mbpp.qwen-2-5-coder-32b.001	eval-result:mbpp.qwen-2-5-coder-32b.001	benchmarks
eval-result:multipl-e.codestral-25-01.001	eval-result:multipl-e.codestral-25-01.001	benchmarks