Agentic AI Atlas

Agentic AI Atlasby a5c.ai

GitHub Docs Discord

Dark mode

iiiNode kind

Agentic AI Atlas · EvalRun

67 recordsa5c.ai

III.

Node kind ledger

EvalRun

Page 2 of 2

EvalRun records

Browse all EvalRun records in the current atlas snapshot.

Cluster · benchmarksTotal · 67Visible · 67

Filters & facets7 groups

configHash

sha256:placeholder-gpt-5-evalplus · 2 sha256:placeholder-qwen-2-5-72b-mmlu · 1 sha256:placeholder-qwen-2-5-72b-humaneval · 1 sha256:placeholder-qwen-2-5-coder-32b-humaneval · 1 sha256:placeholder-qwen-2-5-coder-32b-lcb · 1 sha256:placeholder-qwen-2-5-coder-32b-mbpp · 1 sha256:placeholder-claude-haiku-4-5-swe-bench-verified · 1 sha256:placeholder-claude-haiku-4-5-gpqa · 1 sha256:placeholder-claude-sonnet-4-6-human-eval · 1 sha256:placeholder-claude-sonnet-4-6-mmlu · 1 sha256:placeholder-claude-sonnet-4-5-bfcl-v3 · 1 sha256:placeholder-claude-opus-4-5-gpqa-diamond · 1

target

model:gpt-5@current · 9 model:claude-sonnet-4-5@current · 8 model:gemini-2-5-pro@current · 6 model:claude-opus-4-5@current · 5 model:qwen-2-5-coder-32b@current · 3 model:deepseek-v3@current · 3 model:deepseek-r1@current · 3 model:llama-3-1-405b-instruct@current · 3 model:qwen-2-5-72b-instruct@current · 2 model:claude-haiku-4-5@current · 2 model:claude-sonnet-4-6@current · 2 model:llama-3-3-70b-instruct@current · 2

targetId

model:gpt-5@current · 9 model:claude-sonnet-4-5@current · 8 model:gemini-2-5-pro@current · 6 model:claude-opus-4-5@current · 5 model:qwen-2-5-coder-32b@current · 3 model:deepseek-v3@current · 3 model:deepseek-r1@current · 3 model:llama-3-1-405b-instruct@current · 3 model:qwen-2-5-72b-instruct@current · 2 model:claude-haiku-4-5@current · 2 model:claude-sonnet-4-6@current · 2 model:llama-3-3-70b-instruct@current · 2

runAt

2025-09-29T00:00:00Z · 13 2025-08-07T00:00:00Z · 9 2025-06-17T00:00:00Z · 7 2024-11-12T00:00:00Z · 3 2024-12-26T00:00:00Z · 3 2025-01-20T00:00:00Z · 3 2024-07-23T00:00:00Z · 3 2024-09-19T00:00:00Z · 2 2025-10-15T00:00:00Z · 2 2025-11-15T00:00:00Z · 2 2024-12-06T00:00:00Z · 2 2024-07-24T00:00:00Z · 2

benchmarkId

benchmark:gpqa · 12 benchmark:mmlu · 11 benchmark:swe-bench-verified · 11 benchmark:human-eval · 9 benchmark:livecodebench · 3 benchmark:bigcode-evalplus · 3 benchmark:math · 3 benchmark:berkeley-function-calling · 2 benchmark:gsm8k · 2 benchmark:mbpp · 1 benchmark:os-world · 1 benchmark:truthful-qa · 1

runBy

anthropic · 16 openai · 11 google-deepmind · 9 deepseek · 6 qwen-team · 5 meta · 4 mistral · 4 evalplus-leaderboard · 3 berkeley-gorilla · 2 google · 2 @a5c-ai/team · 2 artificial-analysis · 1

testSetId

test-set:swe-bench-verified-2024-12 · 23 test-set:gpqa-diamond-2024 · 12 test-set:bfcl-v3 · 2 test-set:truthful-qa-mc · 1 test-set:gaia-validation · 1

id	displayName	cluster
eval-run:mmlu.phi-3-medium.2024-05	eval-run:mmlu.phi-3-medium.2024-05	benchmarks
eval-run:mmlu.qwen-2-5-72b.2024-09	eval-run:mmlu.qwen-2-5-72b.2024-09	benchmarks
eval-run:multipl-e.codestral-25-01.2025-01	eval-run:multipl-e.codestral-25-01.2025-01	benchmarks
eval-run:os-world.claude-sonnet-4-5.2025-09	eval-run:os-world.claude-sonnet-4-5.2025-09	benchmarks
eval-run:swe-bench-verified.claude-haiku-4-5.2025-10	eval-run:swe-bench-verified.claude-haiku-4-5.2025-10	benchmarks
eval-run:swe-bench-verified.claude-opus-4-5.2025-09	eval-run:swe-bench-verified.claude-opus-4-5.2025-09	benchmarks
eval-run:swe-bench-verified.claude-opus-4-7.2026-01	eval-run:swe-bench-verified.claude-opus-4-7.2026-01	benchmarks
eval-run:swe-bench-verified.claude-sonnet-4-5.2025-09	eval-run:swe-bench-verified.claude-sonnet-4-5.2025-09	benchmarks
eval-run:swe-bench-verified.gemini-2-5-flash.2025-06	eval-run:swe-bench-verified.gemini-2-5-flash.2025-06	benchmarks
eval-run:swe-bench-verified.gemini-2-5-pro.2025-06	eval-run:swe-bench-verified.gemini-2-5-pro.2025-06	benchmarks
eval-run:swe-bench-verified.gpt-5.2025-08	eval-run:swe-bench-verified.gpt-5.2025-08	benchmarks
eval-run:swe-bench-verified.o3.2025-04	eval-run:swe-bench-verified.o3.2025-04	benchmarks
eval-run:swe-bench.claude-code@1.x.2025-04-29	eval-run:swe-bench.claude-code@1.x.2025-04-29	benchmarks
eval-run:swe-bench.deepseek-v3.2024-12	eval-run:swe-bench.deepseek-v3.2024-12	benchmarks
eval-run:swe-bench.llama-3-1-405b.2024-07	eval-run:swe-bench.llama-3-1-405b.2024-07	benchmarks
eval-run:terminal-bench.claude-sonnet-4-5.2025-09	eval-run:terminal-bench.claude-sonnet-4-5.2025-09	benchmarks
eval-run:truthful-qa.claude-opus-4-5.2025-09	eval-run:truthful-qa.claude-opus-4-5.2025-09	benchmarks