Agentic AI Atlas

Agentic AI Atlasby a5c.ai

GitHub Docs Discord

Dark mode

iiiNode kind

Agentic AI Atlas · EvalResult

11 recordsa5c.ai

III.

Node kind ledger

EvalResult

Page 1 of 1

EvalResult records

Browse all EvalResult records in the current atlas snapshot.

Cluster · benchmarksTotal · 70Visible · 11

reportedAt: 2025-08-07T00:00:00Z x clear all

Filters & facets1 active · 4 groups

evalRunId

eval-run:swe-bench-verified.gpt-5.2025-08 · 3 eval-run:swe-bench-verified.claude-sonnet-4-5.2025-09 · 2 eval-run:mmlu.qwen-2-5-72b.2024-09 · 1 eval-run:human-eval.qwen-2-5-72b.2024-09 · 1 eval-run:human-eval.qwen-2-5-coder-32b.2024-11 · 1 eval-run:livecodebench.qwen-2-5-coder-32b.2024-11 · 1 eval-run:mbpp.qwen-2-5-coder-32b.2024-11 · 1 eval-run:swe-bench-verified.claude-haiku-4-5.2025-10 · 1 eval-run:gpqa.claude-haiku-4-5.2025-10 · 1 eval-run:human-eval.claude-sonnet-4-6.2025-11 · 1 eval-run:mmlu.claude-sonnet-4-6.2025-11 · 1 eval-run:bfcl.claude-sonnet-4-5.2025-09 · 1

reportedAt

2025-09-29T00:00:00Z · 14 2025-08-07T00:00:00Z · 11 2025-06-17T00:00:00Z · 7 2024-11-12T00:00:00Z · 3 2024-12-26T00:00:00Z · 3 2025-01-20T00:00:00Z · 3 2024-07-23T00:00:00Z · 3 2024-09-19T00:00:00Z · 2 2025-10-15T00:00:00Z · 2 2025-11-15T00:00:00Z · 2 2026-05-04T00:00:00Z · 2 2024-12-06T00:00:00Z · 2

metricName

accuracy · 33 pass_rate · 16 pass@1 · 13 success_rate · 2 resolved_rate · 2 mc2 · 1 attack_success_rate · 1 pass_rate_high_compute · 1 pass_rate_headline · 1

unit

fraction · 69 pct · 1

id	displayName	cluster
eval-result:bfcl.gpt-5.001	eval-result:bfcl.gpt-5.001	benchmarks
eval-result:evalplus.gpt-5.001	eval-result:evalplus.gpt-5.001	benchmarks
eval-result:gpqa-diamond.gpt-5.001	eval-result:gpqa-diamond.gpt-5.001	benchmarks
eval-result:gpqa.gpt-5.001	eval-result:gpqa.gpt-5.001	benchmarks
eval-result:human-eval-plus.gpt-5.001	eval-result:human-eval-plus.gpt-5.001	benchmarks
eval-result:human-eval.gpt-5.001	eval-result:human-eval.gpt-5.001	benchmarks
eval-result:livecodebench.gpt-5.001	eval-result:livecodebench.gpt-5.001	benchmarks
eval-result:math.gpt-5.001	eval-result:math.gpt-5.001	benchmarks
eval-result:swe-bench-verified.gpt-5.001	eval-result:swe-bench-verified.gpt-5.001	benchmarks
eval-result:swe-bench-verified.gpt-5.headline	eval-result:swe-bench-verified.gpt-5.headline	benchmarks
eval-result:swe-bench-verified.gpt-5.headline.001	eval-result:swe-bench-verified.gpt-5.headline.001	benchmarks