EvalResult

34 of 73 records

id	displayName	cluster
eval-result:arc-challenge.claude-sonnet-4-5.001	eval-result:arc-challenge.claude-sonnet-4-5.001	benchmarks
eval-result:bfcl.claude-sonnet-4-5.001	eval-result:bfcl.claude-sonnet-4-5.001	benchmarks
eval-result:bfcl.gpt-5.001	eval-result:bfcl.gpt-5.001	benchmarks
eval-result:gaia.claude-code.001	eval-result:gaia.claude-code.001	benchmarks
eval-result:gpqa-diamond.claude-opus-4-5.001	eval-result:gpqa-diamond.claude-opus-4-5.001	benchmarks
eval-result:gpqa-diamond.gemini-2-5-pro.001	eval-result:gpqa-diamond.gemini-2-5-pro.001	benchmarks
eval-result:gpqa-diamond.gemini-3-1-pro.2026-02-19.accuracy	eval-result:gpqa-diamond.gemini-3-1-pro.2026-02-19.accuracy	benchmarks
eval-result:gpqa-diamond.gemini-3-pro.2025-11-18.accuracy	eval-result:gpqa-diamond.gemini-3-pro.2025-11-18.accuracy	benchmarks
eval-result:gpqa-diamond.gpt-5-4-mini.2026-03-17.accuracy	eval-result:gpqa-diamond.gpt-5-4-mini.2026-03-17.accuracy	benchmarks
eval-result:gpqa-diamond.gpt-5-4.2026-03-17.accuracy	eval-result:gpqa-diamond.gpt-5-4.2026-03-17.accuracy	benchmarks
eval-result:gpqa-diamond.gpt-5.001	eval-result:gpqa-diamond.gpt-5.001	benchmarks
eval-result:gpqa.claude-haiku-4-5.001	eval-result:gpqa.claude-haiku-4-5.001	benchmarks
eval-result:gpqa.claude-sonnet-4-5.001	eval-result:gpqa.claude-sonnet-4-5.001	benchmarks
eval-result:gpqa.deepseek-r1.001	eval-result:gpqa.deepseek-r1.001	benchmarks
eval-result:gpqa.gemini-2-5-pro.001	eval-result:gpqa.gemini-2-5-pro.001	benchmarks
eval-result:gpqa.gpt-5.001	eval-result:gpqa.gpt-5.001	benchmarks
eval-result:gsm8k.claude-sonnet-4-5.001	eval-result:gsm8k.claude-sonnet-4-5.001	benchmarks
eval-result:gsm8k.gemma-2-27b.001	eval-result:gsm8k.gemma-2-27b.001	benchmarks
eval-result:hellaswag.claude-opus-4-5.001	eval-result:hellaswag.claude-opus-4-5.001	benchmarks
eval-result:math.gpt-5.001	eval-result:math.gpt-5.001	benchmarks
eval-result:math.o3.001	eval-result:math.o3.001	benchmarks
eval-result:mgsm.gemini-2-5-pro.001	eval-result:mgsm.gemini-2-5-pro.001	benchmarks
eval-result:mmlu.claude-sonnet-4-6.001	eval-result:mmlu.claude-sonnet-4-6.001	benchmarks
eval-result:mmlu.command-r-plus.001	eval-result:mmlu.command-r-plus.001	benchmarks
eval-result:mmlu.deepseek-r1.001	eval-result:mmlu.deepseek-r1.001	benchmarks
eval-result:mmlu.deepseek-v3.001	eval-result:mmlu.deepseek-v3.001	benchmarks
eval-result:mmlu.gemma-2-27b.001	eval-result:mmlu.gemma-2-27b.001	benchmarks
eval-result:mmlu.llama-3-1-405b.001	eval-result:mmlu.llama-3-1-405b.001	benchmarks
eval-result:mmlu.llama-3-3-70b.001	eval-result:mmlu.llama-3-3-70b.001	benchmarks
eval-result:mmlu.llama-4-405b.001	eval-result:mmlu.llama-4-405b.001	benchmarks
eval-result:mmlu.mistral-large-2.001	eval-result:mmlu.mistral-large-2.001	benchmarks
eval-result:mmlu.o1.001	eval-result:mmlu.o1.001	benchmarks
eval-result:mmlu.phi-3-medium.001	eval-result:mmlu.phi-3-medium.001	benchmarks
eval-result:mmlu.qwen-2-5-72b.001	eval-result:mmlu.qwen-2-5-72b.001	benchmarks