Agentic AI Atlas

II.

EvalRun JSON

eval-run:gpqa-diamond.gpt-5-4.2026-03-17

Structured · live

eval-run:gpqa-diamond.gpt-5-4.2026-03-17 json

Inspect the normalized record payload exactly as the atlas UI reads it.

File · benchmarks/eval-runs/eval-runs-openai.yamlCluster · benchmarks

Record JSON

{
  "id": "eval-run:gpqa-diamond.gpt-5-4.2026-03-17",
  "_kind": "EvalRun",
  "_file": "benchmarks/eval-runs/eval-runs-openai.yaml",
  "_cluster": "benchmarks",
  "attributes": {
    "target": "model:gpt-5.4@current",
    "benchmarkId": "benchmark:gpqa",
    "testSetId": "test-set:gpqa-diamond-2024",
    "targetId": "model:gpt-5.4@current",
    "runAt": "2026-03-17T00:00:00Z",
    "runBy": "openai",
    "configHash": "sha256:openai-gpt-5-4-gpqa-diamond-2026-03-17"
  },
  "outgoingEdges": [
    {
      "from": "eval-run:gpqa-diamond.gpt-5-4.2026-03-17",
      "to": "model:gpt-5.4@current",
      "kind": "evaluates_target"
    },
    {
      "from": "eval-run:gpqa-diamond.gpt-5-4.2026-03-17",
      "to": "test-set:gpqa-diamond-2024",
      "kind": "uses_test_set"
    },
    {
      "from": "eval-run:gpqa-diamond.gpt-5-4.2026-03-17",
      "to": "benchmark:gpqa",
      "kind": "for_benchmark"
    }
  ],
  "incomingEdges": [
    {
      "from": "eval-result:gpqa-diamond.gpt-5-4.2026-03-17.accuracy",
      "to": "eval-run:gpqa-diamond.gpt-5-4.2026-03-17",
      "kind": "belongs_to_eval_run"
    }
  ]
}