Agentic AI Atlas

II.

EvalResult JSON

eval-result:swe-bench-verified.gpt-5.headline.001

Structured · live

eval-result:swe-bench-verified.gpt-5.headline.001 json

Inspect the normalized record payload exactly as the atlas UI reads it.

File · benchmarks/eval-results/swe-bench-verified-gpt-5-result-headline.yamlCluster · benchmarks

Record JSON

{
  "id": "eval-result:swe-bench-verified.gpt-5.headline.001",
  "_kind": "EvalResult",
  "_file": "benchmarks/eval-results/swe-bench-verified-gpt-5-result-headline.yaml",
  "_cluster": "benchmarks",
  "attributes": {
    "evalRunId": "eval-run:swe-bench-verified.gpt-5.2025-08",
    "metricName": "pass_rate_headline",
    "score": 0.749,
    "unit": "fraction",
    "passFail": "pass",
    "reportedAt": "2025-08-07T00:00:00Z"
  },
  "outgoingEdges": [
    {
      "from": "eval-result:swe-bench-verified.gpt-5.headline.001",
      "to": "eval-run:swe-bench-verified.gpt-5.2025-08",
      "kind": "belongs_to_eval_run"
    },
    {
      "from": "eval-result:swe-bench-verified.gpt-5.headline.001",
      "to": "benchmark:swe-bench-verified",
      "kind": "scored_against",
      "attributes": {}
    }
  ],
  "incomingEdges": [
    {
      "from": "claim:swe-bench-verified-gpt-5-headline-openai-source",
      "to": "eval-result:swe-bench-verified.gpt-5.headline.001",
      "kind": "about_subject"
    }
  ]
}