Agentic AI Atlas

II.

Benchmark overview

benchmark:bbh

Reference · live

BIG-Bench Hard (BBH) overview

23 challenging tasks from BIG-Bench where prior LLMs underperformed average human raters; widely used as a model reasoning benchmark.

BenchmarkOutgoing · 2Incoming · 0

displayName

BIG-Bench Hard (BBH)

homepageUrl

kind

reasoning

targetsKind

ModelVersion

description

23 challenging tasks from BIG-Bench where prior LLMs underperformed average human raters; widely used as a model reasoning benchmark.

applies_to1

covers1

None.