Agentic AI Atlas

II.

Benchmark overview

benchmark:re-bench

Reference · live

RE-Bench overview

METR's autonomous-research-engineering benchmark: time-bounded ML R&D tasks scored against expert human baselines to measure frontier-agent ability to do self-directed research engineering.

BenchmarkOutgoing · 4Incoming · 1

Attributes

displayName

RE-Bench

homepageUrl

https://metr.org/AI_R_D_Evaluation_Report.pdf

kind

research-engineering

targetsKind

AgentVersion

description

METR's autonomous-research-engineering benchmark: time-bounded ML R&D tasks scored against expert human baselines to measure frontier-agent ability to do self-directed research engineering.

Outgoing edges

applies_to2

domain:machine-learning·DomainMachine Learning
domain:scientific-discovery·DomainScientific Discovery

covers2

skill-area:autonomous-research-engineering·SkillAreaAutonomous Research Engineering
skill-area:ml-fine-tuning·SkillAreaML Fine-Tuning

Incoming edges

belongs_to_benchmark1

test-set:re-bench-ai-rd-tasks·TestSetRE-Bench AI R&D task suite