AdvBench

benchmark:advbench

Benchmarkbenchmarks/benchmarks/benchmarks-safety.yaml·Open in Graph →

overview json graph

Attributes

displayName

AdvBench

homepageUrl

https://github.com/llm-attacks/llm-attacks

kind

model-only

targetsKind

ModelVersion

description

AdvBench (Zou et al., "Universal and Transferable Adversarial Attacks on Aligned Language Models", 2023) is a 520-string harmful- behavior corpus paired with a standard suffix-attack protocol, widely used to measure jailbreak robustness.

Outgoing edges (1)

covers1

skill-area:safety-redteaming·SkillAreaSafety Red-Teaming

Incoming edges (0)

None.