#guardrail-robustness
#guardrail-robustness

[ follow ]

Poems Can Trick AI Into Helping You Make a Nuclear Weapon

Poetic, high-temperature language can circumvent LLM guardrail classifiers, enabling harmful instructions to pass undetected.

[ Load more ]