#logit-gap
#logit-gap

[ follow ]

One long sentence is all it takes to make LLMs misbehave

Poorly punctuated, long run-on prompts can bypass LLM guardrails, enabling jailbreaks that expose harmful outputs despite alignment training.

[ Load more ]