#scaling-effects
#scaling-effects

[ follow ]

#data-poisoning #model-backdoor #llm-safety

Anthropic Finds LLMs Can Be Poisoned Using Small Number of Documents

Injecting about 250 poisoned pretraining documents can implant a backdoor causing gibberish outputs, and such poisoning becomes easier as models scale.

[ Load more ]

#scaling-effects#scaling-effects

Anthropic Finds LLMs Can Be Poisoned Using Small Number of Documents

#scaling-effects
#scaling-effects