#model-backdoor
#model-backdoor

[ follow ]

Anthropic Finds LLMs Can Be Poisoned Using Small Number of Documents

Injecting about 250 poisoned pretraining documents can implant a backdoor causing gibberish outputs, and such poisoning becomes easier as models scale.

Information security

fromArs Technica

1 month ago

AI models can acquire backdoors from surprisingly few malicious documents

Small numbers of malicious training samples can install simple backdoors in LLMs, but safety fine-tuning and curated datasets can largely mitigate them.

[ Load more ]

#model-backdoor#model-backdoor

Anthropic Finds LLMs Can Be Poisoned Using Small Number of Documents

AI models can acquire backdoors from surprisingly few malicious documents

#model-backdoor
#model-backdoor