#model-backdoor
#model-backdoor

[ follow ]

#fine-tuning-attacks #safety-training #data-curation

AI models can acquire backdoors from surprisingly few malicious documents

Small numbers of malicious training samples can install simple backdoors in LLMs, but safety fine-tuning and curated datasets can largely mitigate them.

[ Load more ]

#model-backdoor#model-backdoor

AI models can acquire backdoors from surprisingly few malicious documents

#model-backdoor
#model-backdoor