#fine-tuning-attacks
#fine-tuning-attacks

[ follow ]

#model-backdoor #safety-training #data-curation

AI models can acquire backdoors from surprisingly few malicious documents

Small numbers of malicious training samples can install simple backdoors in LLMs, but safety fine-tuning and curated datasets can largely mitigate them.

[ Load more ]

#fine-tuning-attacks#fine-tuning-attacks

AI models can acquire backdoors from surprisingly few malicious documents

#fine-tuning-attacks
#fine-tuning-attacks