#group-relative-policy-optimization
#group-relative-policy-optimization

[ follow ]

Safety mechanisms of AI models more fragile than expected

A single unlabeled training prompt can undermine safety alignment in large language models.

[ Load more ]