#on-policy-learning
#on-policy-learning

[ follow ]

Researchers propose a self-distillation fix for 'catastrophic forgetting' in LLMs

Continual learning is essential for foundation models; SDFT uses in-context learning to generate on-policy signals, avoiding explicit reward functions and reducing forgetting.

[ Load more ]

#on-policy-learning#on-policy-learning

Researchers propose a self-distillation fix for 'catastrophic forgetting' in LLMs

#on-policy-learning
#on-policy-learning