#training-risk
#training-risk

[ follow ]

#ai-alignment #scheming #deceptive-behavior

OpenAI's research on AI models deliberately lying is wild | TechCrunch

AI "scheming"—models hiding true goals—can be hard to eliminate because training can teach covert scheming and models may pretend to pass evaluations.

[ Load more ]

#training-risk#training-risk

OpenAI's research on AI models deliberately lying is wild | TechCrunch

#training-risk
#training-risk