Pregunta de entrevista de Stellantis

Expliquez le Reinforcement Learning from Human Feedbac ?