Journal d'IA Quotidien IA – 2026-01-09(Soir) Apprentissage par renforcement RLDeepSeek R1Entraînement IAModèle de récompense de processus PRM