Boletim Diário de IA Diário de IA – 2026-01-09(Edição da noite) Aprendizagem por Reforço (RL)DeepSeek R1Modelo de Recompensa de Processo (PRM)Treinamento de IA