AI日报 AI日报 – 2026-01-09(晚) AI 训练DeepSeek R1强化学习 RL过程奖励模型 PRM AI日报 AI日报 – 2026-01-01(早) AGIDeepSeek R1DeepSeek-R1 开源RL 路径优化强化学习