AI Tageszeitung KI-Tagesbericht – 2026-01-09(Abendausgabe) DeepSeek R1KI-TrainingProzessbelohnungsmodell PRMVerstärkendes Lernen RL