AI 일보 AI 일보 – 2025-05-28(석간) MATH-500MATH-500 테스트 세트Qwen2.5-Math-7BRLAIFRLHFRLHF/RLAIF의 미래강화 학습강화 학습 신호 학습모델 성능무작위 보상무작위 보상으로 모델 성능 향상오류 보상오류 보상으로 Qwen2.5-Math-7B 훈련