[태그:] 강화 학습

AI 일보 – 2025-05-28(석간)

MATH-500 MATH-500 테스트 세트 Qwen2.5-Math-7B RLAIF RLHF RLHF/RLAIF의 미래 강화 학습 강화 학습 신호 학습 모델 성능 무작위 보상 무작위 보상으로 모델 성능 향상 오류 보상 오류 보상으로 Qwen2.5-Math-7B 훈련

AI 일보 – 2025-05-28(조간)

AI 보안 AI 정렬 위험 Claude 모델 GRPO Omni-R1 RefAVS 벤치마크 테스트 강화 학습 그룹 상대적 전략 최적화 다중 모드 추론 두두 앱 영상 통화 기능 사족 로봇 상용화 이중 시스템 아키텍처 휴머노이드 로봇

AI 일보 – 2025-05-27(석간)

AI 보안 및 윤리 AI 에이전트 AI 추론 AI 코드 생성 도구 AMD AMD MI300X 성능 Google Veo 3 비디오 생성 Llama 3.1 405B Nvidia 강화 학습 다중 모달 모델 대형 언어 모델 오픈소스 모델

AI 일보 – 2025-05-27(조간)

AI 에이전트 DeepSeek-V3-0526 DeepSeek-V3-0526 성능 GPT-4.5 대비 Grok 3 Grok 3 사고 방식 및 신원 인식 문제 IBM watsonx Orchestrate 기업용 AI 강화 학습 구현형 인공지능 대형 언어 모델 멀티모달 지원 로봇 EVAC 세계 모델 칭화대 RIFLEx 비디오 생성 시간 확장

AI 일보 – 2025-05-26(석간)

AI 규제 AI 에이전트 AI 에이전트 아키텍처 AI 윤리 RLHF 미세 조정 기술 강화 학습 다중 모드 AI 대형 언어 모델 시각 언어 모델 평가 제미니 2.5 프로 성능 제미니 모델 클로드 4 클로드 4 프로그래밍 능력

AI 일보 – 2025-05-25(조간)

AI 모델 AI 에이전트 Claude 4 Claude Opus 4 코딩 벤치마크 GRPO 알고리즘 Pixel Reasoner 프레임워크 TensorRT-LLM 최적화 VCBench 수학 시각 추론 강화 학습 멀티모달 추론 능력 코딩 능력

AI 일보 – 2025-05-22(조간)

AI 에이전트 Gemini 2.5 Gemini 2.5 Pro 딥 씽크 모드 GitHub Copilot 에이전트 오픈소스 MeanFlow 단일 단계 이미지 생성 VPRL 시각 계획 추론 강화 학습 대규모 언어 모델 시각 언어 모델 화웨이 FusionSpec MoE 추론 최적화

AI 일보 – 2025-05-14(조간)

AI 도구 AI 벤치마크 테스트 AI 비즈니스 AI 윤리 AI 의료 AI 추론 FlashInfer 추론 엔진 INTELLECT-2 분산 훈련 Matrix-Game 가상 세계 생성 OpenAI HealthBench 강화 학습 메타 물리학 언어 모델 언어 모델

AI 일보 – 2025-05-13(석간)

AGI AI 에이전트 AI 의료 AI 자율 과학 발견 GPT-4o 업데이트 문제 HealthBench 의료 평가 벤치마크 INTELLECT-2 분산 훈련 Matrix-Game 오픈소스 모델 T2I-R1 텍스트-이미지 생성 모델 강화 학습 대형 언어 모델 세계 모델