Tag: coding capability

AI Daily – 2025-05-24(Evening)

AI Agent AI Model Claude 4 Claude Opus 4 coding benchmark coding capability GRPO algorithm Multimodal Pixel Reasoner framework reasoning ability Reinforcement learning TensorRT-LLM optimization VCBench mathematical visual reasoning

AI Daily – 2025-05-23(Evening)

agent AGENTIF benchmark test AI Model ASL-3 safety rating Claude 4 Behavior and Safety Evaluation Report Claude 4 Opus coding capability Multimodal multimodal time-series large model ChatTS safety evaluation Sonnet 4 SWE-bench Verified score