키워드:Gemini 3 Flash, GPT-5.2, AI 모델, SAM 오디오, 휴머노이드 로봇, MiMo-V2-Flash, 텐센트 대규모 모델, 멀티모달 추론, 오디오 편집 AI, 구신 로봇 생산능력, 오픈소스 대규모 모델, AI 헬스케어 대규모 모델
🔥 포커스
구글, Gemini 3 Flash 출시 : 구글이 Gemini 3 Flash를 출시하며, 최첨단 인공지능을 극도로 낮은 비용으로 제공합니다. 가격은 Pro 버전의 25%에 불과하지만, MMMU-Pro, SWE-bench Verified 등 핵심 벤치마크에서 Gemini 3 Pro를 능가하며 속도는 3배 더 빠릅니다. 이 모델은 반복적 개발을 위해 설계되었으며, Gemini 3 Pro에 근접한 프로그래밍 성능과 낮은 지연 시간을 자랑합니다. 다중 모드 추론을 지원해 비디오 분석, 데이터 추출, 시각적 질의응답에 활용할 수 있습니다. Gemini 3 Flash는 일반 사용자에게 Gemini 앱과 구글 검색 AI 모드에서 이용 가능하며, 개발자는 API를 통해 통합할 수 있어 일상적인 애플리케이션과 비즈니스 시스템에 AI를 더욱 광범위하게 적용할 수 있을 것으로 기대됩니다. (출처: 36Kr, 36Kr)

OpenAI, GPT-5.2 시리즈 모델 출시 : OpenAI는 구글 Gemini 3에 대응하기 위해 GPT-5.2 시리즈 모델(Pro, Thinking, Instant)을 출시했습니다. GPT-5.2는 ARC-AGI-1 및 ARC-AGI-2와 같은 추상적 시각 퍼즐 벤치마크에서 새로운 기록을 세웠으며, 특히 계산 효율성이 크게 향상되어 비용이 GPT-5.1의 1/390로 감소했습니다. 이 모델은 조정 가능한 추론 수준(x-high 포함)을 제공하며, 컨텍스트 요약을 통해 입력 제한을 확장할 수 있습니다. 이번 출시는 코드 생성, 스프레드시트 및 프레젠테이션 제작과 같은 전문 작업 효율성을 높이는 데 중점을 두며, 복잡한 추론 작업에서 경제적 타당성을 크게 개선했습니다. (출처: DeepLearning.AI Blog)

AI 모델이 자율적으로 수학 문제 해결 : GPT-5가 IMProofBench 벤치마크에 제출된 개방형 수학 문제를 인간의 개입 없이 완전하고 정확하게 증명했습니다. 이는 열거 기하학에 대한 작지만 새로운 기여로, AI 모델의 복잡한 수학적 추론 및 문제 해결 능력의 중대한 진전을 의미합니다. 이 사건은 AI가 수학 연구에서 갖는 잠재력에 대한 커뮤니티의 광범위한 논의를 촉발시켰으며, AI가 앞으로 더 많은 과학 분야에서 적극적인 발견 역할을 할 수 있음을 시사합니다. (출처: SebastienBubeck, kevinweil, gdb, OfirPress, SebastienBubeck)

Meta, SAM Audio 출시 : Meta는 복잡한 오디오 믹스에서 소리를 분리하고 편집할 수 있는 최초의 통합 AI 모델인 SAM Audio를 선보였습니다. 이 모델은 Photoshop에서 이미지를 잘라내듯이 텍스트, 시각 및 시간 범위 프롬프트를 통해 노래에서 기타 소리를 분리하거나 교통 소음을 필터링하거나 팟캐스트에서 개 짖는 소리를 제거하는 등의 기능을 제공합니다. 이 혁신은 오디오 편집 프로세스를 텍스트 및 이미지 처리만큼 간단하게 만들어 전문적인 믹싱 지식의 문턱을 낮추고 오디오 콘텐츠 제작의 보급과 효율성을 높일 것으로 기대됩니다. (출처: ylecun, ylecun, dotey)
🎯 동향
윈펑 테크놀로지, AI+헬스 신제품 출시 : 윈펑 테크놀로지는 ShuaiKang 및 Skyworth와 협력해 “디지털화된 미래 주방 실험실” 및 AI 건강 대형 모델이 탑재된 스마트 냉장고를 포함한 AI+헬스 신제품을 출시했습니다. AI 건강 대형 모델은 주방 설계 및 운영을 최적화하며, 스마트 냉장고는 “건강 도우미 Xiao Yun”을 통해 맞춤형 건강 관리 서비스를 제공합니다. 이는 AI가 일상적인 건강 관리 및 스마트 홈 분야에 깊이 통합되고 있음을 나타내며, 스마트 기기를 통해 맞춤형 건강 서비스를 제공해 삶의 질을 향상시킬 것으로 기대됩니다. (출처: 36Kr)

휴머노이드 로봇 산업의 생산 능력 문제 : 2025년 휴머노이드 로봇 산업은 폭발적인 관심에서 냉각 단계로 접어들었으며, 주문액은 35억 위안을 초과했지만 납품량은 1,000대 미만으로 생산 능력의 문제가 부각되었습니다. Zhiyuan, Ubtech 등 주요 기업들의 주문이 급증했지만, 생산 능력은 여전히 수백 대에서 수천 대로 확장 중입니다. C 시장에서의 실용화는 어려우며, 실용적인 시나리오가 제한적이고 가격이 높아 판매량이 1,000대 미만에 머물고 있습니다. 이 산업은 기술적 과시는 충분하지만 실용성은 부족한 어려움에 직면해 있으며, 마라톤 경기에서 로봇이 보여준 안정성 문제와 같은 한계가 있습니다. 그러나 정책 지원과 자본의 관심 속에 이 산업은 “기술적 가능성”에서 “신뢰할 수 있는 상품”으로의 전환기를 맞고 있습니다. (출처: 36Kr, 36Kr)

Meitu의 AI 전환과 도전 : Meitu는 AI 물결 속에서 도구 중심으로 회귀하며, Meitu XiuXiu, Meiyan Camera와 같은 C 제품 및 Meitu Design Studio, Kaipai와 같은 B 생산성 도구를 통해 전환을 이루었습니다. RoboNeo는 AI Agent 플랫폼으로서, 타사 모델과 자체 개발한 Miracle Vision을 통합해 “AI 생성 + 수동 수정”을 통해 AI 실현의 문제점을 해결하고자 합니다. 그러나 RoboNeo의 사용자 유지는 좋지 않으며, 특히 Google Nano Banana와 같은 경쟁 제품의 충격으로 해외 B 시장의 성장 불확실성이 커지고 있습니다. 그럼에도 Meitu는 2억 MAU의 트래픽 기반과 팀의 혁신적인 활력을 바탕으로 특정 분야 SaaS 시장에서 생존 공간을 확보하고 있으며, 앞으로 기술과 제품의 융합을 심화시켜 대형 모델 경쟁에 대응할 계획입니다. (출처: 36Kr)

샤오미, MiMo-V2-Flash 대형 모델 출시 : 샤오미는 MiMo-V2-Flash 대형 모델을 공식적으로 오픈소스화하며, 309B 매개변수 규모로 오픈소스 1군에 진입했습니다. 이 모델은 2.6배의 추론 가속을 달성하면서도 최고 수준의 모델 효과와 배포 비용을兼顾합니다. SWE-Bench Verified 코드 평가에서 73.4%의 높은 점수를 획득해 DeepSeek-V3.2 및 Kimi-K2 Thinking을 능가했으며, Agent 능력에서도 탁월한 성능을 보였습니다. 5:1 혼합 주의 메커니즘, 학습 가능한 주의 집중 편향, MTP 다층 토큰 예측 및 MOPD 다중 교사 온라인 전략 증류 등의 기술을 채택해 효율성과 장문 이해력을 크게 향상시켰습니다. MiMo-V2-Flash는 실제 프로그래밍 시나리오에서 매우 높은 완성도를 보였으며, 높은 감성 지수를 가진 인간적 상호작용 능력을 갖추고 있어 샤오미의 “물리적 세계 AGI”로의 전환을 위한 야망을 보여줍니다. (출처: 36Kr)

텐센트, 대형 모델 개발 구조 조정 : 텐센트는 대형 모델 개발 구조를 조정하며, OpenAI 전 연구원 Yao Shunyu를 “CEO/사장실” 최고 AI 과학자로 임명해 사장 Liu Chiping에게 직접 보고하도록 했으며, AI 인프라 부서 및 대형 언어 모델 부서 책임자를 겸임하도록 했습니다. 이 조치는 텐센트가 컴퓨팅 파워, 데이터, 엔지니어링 능력에서의 종합적 경쟁력을 강화하고, 이전의 대형 모델 개발에서 상대적으로 뒤쳐진 상황을 바꾸기 위한 것입니다. Yao Shunyu의 합류와 새로운 부서 설립은 텐센트가 AI를 회사의 핵심 전략으로 격상시키고, 기본 모델을 중심으로 한 개발 체계를 구축해 ByteDance, Alibaba와 같은 경쟁사들이 AI 응용 및 모델 능력에서의 도전에 대응하고자 함을 의미합니다. (출처: 36Kr, 36Kr, 36Kr)