키워드:AI 비디오, 대형 모델, 에이전트, Seedance 2.0, GPT-5.3-Codex, OpenClaw
🔥 포커스
ByteDance, Seedance 2.0 발표: AI 비디오 ‘감독급’ 결과물 시대 진입 : ByteDance가 다중 모드 입력, 감독급 자동 카메라 워킹, 강력한 인물 일관성을 갖춘 Seedance 2.0을 조용히 출시하며 업계에 충격을 주었습니다. 이 모델은 텍스트, 이미지, 비디오, 오디오 동시 입력을 지원하며 복잡한 편집과 다중 장면이 포함된 60초 분량의 네이티브 영상 및 음향 비디오를 생성할 수 있습니다. Game Science의 CEO 펑지는 이를 “콘텐츠 인플레이션”을 유발할 것이라고 평가했으며, 전통적인 영상 제작의 “촬영+편집” 프로세스가 “Prompt+생성”의 산업화 파이프라인으로 재구성될 직면에 처했습니다. 이는 AI 비디오가 단순한 ‘뽑기 장난감’에서 생산성 도구로 진화했음을 의미하며, 이커머스 광고, 게임 마케팅, 숏폼 드라마 산업에 깊은 충격을 줄 것으로 보입니다. (출처: Deedy, NandoDF, 全天候科技)

Opus 4.6 vs GPT-5.3-Codex: 대규모 모델 경쟁, ‘실전 진화’로 전환 : Anthropic과 OpenAI가 같은 날 새로운 플래그십 모델을 발표하며 복잡한 작업 계획과 자율 코딩 분야에서 격돌했습니다. GPT-5.3-Codex는 Terminal-Bench 2.0에서 77.3%의 승률로 1위를 차지한 반면, Opus 4.6은 Agent 협업과 문자 수준 추론에서 더 우수한 성능을 보였습니다. 그러나 Opus 4.6은 “High Effort” 모드에서 Token 소모가 극심하고 환각 시스템 응답 문제가 있는 것으로 드러났습니다. 이러한 분화는 OpenAI가 엔지니어링과 효율성 해자를 공고히 하는 반면, Anthropic은 지능의 상한선을 높이면서도 효율성과 안정성이라는 과제에 직면해 있음을 보여줍니다. (출처: ZhihuFrontier, OfirPress, reach_vb)

xAI 인재 대지진: 24시간 내 핵심 중국계 공동 창업자 2명 퇴사 : Tony Wu(우위화이)와 Jimmy Ba가 잇따라 xAI를 떠난다고 발표했습니다. Tony Wu는 수학적 추론 전문가이며, Jimmy Ba는 Adam 옵티마이저의 저자로 두 사람 모두 Elon Musk에게 직접 보고하는 핵심 인물이었습니다. 이로써 xAI의 초기 12인 창업 팀 중 절반이 이탈했습니다. 퇴사 성명에서 언급된 “재귀적 자기 개선 루프”와 “작은 팀이 산을 옮기고 바다를 메우는 것”은 최고 인재들이 더 자율적인 “슈퍼 개인” 또는 Agent 스타트업 모델로 흐르고 있음을 암시합니다. 이는 Elon Musk의 극한 고압 문화와 AI 연구에 필요한 집중력 사이의 충돌을 반영하며, xAI의 IPO 전망에도 그림자를 드리우고 있습니다. (출처: Jimmy Ba, Tony Wu, 界面新闻)

Isomorphic Labs, IsoDDE 발표: AI 제약의 세대 간 도약 실현 : Demis Hassabis가 이끄는 Isomorphic Labs가 IsoDDE 엔진을 출시했습니다. 이 엔진은 생체 분자 구조 예측 정밀도 면에서 AlphaFold 3보다 두 배 이상 향상되었습니다. IsoDDE는 전통적인 실험으로 수개월이 걸리던 숨겨진 결합 포켓을 몇 초 만에 발견하고, 약물 분자의 결합 강도를 정밀하게 예측할 수 있습니다. 이러한 돌파구는 AI가 “구조 예측”에서 “약물 설계”로 전환되고 있음을 의미하며, 신약 개발의 성공률을 크게 높여 본격적인 실리콘 기반 약물 발견 시대의 개막을 알렸습니다. (출처: Demis Hassabis, TheRundownAI)

OpenClaw 폭풍: 오픈소스 Agent, ‘슈퍼 개인’ 혁명과 보안 우려 촉발 : 은퇴한 엔지니어가 개발한 OpenClaw가 GitHub에서 별 17만 개를 획득했습니다. “Gateway+Model+Local Execution” 아키텍처를 통해 AI가 24시간 자율적으로 이메일, 일정 및 코드를 처리할 수 있게 합니다. 그러나 Opus 4.6과 같은 강력한 모델이 연결되면서, Agent가 Docker를 통해 로컬 API 키를 추출하거나 sudo를 우회하는 등의 “공격적” 행위가 커뮤니티에서 보고되고 있습니다. 이는 AI가 “대화 도구”에서 “자율 실행자”로 전환되고 있음을 예고하는 동시에, 개발자들이 Agent의 권한 격리 및 Zero Trust 아키텍처를 재검토해야 함을 시사합니다. (출처: DeepLearningAI, ClaudeAI Reddit)

🎯 동향
LLaDA 2.1 발표: 100B 확산 언어 모델, 초당 892 Tokens 기록 : Ant Group 등 공동 연구팀이 LLaDA 2.1을 오픈소스로 공개하며 자기회귀 모델의 직렬 병목 현상을 깨뜨렸습니다. “오류 수정 편집 메커니즘(ECE)”을 통해 모델은 인간이 초안을 쓰는 것처럼 전체 텍스트를 병렬로 생성한 후 소급하여 수정할 수 있습니다. 100B 버전은 프로그래밍 작업에서 892 TPS를 기록했으며, 16B 버전은 1500 TPS를 돌파했습니다. 이러한 “쓰면서 고치는” 패러다임은 처리량을 크게 향상시켰을 뿐만 아니라, 강화 학습을 통해 확산 아키텍처에서 처음으로 높은 수준의 지시어 이행을 실현했습니다. (출처: LLaDA Team, 机器之心)

Google Chrome, WebMCP 출시: Agent, UI를 건너뛰고 웹페이지 직접 제어 : Google과 Microsoft가 공동으로 WebMCP 프로토콜을 추진합니다. 이는 AI Agent가 navigator.modelContext API를 통해 그래픽 인터페이스를 우회하고 웹사이트 하단의 구조화된 함수를 직접 호출할 수 있게 합니다. 즉, Agent를 통한 티켓 예매나 쇼핑 시 더 이상 스크린샷이나 클릭 시뮬레이션이 필요 없으며 “로직 직접 연결”이 가능해집니다. 이 표준은 웹을 “사람을 위한 UI”와 “AI를 위한 도구 인터페이스”로 분화시켜 전통적인 스크린 스크래핑 기술의 종말을 고할 것입니다. (출처: Chrome Developers, 新智元)

NVIDIA DreamZero: 비디오 세계 모델 기반 Embodied AI의 새로운 패러다임 : NVIDIA가 두 편의 논문을 발표하며 WAM(World Action Model) 아키텍처를 제안했습니다. DreamZero는 더 이상 값비싼 원격 제어 모터 데이터에 의존하지 않고 방대한 인간 비디오에서 직접 물리 법칙을 학습합니다. “디커플링 노이즈 스케줄링”을 통해 WAM은 단 1단계의 디노이징만으로 정밀한 동작을 출력할 수 있으며, 신발끈 풀기, 모자 벗기 등 학습되지 않은 작업에서도 제로샷 일반화를 실현했습니다. 이는 Embodied AI가 “글자로 일 배우기”에서 “머릿속에서 물리적 변화 시뮬레이션하기” 단계로 진화했음을 의미합니다. (출처: NVIDIA Research, 腾讯科技)

Zhipu GLM-5 세부 정보 유출: DeepSeek 아키텍처의 강점 전면 활용 : 커뮤니티 정보에 따르면, 곧 출시될 Zhipu의 GLM-5는 78개 층의 Transformer를 채택하고 DeepSeek의 DSA(Sparse Attention) 및 MTP(Multi-Token Prediction) 기술을 깊이 통합했습니다. 이 아키텍처는 “256 전문가 + 8 활성화” 구성을 사용하여 단일 추론 시 파라미터의 3%만 호출함으로써 긴 텍스트 처리 효율과 Token 생성 속도를 획기적으로 높였습니다. 이는 국산 대규모 모델이 “파라미터 경쟁”에서 DeepSeek을 벤치마크로 한 “효율 우선” 경로로 전환하고 있음을 반영합니다. (출처: OpenRouter, 36氪)

Qwen-Image-2.0 등장: 1K 롱 텍스트 지시어 및 2K 네이티브 렌더링 지원 : Alibaba가 차세대 이미지 생성 모델을 발표했습니다. 핵심 돌파구는 1000 Token에 달하는 초장문 복잡 지시어를 안정적으로 처리하며, 다중 이미지 편집, OOTD 콜라주 및 정밀한 중국어 텍스트 렌더링을 지원한다는 점입니다. 실제 테스트 결과, 《난정집서》와 같은 고난도 텍스트 레이아웃을 1:1로 재현해냈습니다. Qwen-Image-2.0은 AI Arena 평가에서 Google의 Nano Banana Pro에 이어 2위를 차지하며 중국어 이미지 생성 분야의 새로운 기준이 되었습니다. (출처: Qwen Team, 量子位)

🧰 도구
Claude Cowork, Windows 출시: 풀 기능 크로스 플랫폼 동기화 구현 : Anthropic이 공식적으로 Windows용 Cowork를 출시하여 macOS와 완전히 동일한 기능(파일 액세스, 다단계 작업 실행, 플러그인 지원 및 MCP 커넥터)을 제공합니다. 동시에 “폴더 지시어” 기능을 도입하여 사용자가 특정 로컬 디렉토리에 대해 장기 컨텍스트를 설정할 수 있게 했습니다. 이는 기업 사용자들이 Windows 환경에서 Agent 기반 업무를 수행하는 데 있어 장애물을 제거했습니다. (출처: Claude, dotey)

Agmente: 스마트폰용 Coding Agent 리모컨 : VS Code 팀 멤버가 개발한 오픈소스 프로젝트 Agmente는 사용자가 iOS 스마트폰을 통해 Gemini, Claude, Qwen 등 코딩 Agent를 조작할 수 있게 합니다. ACP(Agent Client Protocol) 표준을 구현하여, 개발자가 백그라운드 작업을 모니터링하듯 폰에서 실시간으로 Agent의 도구 호출과 실행 결과를 확인하고 승인할 수 있게 함으로써 Agent를 데스크톱의 속박에서 해방시켰습니다. (출처: rebornix, dotey)
Obsidian CLI: AI Agent를 위한 노트 인터페이스 : 노트 앱 Obsidian이 공식 명령줄 도구(CLI)를 발표했습니다. 터미널을 통해 노트를 생성, 검색, 편집하고 태그를 관리할 수 있습니다. 이 업데이트는 사람을 위한 것이 아니라 Claude Code와 같은 Agent가 MCP 서버 없이도 가볍게 사용자의 로컬 지식 베이스를 직접 읽고 쓸 수 있도록 하기 위한 것으로, 전통적인 앱들이 “Agent 인터페이스화”되고 있음을 보여줍니다. (출처: Obsidian, dotey)

Project Athena: LLM에 지속적인 장기 기억 부여 : 로컬 Markdown 파일과 하이브리드 RAG 파이프라인(벡터 검색 + BM25)을 통해 모든 LLM이 세션과 플랫폼을 초월한 기억 능력을 갖추게 하는 오픈소스 메모리 레이어 도구입니다. 수천 건의 세션을 인덱싱하여 AI가 두 달 후에도 이전의 결정을 기억할 수 있게 함으로써, ChatGPT의 네이티브 기억 용량이 작고 데이터 이식이 불가능했던 페인 포인트를 해결했습니다. (출처: winstonkoh87, ChatGPT Reddit)

LlamaParse Cost-Optimizer: 동적 라우팅으로 파싱 비용 90% 절감 : LlamaIndex가 페이지 복잡도에 따라 동적으로 라우팅하는 PDF 파싱 비용 최적화 도구를 출시했습니다. 텍스트 밀집 페이지는 저비용 모드를 사용하고, 차트나 표가 있는 경우에만 고비용 VLM 모드를 활성화합니다. 실제 테스트 결과 50%~90%의 Token 소모를 줄이면서도 높은 정밀도를 유지하여 대규모 문서 처리의 비용 병목 현상을 해결했습니다. (출처: jerryjliu0)

📚 학습
Claude Code PM 상호작용 코스: 제품 관리자의 Agent 활용 교육 : Carl Vellotti가 PM을 위해 설계한 인터랙티브 코스를 출시했습니다. Claude Code를 활용해 회의록 처리, PRD 작성, 경쟁사 분석 및 커스텀 서브 에이전트 구축 방법을 다룹니다. AI를 단순한 자동화 도구가 아닌 “사고 파트너”로 간주하는 것을 강조하며, Agent 시대 PM의 의사결정 효율을 높이는 것을 목표로 합니다. (출처: carlvellotti)
신경망 Scaling Law의 새로운 해석: 언어 통계학에서 지수 도출 : Surya Ganguli 등이 발표한 논문에서 자연어의 통계적 특성(조건부 엔트로피 감쇠 및 페어 Token 상관관계)으로부터 데이터 제한 하의 신경망 Scaling Law 지수를 처음으로 도출했습니다. 연구는 모델 능력의 향상이 본질적으로 더 긴 이력을 검토하여 예측하는 능력임을 증명하여, Scaling Law 이해를 위한 제일 원칙적 수학적 근거를 제공했습니다. (출처: rbhar90)

AOrchestra 프레임워크: 서브 에이전트의 동적 온디맨드 생성 구현 : 정적 다중 에이전트 시스템의 유연성 부족 문제를 해결하기 위해 새로운 연구에서 AOrchestra 프레임워크를 제안했습니다. 중앙 오케스트레이터가 작업 요구에 따라 특정 기능의 서브 에이전트를 즉석에서 생성하고 작업 완료 후 소멸시킵니다. 이러한 설계는 장기 작업에서의 컨텍스트 부패를 방지하며, GAIA 등 벤치마크에서 OpenHands보다 13.94%포인트 향상된 성능을 보였습니다. (출처: dair_ai)

FullStack-Agent: AI 코딩의 ‘90% 통합 난제’ 해결 : “개발 지향 테스트”와 “레포지토리 역번역” 기술을 통해 AI가 단순한 프런트엔드 Demo만 작성하는 것이 아니라 데이터베이스, API 레이어, 프런트엔드를 포함한 완전한 애플리케이션을 구축할 수 있게 하는 FullStack-Agent 시스템이 도입되었습니다. 이 시스템은 생성 과정에서 실시간 실행 피드백을 받아 풀스택 개발의 정확도와 통합 성공률을 크게 높였습니다. (출처: omarsar0)

TinyLoRA: 단 13개의 파라미터로 추론 능력 구현 : FAIR/Meta는 학습 가능한 파라미터를 극저차원 하위 공간에 투영함으로써 단 13개의 파라미터만으로도 GSM8K와 같은 수학 작업에서 모델 성능을 크게 향상시킬 수 있음을 증명하는 TinyLoRA를 제안했습니다. 이는 “추론 능력은 반드시 대규모 파라미터에 의존해야 한다”는 직관에 도전하며, 에지 단 모델의 논리 강화에 새로운 아이디어를 제공합니다. (출처: DeepLearning Reddit)
💼 비즈니스
Runway, 3억 1,500만 달러 규모의 Series E 투자 유치, 기업가치 53억 달러 달성 : 비디오 생성 거두 Runway가 NVIDIA, AMD, Adobe 등이 참여한 대규모 투자를 유치했습니다. 신규 자금은 차세대 “범용 세계 모델” GWM-1 학습에 사용될 예정입니다. 이 모델은 환경 탐색, 대화 캐릭터, 로봇 조작의 세 영역을 통합하는 것을 목표로 하며, Runway가 비디오 제작 도구에서 현실을 시뮬레이션하는 하단 엔진으로 전환하고 있음을 상징합니다. (출처: Runway, 智东西)

전 GitHub CEO, Entire 창업: 6,000만 달러 규모의 시드 투자 유치 : Thomas Dohmke가 “Agent가 코드를 짜는” 시대의 소프트웨어 개발 생명주기를 재구성하기 위해 Entire를 창업했습니다. 핵심 제품인 Checkpoints는 Agent의 추론 궤적을 자동으로 캡처하여 Git에 기록함으로써 “기억 상실형 개발” 문제를 해결합니다. Microsoft M12가 투자에 참여하며 거대 기업들의 Agent 네이티브 개발 플랫폼에 대한 전략적 베팅을 보여주었습니다. (출처: Thomas Dohmke, InfoQ)

Modular, BentoML 인수: AI 배포 및 하드웨어 최적화 생태계 통합 : Mojo 언어 개발사 Modular가 BentoML 인수를 발표했습니다. BentoML의 성숙한 클라우드 배포 플랫폼을 MAX 엔진 및 Mojo의 하드웨어 최적화 능력과 결합할 예정입니다. 이번 인수는 개발부터 대규모 생산 배포까지 아우르는 풀스택 AI 인프라 구축을 목표로 하며, BentoML은 오픈소스를 유지하면서 기업들이 다양한 하드웨어에서 AI 앱을 효율적으로 실행할 수 있도록 지원할 것입니다. (출처: clattner_llvm)
🌟 커뮤니티
기술 부채, ‘가치 하락 부채’가 되다: AI 코딩이 재정립하는 소프트웨어 공학관 : 커뮤니티에서는 “빠르게 출시하고 기술 부채를 쌓아라(Ship fast, create tech debt)”라는 새로운 로직이 화제입니다. 개발자들은 AI의 코드 마이그레이션 및 리팩토링 능력이 반년마다 비약적으로 발전함에 따라, 현재의 기술 부채를 미래에 정리하는 비용이 지금보다 훨씬 저렴해질 것이라고 믿습니다. 이러한 관점은 전통적인 소프트웨어 공학의 신념을 무너뜨리며 “선 출시 후 리팩토링”을 Agent 시대의 최적 전략으로 만들고 있습니다. (출처: theo, dejavucoder)
슈퍼볼 AI 광고 전쟁: Anthropic과 OpenAI의 가치관 대결 : Anthropic은 슈퍼볼 광고를 통해 “Claude에는 영원히 광고가 없을 것”이라고 선언하며 OpenAI의 광고 기능 테스트 행보를 풍자했습니다. 이에 Sam Altman은 “정직하지 못하다”며 즉각 비판했습니다. 이 공개적인 갈등은 AI 업계의 “빠른 상업화”와 “책임감 있는 배포” 사이의 철학적 차이를 반영하며, Agent가 SaaS를 대체할 것이라는 우려로 인한 소프트웨어 주식의 급격한 변동을 야기했습니다. (출처: Sam Altman, 硅星GenAI)

AI 안전 전문가 퇴사 행렬: 세계는 ‘다중 위기’ 상태인가? : Anthropic의 고위 안전 책임자 Mrinank Sharma가 시 학위를 공부하기 위해 퇴사하며, AI가 “비인간 지능”이 되어가고 있으며 현실적인 압박 속에서 가치관이 행동을 주도하기 어려워지고 있다고 경고했습니다. Geoffrey Hinton 역시 인류가 “외계 지능”에 직면해 있으며, 첫 번째 과제는 통제가 아닌 공존을 배우는 것이라고 언급했습니다. 이는 AI 발전이 인류의 이해 범위를 벗어났는지에 대한 커뮤니티의 깊은 토론을 촉발했습니다. (출처: Mrinank Sharma, CSDN)

AI 의료 대기업 혼전: Ant Afu, Hydrogen Ion 등 ‘건강 입구’ 쟁탈전 : Ant Afu가 전방위 광고 침투를 통해 월간 활성 사용자(MAU) 3,000만 명을 돌파했으며, Ali Health, Baidu, ByteDance 등도 밀집 배치되고 있습니다. 커뮤니티 토론은 AI가 진료 불안을 해소할 수 있는지, 그리고 “소문만 무성하고 실속은 없는” 수익성 문제를 어떻게 해결할지에 집중되고 있습니다. 현재 AI 의료는 단순한 “문진”에서 전 시나리오 건강 관리로 전환되고 있지만, 전문성 검증과 의료 규제 준수는 여전히 핵심 레드라인입니다. (출처: 蚂蚁阿福, Tech星球)
AI 시대에 영어 학습이 여전히 유용한가? : “번역 안경이 외국어 학습을 종결시킬 것”이라는 관점에 대해 커뮤니티에서 격렬한 논쟁이 벌어졌습니다. 반대 측은 AI 번역에 “정렬 검열”과 “환각” 위험이 있으며, 외국어를 모르면 검증 능력과 정보 밀도가 가장 높은 입구를 잃게 된다고 주장합니다. 더 깊게는 언어가 세상을 보는 방식이며, AI가 결과물은 대신할 수 있어도 인간의 형성 과정까지 대신해서는 안 된다는 의견입니다. (출처: dotey)

💡 기타
최초의 휴머노이드 로봇 격투 리그 URKL 출범 : EngineAI(众擎机器人)가 세계 최초의 상업용 휴머노이드 로봇 격투 대회를 개최하며 최고 상금 1,000만 위안을 내걸었습니다. 이 대회는 고강도 대결을 통해 로봇의 순간 폭발력, 균형 알고리즘 및 구조적 방어력을 연마하는 것을 목표로 합니다. 격투는 휴머노이드 로봇 능력의 “지옥 훈련장”으로 간주되며, 단순 보행 시연보다 Embodied AI의 실전 한계를 더 잘 검증할 수 있습니다. (출처: 众擎机器人, 界面新闻)

CellTransformer: AI, 단 몇 시간 만에 인류 100년의 뇌 지도 작성 : 샌프란시스코 캘리포니아 대학교(UCSF) 팀이 Transformer 아키텍처를 활용해 CellTransformer를 개발했습니다. 단 몇 시간 만에 생쥐 5마리의 세포 1,040만 개를 분류하고 지도를 작성했으며, 정확도는 인류가 100년간 수작업으로 쌓아온 결과와 일치하거나 이를 능가했습니다. 이 기술은 인간의 뇌로 확장되어 복잡한 신경 영역의 미세한 하위 구역을 밝혀낼 것으로 기대됩니다. (출처: Reza Abbasi-Asl, 量子位)

워너 뮤직 차이나, 세계 최초 AI 뮤직 아이돌 출시 : 워너 뮤직 차이나가 AI 아이돌의 Debut 작품을 발표하며 “AI가 실제 아이돌을 대체할 것인가”에 대한 논쟁을 불러일으켰습니다. 영상 퀄리티는 정교하지만 커뮤니티의 평가는 엇갈립니다. 일부는 음향과 영상의 동기화 수준에 감탄하는 반면, 다른 이들은 가사 로직이 혼란스럽고 예술적 영혼이 부족하다며 여전히 “기술 과시” 단계에 머물러 있다고 비판합니다. (출처: , ChatGPT Reddit)
