AI 일보 - 2025-06-12(조간)

키워드：메타, 스케일 AI, 초지능, AGI, 데이터 라벨링, AI 훈련, 모델 정확도, 메타 스케일 AI 지분 인수, 알렉산더 왕 초지능 팀 리더십, AI 데이터 라벨링 정확도 99.7%, 훈련 데이터 오염률 감소, 모델 훈련 주기 40% 단축

🔥 포커스

Meta, Scale AI에 약 150억 달러 투자 및 CEO를 새로운 ‘슈퍼 인텔리전스’ 팀 리더로 임명: Meta는 약 149억 달러에 AI 데이터 라벨링 및 인프라 회사인 Scale AI의 지분 49%를 인수하고, 28세의 중국계 CEO Alexandr Wang을 새로 설립된 ‘슈퍼 인텔리전스 팀’의 리더로 임명할 계획이라고 합니다. 이는 Meta의 AI 분야 경쟁력, 특히 고품질 학습 데이터 및 AGI 연구 개발 역량을 강화하기 위한 조치입니다. Scale AI는 99.7%에 달하는 데이터 라벨링 정확도로 유명하며, Meta 모델의 학습 데이터 오염률을 15%에서 2%로 낮추고 학습 주기를 40% 단축할 것으로 기대됩니다. 이번 인수는 Meta가 AI 경쟁에서 경쟁사를 추격하고 능가하려는 핵심 단계로 간주되며, AI 발전에서 데이터의 핵심 전략적 중요성을 강조합니다. (출처: 36氪, 36氪, 36氪, 36氪, Reddit r/LocalLLaMA)

OpenAI, Google Cloud와 대규모 컴퓨팅 파워 계약 체결 보도, Microsoft 의존도 탈피 가능성: 보도에 따르면 OpenAI는 Google Cloud와 중요한 클라우드 서비스 계약을 체결했으며, Google Cloud는 OpenAI의 증가하는 AI 모델 학습 및 배포에 필요한 컴퓨팅 파워를 제공할 예정입니다. 이전에는 Microsoft Azure가 OpenAI의 주요 컴퓨팅 파워 공급업체였습니다. 이 조치는 OpenAI가 단일 공급업체에 대한 의존도를 줄이고 방대한 컴퓨팅 수요를 충족하기 위해 컴퓨팅 파워 공급원의 다변화를 모색하고 있음을 시사할 수 있습니다. 이번 협력은 Google Cloud에게 중요한 성과이지만, 자체 사업과 고객 수요 간의 TPU 리소스 균형 문제에 대한 논의를 불러일으켰습니다. (출처: 36氪, scaling01)

Mistral AI, 추론 모델 Magistral 출시하며 벤치마크 투명성에 대한 커뮤니티 의문 제기: 프랑스 AI 회사 Mistral AI가 추론 전용 모델 시리즈인 Magistral을 출시했습니다. 여기에는 오픈 소스 24B 버전인 Magistral Small과 기업용 Magistral Medium이 포함됩니다. 공식적으로는 투명하고 추적 가능한 다단계 논리적 추론을 위해 설계되었으며 다국어를 지원한다고 밝혔습니다. 그러나 커뮤니티는 최신 버전의 Qwen 및 DeepSeek R1과 같은 경쟁 모델과 비교하지 않아 ‘경쟁 회피’ 의혹이 있다며 발표된 벤치마크 결과에 의문을 제기했습니다. 그럼에도 불구하고 Magistral은 AIME-24 수학 벤치마크에서 Mistral Medium 3에 비해 상당한 개선을 보였습니다. (출처: 36氪, Reddit r/artificial, Reddit r/ArtificialInteligence, teortaxesTex, qtnx_, charles_irl, algo_diver)

강화 학습의 아버지 Richard Sutton: LLM의 지배력은 일시적, 확장된 컴퓨팅과 경험 학습이 미래: 튜링상 수상자이자 강화 학습의 아버지인 Richard Sutton은 현재 대규모 언어 모델(LLM)의 지배력은 일시적이며, 인간의 사고방식을 모방하는 것은 단기적인 성능 향상만을 가져올 것이라고 예측했습니다. 그는 AI의 미래가 ‘경험의 시대’, 즉 에이전트가 정적인 인간 데이터에 의존하는 대신 세상과의 1인칭 상호작용을 통해 경험 데이터를 습득하여 학습하는 시대에 있다고 보았습니다. Sutton은 강화 학습이 이러한 미래로 가는 핵심 경로이며, 지속적인 학습을 위한 딥러닝 알고리즘과 대규모 확장 컴퓨팅을 결합하면 AI가 기존의 인식을 뛰어넘어 진정한 혁신을 이룰 수 있다고 강조했습니다. (출처: 量子位)

Hugging Face, NVIDIA와 협력하여 ‘서비스형 학습 클러스터’ 출시, 대규모 모델 학습 장벽 낮춰: Hugging Face는 NVIDIA와 협력하여 ‘서비스형 학습 클러스터’(Training Cluster as a Service)를 출시한다고 발표했습니다. 이는 전 세계 연구 기관이 다양한 첨단 모델을 학습하기 위해 대규모 GPU 클러스터 리소스에 더 쉽게 접근할 수 있도록 하는 것을 목표로 합니다. 이 서비스는 NVIDIA DGX Cloud Lepton과 Hugging Face의 개발 리소스를 통합하여 조직이 필요에 따라 GPU 클러스터 사용 시간을 요청하고 비용을 지불할 수 있도록 합니다. 이 조치는 ‘GPU 빈부 격차’를 해소하고 AI 연구의 다양성과 대중화를 촉진하기 위한 것으로, TIGEM, Numina, Mirror Physics 등 연구 기관 및 스타트업에서 초기 도입했습니다. (출처: HuggingFace Blog, clefourrier, mervenoyann, reach_vb)

🎯 동향

OpenAI, o3-pro 모델 출시 및 o3 API 가격 대폭 인하: OpenAI가 새로운 최상위 추론 모델인 o3-pro를 출시했으며, ChatGPT Pro 사용자와 API 사용자에게 공개했습니다. 동시에 o3 모델의 API 가격이 80% 대폭 인하되었고, ChatGPT Plus 사용자의 o3 속도 제한도 두 배로 늘어났습니다. 커뮤니티 피드백에 따르면 o3-pro는 비코드 작업에서 Claude Opus 4보다 우수한 성능을 보였으며, Extended NYT Connections 및 Creative Short Story Writing과 같은 여러 벤치마크에서 새로운 기록을 세웠고, 심지어 이전에 Apple 논문에서 LLM의 능력을 의심했던 ‘하노이의 탑 10개 원반 문제’를 성공적으로 해결했습니다. 그러나 일부 사용자는 o3-pro의 속도가 느리다고 보고했습니다. OpenAI는 o3 가격 인하가 증류나 양자화를 통해서가 아니라 추론 엔지니어의 최적화 작업 덕분이라고 밝혔습니다. (출처: snsf, SebastienBubeck, imjaredz, Teknium1, TheRundownAI, op7418, paul_cal, johnowhitaker, scaling01, scaling01, code_star, Teknium1)

OpenBMB, MiniCPM4 시리즈 엣지 디바이스용 고효율 LLM 출시: OpenBMB가 엣지 디바이스용으로 특별히 설계된 MiniCPM4 시리즈 모델을 출시했습니다. 이 모델은 일반적인 엣지 디바이스 칩에서 5배 이상의 생성 가속을 달성했다고 주장합니다. 이 시리즈에는 MiniCPM4-8B, MiniCPM4-0.5B 및 3진 양자화된 BitCPM4-1B/0.5B 버전 등이 포함됩니다. MiniCPM4는 학습 가능한 희소 어텐션 메커니즘인 InfLLM v2를 채택하여 128K 길이의 텍스트 처리를 지원하며, 모델 풍동 2.0, BitCPM 3진 양자화, FP8 저정밀도 계산 및 다중 토큰 예측과 같은 고효율 학습 알고리즘 및 학습 기술을 결합했습니다. 동시에 고품질 중국어-영어 사전 학습 데이터셋 UltraFineweb과 지도 미세 조정 데이터셋 UltraChat v2도 출시했습니다. (출처: GitHub Trending)

MSRA와 칭화대-북경대 학자들, 강화 사전 학습(RPT) 새로운 패러다임 제시: Microsoft Research Asia(MSRA)가 칭화대학교, 북경대학교 연구진과 공동으로 강화 사전 학습(Reinforced Pre-Training, RPT)이라는 새로운 LLM 사전 학습 패러다임을 제안했습니다. 이 방법은 강화 학습(RL)을 사전 학습 단계에 깊숙이 통합하여, 모델이 각 토큰을 예측하기 전에 사고의 연쇄 추론 시퀀스를 생성하고 예측의 정확성에 따라 보상을 받습니다. RPT는 모델이 표면적인 토큰 상관관계를 학습하는 것에서 벗어나 심층적인 의미를 이해하도록 하는 것을 목표로 합니다. 실험 결과, RPT 기반으로 학습된 14B 모델은 일부 추론 작업에서 32B의 전통적인 사전 학습 모델에 필적하거나 이를 능가하는 성능을 보여, LLM의 언어 모델링 및 추론 능력 향상에 큰 잠재력을 보였습니다. (출처: 量子位, omarsar0)

Meta, V-JEPA 2 비디오 월드 모델 및 새로운 벤치마크 공개: Meta AI가 비디오 데이터로 학습된 12억 파라미터 월드 모델인 V-JEPA 2를 출시했습니다. 이는 기계의 물리적 세계에 대한 이해와 예측 능력을 향상시키기 위해 설계되었습니다. 이 모델은 로봇의 제로샷 계획에 활용되어 익숙하지 않은 환경에서 작업을 계획하고 실행할 수 있도록 합니다. 동시에 Meta는 기존 모델이 비디오에서 물리적 세계를 추론하는 능력을 평가하기 위한 세 가지 새로운 벤치마크도 공개했습니다. HuggingFace는 V-JEPA 2의 transformers 라이브러리 지원을 제공합니다. (출처: AIatMeta, ClementDelangue, Reddit r/LocalLLaMA)

ByteDance, Seedance 1.0 Pro 비디오 생성 모델 출시, Doubao 앱에 탑재: ByteDance가 최신 비디오 생성 모델인 Seedance 1.0 Pro(즉, Dream Driver의 비디오 3.0 Pro 모델)를 출시했습니다. 이 모델은 프롬프트 이해, 화면 디테일 및 물리적 표현 일관성에서 뛰어난 성능을 보이며 5초 1080P 비디오를 생성할 수 있습니다. 현재 이 모델은 Volcano Engine을 통해 기업 사용자에게 개방되었으며, Doubao 앱에서 ‘사진 움직이기’ 기능으로 사용자가 무료로 체험할 수 있도록上线되었습니다. (출처: op7418)

Huawei, AI 학습 및 추론 효율 최적화를 위한 ‘디지털 풍동’ 시뮬레이션 플랫폼 출시: Huawei Markov 모델링 시뮬레이션 팀이 실제 복잡한 AI 모델 학습 및 추론 전에 가상 환경에서 ‘리허설’을 수행하기 위한 플랫폼인 ‘디지털 풍동’ 기술을 처음으로 선보였습니다. 이 플랫폼은 Sim2Train(학습 시뮬레이션), Sim2Infer(추론 시뮬레이션), Sim2Availability(고가용성 시뮬레이션)의 세 가지 주요 모듈을 포함하며, 시뮬레이션과 자동 최적화를 통해 하드웨어 리소스 불일치, 시스템 결합 등의 문제를 해결하여 만 카드 클러스터 솔루션을 시간 단위로 사전 검토하고 컴퓨팅 파워 낭비를 방지하며 AI 대규모 모델 학습 및 추론의 효율성과 안정성을 향상시키는 것을 목표로 합니다. (출처: 量子位)

Gemini 2.5 Pro, 여러 벤치마크에서 우수한 성능 과시: Google의 최신 Gemini 2.5 Pro (06-05) 모델이 여러 공개 AI 순위표에서 뛰어난 성과를 보였습니다. 192k 토큰을 처리하는 Live Fiction 테스트에서 최고의 성능을 보였고, SimpleBench에서 62.4%의 점수로 1위를 차지했으며, IDP(지능형 문서 처리) 및 Aider(AI 지원 코딩)와 같은 벤치마크에서 강력한 문서 처리 능력과 가성비를 입증했습니다. 또한, 일부 사용자는 Gemini 2.5 Pro가 JEE Advanced 2025 수학 부분의 모든 문제를 성공적으로 해결했다고 보고했습니다. (출처: _philschmid, dilipkay)

Kling AI 비디오 모델, 립싱크 기능 업데이트, 캐릭터 선택 및 편집 지원: Kuaishou 산하의 AI 비디오 생성 도구 Kling AI가 최근 립싱크(Lip-sync) 기능을 업데이트했습니다. 새로운 기능을 통해 사용자는 생성된 비디오에서 특정 캐릭터를 선택하여 립싱크를 맞출 수 있으며, 오디오와 입 모양 동기화 시간을 조정할 수 있습니다. 이번 업데이트는 Kling AI의 다중 캐릭터 대화 비디오 제작 측면에서 유연성과 현실감을 향상시켰으며, 비디오 생성 분야에서 중요한 진전입니다. (출처: Kling_ai, Kling_ai)

Delta Lake 4.0.0 출시, Lakehouse 기능 강화: Delta Lake 4.0.0 버전이 공식 출시되어 여러 가지 중요한 새로운 기능을 제공합니다. 여기에는 통합 거버넌스 및 검색 가능성을 위한 미리보기 버전의 카탈로그 관리 테이블(Catalog-Managed Tables), Spark Connect용 Delta Connect 확장, 반구조화된 데이터 처리를 위한 Variant 데이터 유형 지원, 그리고 기록 잘림이나 다운타임 없이 테이블 기능을 제거할 수 있는 즉시 DROP FEATURE 기능이 포함됩니다. 이 버전은 개방형 lakehouse 커뮤니티의 경험을 향상시키는 것을 목표로 합니다. (출처: matei_zaharia)

Hugging Face, 모델과 도구 간 상호 작용을 단순화하는 MCP 서버 출시: Hugging Face가 모델 컨텍스트 프로토콜(MCP) 서버의 첫 번째 버전을 출시했습니다. 사용자는 이제 http://hf.co/mcp를 통해 Claude 또는 Cursor와 같은 애플리케이션에서 이 서버를 활용하여 모델, 데이터셋, 논문, 애플리케이션 또는 특정 정보를 검색할 수 있습니다. 이는 Hugging Face가 AI 생태계에서 도구와 모델의 상호 운용성을 추진하는 데 중요한 진전을 의미하며, 향후 업로드, 다운로드, PR 시작 등의 기능으로 확장될 수 있습니다. (출처: clefourrier, ClementDelangue)

Baidu, 저장 및 지능형 관리 통합 ‘AI 카메라’ 출시 및 GenFlow 슈퍼 파트너 2.0 업그레이드: Baidu Netdisk와 Baidu Wenku가 공동으로 ‘AI 카메라’ 기능을 출시하여 사진 촬영, 클라우드 저장 및 지능형 관리의 통합을 실현했습니다. 사진은 클라우드 앨범에 자동으로 보관되며 자연어 설명을 통한 지능형 분류 및 검색을 지원합니다. AI 카메라는 또한 뷰티, 물체 인식 과학 보급, 스케치 낙서 생성, 영수증 스캔, 손글씨 표 변환 등 다양한 AI 기능을 갖추고 있습니다. 동시에 다중 에이전트 협업 플랫폼 ‘GenFlow 슈퍼 파트너’가 2.0 버전으로 업그레이드되어 사용자 데이터 및 습관과 더욱 깊이 결합하여 개인화된 콘텐츠 생성 서비스를 제공합니다. (출처: 量子位)

ByteDance, SeedVR2 비디오 복원 모델 코드 및 가중치 오픈소스 공개: ByteDance SEED 팀이 원스텝 비디오 복원 모델 SeedVR2의 추론 코드와 모델 가중치를 공개했으며, 현재 Hugging Face에서 제공됩니다. 이 모델은 확산 적대적 사후 학습(diffusion adversarial post-training) 기술을 활용하여 비디오 복원에서 상당한 효과를 거두었으며, 특히 고해상도 비디오 처리에서 뛰어난 성능을 보입니다. (출처: _akhaliq)

GroqCloud, Qwen3-32B 모델上线, 100개 이상의 언어와 131k 컨텍스트 지원: Groq이 자사의 LPU 추론 하드웨어 클라우드 플랫폼 GroqCloud에 Alibaba Tongyi Qianwen Qwen3-32B 모델을上线했다고 발표했습니다. 이 모델은 100개 이상의 언어와 방언을 지원하며, 131k의 컨텍스트 창을 가지고 있고 Groq 하드웨어 특유의 실시간 속도로 실행되어 개발자에게 강력한 다국어, 장문 텍스트 처리 능력을 제공합니다. (출처: JonathanRoss321)

OpenAI CEO Sam Altman, 오픈소스 가중치 모델 출시 연기 발표: Sam Altman은 OpenAI의 오픈소스 가중치 모델 출시가 기존 계획이었던 6월이 아닌 올 여름 말로 연기될 것이라고 밝혔습니다. 그는 연구팀이 “예상치 못하고 매우 놀라운” 진전을 이루었으며 기다릴 가치가 있지만, 완성하는 데 더 많은 시간이 필요하다고 전했습니다. (출처: SebastienBubeck, Reddit r/LocalLLaMA, eliebakouch, teortaxesTex)

디과 로봇, RDK S100 개발 키트 출시, 단일 SoC에 대뇌-소뇌 아키텍처 통합: 디과 로봇(Digua Robot)이 업계 최초로 단일 SoC 연산-제어 통합 로봇 개발 키트 RDK S100을 출시했습니다. 이 키트는 인간의 대뇌-소뇌와 유사한 슈퍼 이기종 협업 아키텍처 설계(6코어 Arm Cortex-A78AE CPU + 80 TOPS BPU를 ‘대뇌’로, 4코어 Arm Cortex-R52+ MCU를 ‘소뇌’로)를 채택하여 구현 지능 대형-소형 모델의 효율적인 협업을 지원하고 ‘인지-결정-제어’ 폐쇄 루프를 구축합니다. RDK S100은 풍부한 인터페이스와 전체 링크 개발 인프라를 제공하며, 사전 판매 가격은 2499위안입니다. (출처: 量子位)

아이부 인텔리전스, 50TOPS 국산 SoC 탑재 E300 AI 컴퓨팅 모듈 출시: 아이부 인텔리전스(Aibee Intelligence)가 엣지 시나리오를 위한 E300 AI 컴퓨팅 모듈을 출시했습니다. 이 모듈은 자체 개발한 AI SoC 칩 AB100을 탑재했습니다. 이 모듈은 최대 50TOPS의 INT8 연산력을 제공하며, FP16/FP32 혼합 정밀도 계산을 지원하고 102GB/s LPDDR5 메모리 대역폭을 갖추고 있습니다. E300은 모듈식 설계를 채택하여 교육, 에너지, 의료 등 산업에 고성능, 저지연, 고신뢰성의 국산화된 엣지 AI 솔루션을 제공하고, 주류 오픈소스 대형 모델과 다양한 시각 및 음성 모델의 엣지 배포를 지원하는 것을 목표로 합니다. (출처: 量子位)

Huawei, Ascend 만 카드 클러스터 고가용성 기술 공개, 98% 학습 가용도 달성: Huawei가 자사의 Ascend 만 카드 컴퓨팅 파워 클러스터의 고가용성 기술 세부 정보를 처음으로 공개했습니다. 장애 감지 진단, 장애 관리, 클러스터 광 링크 내결함성이라는 세 가지 기본 기능과 클러스터 선형성 최적화, 학습 및 추론 빠른 복구 등 비즈니스 지원 기능을 통해 Huawei는 만 카드 클러스터 학습 가용도를 98%까지 달성하고 선형성을 95% 이상으로 높였으며, 장애 복구는 초 단위, 진단은 분 단위로 이루어집니다. 이 “3+3” 이중 차원 기술 체계는 대규모 AI 학습 및 추론의 안정적이고 효율적인 운영을 보장하는 것을 목표로 합니다. (출처: 量子位)

BYD 신차 지능형 주행 침투율 79% 도달, 고속도로 NOA 주류 사양으로 자리매김: BYD가 발표한 최신 데이터에 따르면, 5월에 판매된 신차 중 지능형 보조 주행 시스템(최소 고속도로 NOA 및 자동 주차 기능 탑재)을 탑재한 차량의 비율이 79%에 달했습니다. 이는 BYD가 ‘전 국민 지능형 주행’ 전략 추진에서 상당한 성과를 거두었으며, 지능형 주행 기능이 빠르게 자사 차량의 표준 사양이 되고 있음을 보여줍니다. 이러한 추세는 중국 자동차 시장의 지능형 주행 기술 보급 속도가 빨라지고 있음을 반영합니다. (출처: 量子位)

ChatGPT 고급 음성 기능, 모든 유료 사용자에게 출시: OpenAI는 이전에 업데이트된 더욱 자연스러운 ChatGPT 고급 음성 기능(Advanced Voice)이 모든 유료 사용자(ChatGPT Plus, Team, Enterprise)에게 출시되었다고 발표했습니다. 사용자는 이 기능을 통해 ChatGPT와 더욱 자연스러운 음성 상호 작용을 할 수 있습니다. (출처: juberti)

🧰 툴

Genspark AI 브라우저 출시, 다수의 AI 에이전트 기능 통합: Eric Jing 팀이 Genspark AI 브라우저를 출시했습니다. 24명으로 구성된 팀이 10주 만에 개발했다고 하며, AI 브라우저, AI 비서, AI 개인 통화, AI 다운로드 에이전트, AI Drive, AI Sheets 등 8가지 주요 제품을 통합했습니다. 이 브라우저는 빠른 속도, 광고 차단, 완전한 에이전트화, 자율 주행 모드를 특징으로 하며, MCP 스토어와 슈퍼 에이전트를 내장하여 원스톱 AI 지원 브라우징 및 작업 환경을 제공하는 것을 목표로 합니다. (출처: blader)

Yutori AI, AI 에이전트 네트워크 모니터링 플랫폼 Scouts 출시: Yutori AI가 Scouts 플랫폼을 출시했습니다. 사용자는 이를 통해 지속적으로 온라인 상태인 AI 에이전트를 생성하여 네트워크상의 특정 정보 업데이트를 모니터링할 수 있습니다. 이러한 에이전트는 틈새 뉴스, 상품 가격 변동, 티켓 정보 등 사용자가 관심을 갖는 다양한 콘텐츠를 추적하고 중요한 순간에 이메일로 사용자에게 알려주어 정보 추적 자동화를 통해 사용자를 해방시키는 것을 목표로 합니다. (출처: DhruvBatraDB, DhruvBatraDB, DhruvBatraDB, DhruvBatraDB, DhruvBatraDB, DhruvBatraDB, DhruvBatraDB, DhruvBatraDB)

Hugging Face, AI 모델과 스프레드시트를 결합한 AISheets 출시: Hugging Face가 수천 개의 AI 모델(특히 오픈소스 LLM)과 스프레드시트 기능을 결합한 애플리케이션인 AISheets를 출시했습니다. 사용자는 AISheets에서 데이터를 구축, 분석 및 자동화 처리할 수 있으며, 원활하고 빠르며 간단한 AI 기반 데이터 처리 경험을 제공하는 것을 목표로 합니다. (출처: ben_burtenshaw, LoubnaBenAllal1)

PLaMo, MLX 기반 로컬 번역 CLI 도구 출시: PLaMo LLM 팀이 Apple Silicon이 탑재된 Mac에서 MLX 프레임워크를 활용하여 로컬 텍스트 번역을 구현하는 명령줄 인터페이스(CLI) 도구를 오픈소스로 공개했습니다. 이 도구는 빠르고 정확한 로컬 번역 경험을 제공하는 것을 목표로 하며, HTTP 및 MCP 서버와 클라이언트를 내장하여 다른 MCP 호환 애플리케이션(예: Claude Desktop)과의 통합을 용이하게 합니다. (출처: awnihannun)

GPT Researcher, LangChain MCP 어댑터 통합으로 도구 선택 및 연구 능력 향상: GPT Researcher가 이제 LangChain의 모델 컨텍스트 프로토콜(MCP) 어댑터를 활용하여 더욱 지능적인 도구 선택 및 연구 프로세스를 구현합니다. 이는 MCP의 장점과 웹 검색 능력을 결합하여 보다 포괄적인 데이터 수집 및 분석을 수행하는 것을 목표로 합니다. (출처: Hacubu)

Consilium: 오픈소스 다중 에이전트 협업 프레임워크 출시: Victor M이 오픈소스 AI 에이전트 팀 협업 프레임워크인 Consilium을 출시했습니다. 사용자는 전략을 설정하고, 여러 전문가 에이전트가 토론하며, 실시간 연구(웹, arXiv, SEC 데이터)를 활용하여 복잡한 문제를 공동으로 해결하고 합의에 도달할 수 있습니다. 이 도구는 Hugging Face에서 데모로 제공됩니다. (출처: clefourrier)

youtube-transcript-api: 유튜브 자막 가져오는 Python 라이브러리, 번역 및 자동 생성 콘텐츠 지원: jdepoix가 개발한 Python 라이브러리 youtube-transcript-api가 GitHub에서 주목받고 있습니다. 이 API는 자동 생성된 자막을 포함하여 YouTube 비디오의 자막을 가져올 수 있으며 번역 기능을 지원합니다. Selenium 기반의 다른 솔루션과 달리 API 키나 헤드리스 브라우저가 필요 없어 개발자에게 편리한 비디오 텍스트 콘텐츠 추출 경로를 제공합니다. (출처: GitHub Trending)

Arc 브라우저, 브라우징 기록 기록 및 AI 질의응답 지원하는 Dia 기능 출시: Arc 브라우저에 Dia 기능이 추가되었습니다. 이 기능을 켜면 사용자의 모든 브라우징 기록이 지속적으로 기록됩니다. 사용자는 @History 기능을 통해 모호한 자연어로 질문하여 이전에 방문했지만 정확한 URL을 잊어버린 정보를 찾을 수 있습니다. 이 기능은 브라우징 기록 보고서 생성까지 지원할 가능성이 있어 브라우저의 지능화 및 개인화된 정보 관리 능력을 향상시킵니다. (출처: op7418)

📚 학습

Apple, LLM 능력 경계 탐구 논문 ‘사고의 환상’ 발표: Apple 머신러닝 연구팀이 현재 대규모 언어 모델(LLM)이 복잡한 추론 작업(예: 하노이의 탑 문제 해결)에서 보이는 성능과 한계를 분석한 논문 ‘사고의 환상’(The Illusion of Thinking)을 발표했습니다. 이 논문은 커뮤니티에서 LLM의 실제 지능 수준에 대한 논의를 불러일으켰으며, 이러한 연구가 때때로 AI 도입을 늦추는 이유로 사용된다는 견해도 있습니다. OpenAI의 o3-pro 모델은 이후 논문에서 제기된 하노이의 탑 난제를 해결했습니다. (출처: Reddit r/deeplearning, Teknium1, Reddit r/ArtificialInteligence)

새로운 연구 ‘범용 에이전트는 월드 모델을 필요로 한다’, 에이전트 일반화와 예측 모델 관계 탐구: ‘범용 에이전트는 월드 모델을 필요로 한다’(General agents need world models)라는 제목의 새로운 연구 논문은 다단계 목표 지향 작업으로 일반화할 수 있는 범용 에이전트가 예측적인 월드 모델을 학습해야 한다고 지적합니다. 이 모델은 에이전트의 정책에 인코딩되며, 논문은 복합 목표 하에서 에이전트의 정책 선택을 조회하여 환경 전환 확률을 추출함으로써 일반화 능력과 학습된 모델의 충실도 사이의 직접적인 연관성을 증명합니다. (출처: menhguin)

논문, 개념 인식 미세 조정(CAFT)을 통한 LLM 성능 향상 탐구: 새로운 논문 ‘개념 인식 미세 조정을 통한 대규모 언어 모델 개선’(Improving large language models with concept-aware fine-tuning)은 다중 토큰 예측을 가능하게 하는 미세 조정을 통해 모델의 개념 이해도를 향상시키는 CAFT 방법을 제안합니다. 연구에 따르면 CAFT는 인코딩, 수학, 텍스트 요약, 분자 생성 및 단백질 설계와 같은 작업에서 모두 상당한 성능 향상을 가져왔습니다. 코드는 GitHub에 공개되었습니다. (출처: Reddit r/MachineLearning)

DeepLearning.AI, 새로운 과정 ‘GenAI 애플리케이션 워크플로우 오케스트레이션’ 출시: Andrew Ng의 DeepLearning.AI가 Astronomer와 협력하여 ‘GenAI 애플리케이션 워크플로우 오케스트레이션’(Orchestrating Workflows for GenAI Applications)이라는 새로운 단기 교육 과정을 출시했습니다. 이 과정은 인기 있는 오픈소스 도구인 Airflow 3.0을 사용하여 신뢰할 수 있는 GenAI 파이프라인을 구축하고 프로토타입 Jupyter Notebook 또는 Python 스크립트를 프로덕션 준비가 된 워크플로우로 전환하는 방법을 가르칩니다. 내용은 작업 분해, 스케줄링, 병렬 실행, 장애 복구 및 관찰 가능성을 다룹니다. (출처: AndrewYNg)

논문 ‘텍스트, 이미지 및 3D 구조의 토큰별 정렬’ 다중 모드 자기 회귀 모델 탐색: 이 연구는 언어, 이미지 및 구조화된 3D 장면을 정렬하는 것을 목표로 하는 통합 LLM 프레임워크를 제안합니다. 논문은 데이터 표현, 특정 모드 대상 함수 등 최적의 학습 및 성능을 달성하기 위한 핵심 설계 선택 사항을 자세히 설명하고 렌더링, 인식, 지침 준수 및 질의응답과 같은 네 가지 핵심 3D 작업 및 여러 데이터에서 평가를 수행했습니다. 연구는 또한 양자화된 모양 인코딩을 통해 복잡한 3D 객체 모양을 재구성하는 것으로 확장됩니다. (출처: HuggingFace Daily Papers)

논문 ‘Squeeze3D’: 사전 훈련된 3D 생성 모델을 활용한 극한 신경 압축: Squeeze3D 프레임워크는 사전 훈련된 3D 생성 모델에서 학습된 암시적 사전 지식을 활용하여 3D 데이터(메시, 포인트 클라우드, 방사형 필드)를 크게 압축합니다. 훈련 가능한 매핑 네트워크를 통해 사전 훈련된 인코더와 생성 모델의 잠재 공간을 연결하여 3D 모델을 압축된 잠재 코드로 압축하고, 압축 해제 시 생성 모델이 재구성합니다. 이 방법은 합성 데이터에서 훈련되며 실제 3D 데이터셋이 필요하지 않아 텍스처 메시에서 최대 2187배의 압축률을 달성했습니다. (출처: HuggingFace Daily Papers)

논문 ‘프레임워크 가이던스’: 비디오 확산 모델에서 훈련 없는 프레임 수준 제어: 이 연구는 비디오 확산 모델에서 훈련 없이 프레임 수준 제어를 구현하는 ‘프레임워크 가이던스’(Frame Guidance)를 제안합니다. 간단한 잠재 공간 처리와 새로운 잠재 공간 최적화 전략을 통해 이 방법은 키프레임, 스타일 참조, 스케치 또는 깊이 맵과 같은 프레임 수준 신호를 효과적으로 제어할 수 있으며, 키프레임 가이던스, 스타일화, 루프 재생 등 다양한 작업에 적용 가능하고 모든 비디오 모델과 호환됩니다. (출처: HuggingFace Daily Papers)

논문 ‘대규모 언어 모델의 지정학적 편향’ 모델의 국가 입장 드러내: 이 연구는 LLM이 서로 다른 국가적 관점(미국, 영국, 소련, 중국)을 가진 역사적 사건을 해석하는 방식을 분석하여 LLM의 지정학적 편향을 평가했습니다. 연구자들은 중립적인 사건 설명과 각국의 대조적인 관점을 포함하는 새로운 데이터셋을 도입하여 LLM이 특정 국가의 서사를 현저하게 편드는 편향이 있으며, 간단한 편향 제거 프롬프트의 효과는 제한적이라는 것을 발견했습니다. 이 연구는 향후 지정학적 편향 연구를 위한 프레임워크와 데이터셋을 제공합니다. (출처: HuggingFace Daily Papers)

Awesome Lists 리소스 저장소 지속적 업데이트, 다양한 흥미로운 주제 수록: sindresorhus가 관리하는 GitHub 프로젝트 awesome은 다양한 흥미로운 주제에 대한 ‘Awesome lists’를 모아놓은 메타 리스트입니다. 이 리스트들은 프로그래밍 언어, 개발 플랫폼부터 이론, 서적, 도구 등 다양한 분야를 망라하며 개발자와 학습자에게 풍부한 리소스 색인을 제공합니다. (출처: GitHub Trending)

북경대-버클리 공동 IDA-Bench 출시, AI 데이터 분석 에이전트 상호작용 능력 평가: 북경대학교와 캘리포니아 대학교 버클리 캠퍼스 연구팀(Michael I. Jordan 교수 포함)이 대규모 언어 모델(LLM)을 데이터 분석 에이전트(Agent)로서 다중 회차 상호작용 시나리오에서의 능력을 평가하기 위한 새로운 벤치마크인 IDA-Bench를 출시했습니다. 이 벤치마크는 실제 데이터 분석가의 작업 흐름을 모방하여 점진적으로 진화하는 지시를 통해 에이전트의 준수 능력, 코드 작성 및 실행 능력을 평가합니다. 초기 평가 결과, Claude-3.7 및 Gemini-2.5 Pro와 같은 최상위 모델조차도 작업 성공률이 40% 미만으로 나타나 현재 에이전트가 복잡한 상호작용 및 지시 준수 측면에서 어려움을 겪고 있음을 보여주었습니다. (출처: 量子位)

💼 비즈니스

xAI, Polymarket과 협력하여 시장 예측과 Grok 분석 융합: Elon Musk의 xAI가 예측 시장 플랫폼 Polymarket과 협력한다고 발표했습니다. 양측은 Polymarket의 시장 예측 능력, X 플랫폼의 데이터 및 Grok 모델의 분석 능력을 결합하여 세상을 형성하는 요인을 통찰하는 ‘하드코어 진실 엔진’(Hardcore truth engine)을 구축하는 것을 목표로 합니다. 공식 발표에 따르면 이는 협력의 시작일 뿐이며, 향후 더 많은 진전이 있을 것이라고 합니다. (출처: Yuhu_ai_)

UnslothAI, Redpoint로부터 최고의 인프라 회사로 선정되어 Nasdaq 대형 스크린에 등장: AI 스타트업 UnslothAI가 AI 인프라 분야에서의 기여를 인정받아 벤처 캐피털 회사 Redpoint로부터 2025년 가장 영향력 있고 빠르게 성장하는 100대 인프라 회사 중 하나로 선정되어, 그 로고가 뉴욕 Nasdaq 타워의 전자 스크린에 등장했습니다. UnslothAI는 LLM의 학습 및 추론 효율 최적화에 주력하고 있습니다. (출처: danielhanchen, karminski3)

Ant Digital, Tianji Lab 업그레이드하여 ‘AI+산업 혁신’에 집중: Ant Digital이 자사의 Tianji Lab을 기존 ‘디지털 신원 보안 연구소’에서 ‘인공지능+산업 혁신’ 연구소로 업그레이드한다고 발표했습니다. 업그레이드된 연구소는 AI 대형 모델의 산업 응용 분야 핵심 기술 돌파에 중점을 두고 AI+데이터, AI+보안, AI+금융 및 AI+구현 지능의 네 가지 방향으로 사업을 확장하여 산학연 협력 혁신을 통해 AI 기술과 산업의 심층 융합을 추진하는 것을 목표로 합니다. (출처: 量子位)

🌟 커뮤니티

복잡한 교통 환경에서의 AI 자율주행 능력 주목: Ronald van Loon이 인도 혼잡한 교통 상황에서 자율주행을 테스트하는 영상을 공유하며, 복잡하고 역동적인 환경에서의 AI의 인지, 결정 및 제어 능력에 대한 논의를 촉발했습니다. 이러한 실제 상황은 자율주행 시스템의 견고성과 적응성에 매우 높은 요구 사항을 제기합니다. (출처: Ronald_vanLoon)

AI Engineer World’s Fair 컨퍼런스 핵심: MCP 프로토콜, AI 에이전트 비용 및 로컬 모델 주목: Yogi와 Shawn “swyx” Wang 등이 AI Engineer World’s Fair 컨퍼런스의 주요 내용을 공유했습니다. 핵심 트렌드는 다음과 같습니다: 1) AI 에이전트가 미래이며, 원자적 상호작용 단위는 에이전트 호출이 될 것입니다. 2) 모델 컨텍스트 프로토콜(MCP)이 빠르게 표준으로 자리 잡고 있으며, ‘복사-붙여넣기 지옥’을 해결하고 AI가 외부 애플리케이션과 직접 상호작용할 수 있도록 합니다. 3) 특정 분야 및 워크플로우를 위해 심층적으로 최적화된 AI 도구(Cursor-for-X 모드) 구축이 핵심입니다. 4) 모델 비용이 크게 하락하고 로컬 모델 기능이 향상되어 개발자에게 더 큰 제어권과 낮은 지연 시간 솔루션을 제공합니다. 5) AI는 보조 도구에서 개발자의 ‘팀 동료’로 진화하고 있습니다. 6) AI 엔지니어링은 데모 단계에서 프로덕션 수준 시스템으로 나아가고 있습니다. (출처: swyx, TheTuringPost)

커뮤니티, o3-pro 출시 후 빠른 반복과 Apple AI 논문에 뜨거운 반응: andersonbcdefg는 o3-pro 출시 6시간 만에 커뮤니티가 누군가 Rust로 fastText를 다시 작성하기를 기대하는 것 같다며 ‘온화한 초지능’에 대한 장황한 논의를 풍자하며 AI 분야의 기술 반복 속도와 커뮤니티의 높은 기대감을 반영했습니다. 동시에 Teknium1은 o3-pro가 Apple의 ‘사고의 환상’ 논문에서 제기된 하노이의 탑 난제를 해결했다고 지적하며, Apple과 OpenAI가 협력 관계임에도 불구하고 왜 내부 검증 없이 이러한 논문을 발표했는지 의문을 제기하여 기술 회사 간의 경쟁과 협력 관계에 대한 커뮤니티의 논의를 촉발했습니다. (출처: andersonbcdefg, Teknium1)

AI의 실제 적용에서의 윤리 및 효과 논의: 커뮤니티는 특정 시나리오에서 AI 적용 효과와 윤리 문제에 대해 논의를 펼쳤습니다. 예를 들어, Arvind Narayanan은 AI 칼로리 계산 앱 개념 자체에 결함이 있으며, 이미지 정보만으로는 칼로리를 정확하게 추정하기에 부족하다고 지적하며, 이는 사용자가 식습관에 주의를 기울이는 습관을 형성하도록 돕는 ‘의식’에 가깝다고 주장했습니다. 또한, AI 생성 이미지를 상업적 홍보(예: 커피숍 메뉴판)에 사용하는 것이 윤리적인지 또는 적절한지에 대한 논의도 있었으며, 명백한 허위 사실이나 오해를 유발하지 않는 한 비용 절감 및 효율성 향상 방식으로 수용 가능하다는 의견이 지배적이었습니다. (출처: random_walker, Reddit r/artificial)

LLM의 ‘인간화’와 사용자 상호작용 경험 주목: Reddit 커뮤니티 사용자들은 망설임, 멈춤, 더 짧은 응답, 불완전한 표현 등을 도입하여 LLM의 상호작용을 실제 인간과 더 유사하게 만드는 방법에 대해 논의했습니다. 이는 사용자들이 더 자연스럽고 ‘로봇 같지 않은’ AI 동반자 또는 조수에 대한 요구를 반영합니다. 동시에, 현재 LLM(예: ChatGPT)이 고정된 문구와 과장된 표현(예: “이것은 단지 X가 아니라 Y입니다”)을 자주 사용하는 것에 대해 불만을 표하며, 표현이 더 간결하고 직접적이기를 바라는 사용자들도 있었습니다. 이러한 논의는 LLM이 인간 대화를 모방하고 사용자 감정적 요구를 충족시키는 데 있어 지속적인 과제를 안고 있음을 시사합니다. (출처: Reddit r/LocalLLaMA, Reddit r/ChatGPT)

💡 기타

NVIDIA CEO Jensen Huang, GTC Paris에서 AI 컴퓨팅의 새로운 단계에 대한 기조연설 예정: NVIDIA는 CEO Jensen Huang이 6월 11일 파리 GTC 컨퍼런스(VivaTech 2025 기간 중)에서 기조연설을 할 것이라고 발표했습니다. 에이전트 시스템에서 AI 팩토리에 이르기까지 AI 컴퓨팅의 다음 단계를 공개할 것으로 예상됩니다. (출처: nvidia, nvidia)

Databricks Data+AI Summit, 최신 혁신 선보일 예정: Databricks는 Data+AI Summit에서 최고의 전문가, 연구원 및 오픈 소스 기여자들이 모여 데이터 및 AI 분야에서의 회사 최신 혁신을 선보이고 혁신적인 기업들의 성공 사례를 공유할 것이라고 발표했습니다. 서밋은 온라인 및 오프라인 참여 방식을 제공합니다. (출처: matei_zaharia, lateinteraction)

AI의 윤리 및 환경 영향 주목, 그래픽 노블 형식으로 과학 보급: EPFL(로잔 연방 공과대학교)의 LEARN 센터가 일러스트레이터 Herji와 협력하여 프랑스어 교육용 그래픽 노블 ‘Utop’IA’를 출간했습니다. 이는 이야기 형식을 통해 청소년들에게 인공지능의 환경 영향, 즉 자원 소모(에너지, 물, 희귀 금속)와 잠재적인 생태학적 이점을 과학적으로 알리는 것을 목표로 합니다. 이 작품은 비판적 사고를 강조하며 지속 가능한 AI 발전 경로를 탐구합니다. (출처: aihub.org)

🔥 포커스

🎯 동향

🧰 툴

📚 학습

💼 비즈니스

🌟 커뮤니티

💡 기타

관련 태그

Related Posts

AI 일보 – 2026-07-21

AI 일보 – 2026-07-20

AI 일보 – 2026-07-19