Ключевые слова:Крупные языковые модели, Обучение с подкреплением, Инфраструктура ИИ, Мультимодальный ИИ, Этика ИИ, Квантовые вычисления, Агенты ИИ, Критика LLM от Ричарда Саттона, Проект OpenAI Stargate, Модель Code World Meta (CWM), Оптимизация производительности Flash Attention 4, Уязвимости безопасности робота Unitree G1

🔥 В центре внимания

Ричард Саттон ставит под сомнение LLM : Ричард Саттон, отец Reinforcement Learning, ставит под сомнение “горькие уроки” больших языковых моделей (LLMs), утверждая, что текущая архитектура LLM не является конечным путем к общему искусственному интеллекту (AGI). Он настаивает на необходимости новой архитектуры для непрерывного обучения на рабочем месте, позволяющей AI-агентам учиться подобно людям и животным, что может привести к устареванию существующих методов LLM. Эта точка зрения вызвала широкую дискуссию в AI-сообществе, побуждая переосмыслить парадигму обучения AI. (Источник: dwarkesh_sp, finbarrtimbers, scaling01, dejavucoder, teortaxesTex, jpt401)

OpenAI делает ставку на AI-инфраструктуру стоимостью в триллионы долларов : OpenAI объявила о сотрудничестве с NVIDIA, Oracle и SoftBank, планируя инвестировать до нескольких триллионов долларов в строительство проекта супер дата-центра под названием “Stargate”. Ожидается, что проекту потребуется 17 гигаватт электроэнергии, что эквивалентно выработке 17 атомных электростанций. Эти беспрецедентные капиталовложения направлены на удовлетворение экспоненциально растущих потребностей AI в инфраструктуре и, как ожидается, принесут годовой доход в 125 миллиардов долларов к 2029 году, что знаменует собой новый этап в гонке вооружений в сфере AI, подчеркивая масштаб вычислительной мощности, а не прорыв в отдельных алгоритмах. (Источник: Reddit r/ArtificialInteligence, cnbc.com, atroyn, jonst0kes, scaling01)

OpenAI расширяет поддержку вызова функций для файлов и изображений : OpenAI обновила свою функцию вызова, теперь поддерживая файлы и изображения в качестве выходных данных вызовов инструментов. Это означает, что модель может напрямую взаимодействовать с визуальными данными и данными файлов, например, вызывая функции “сгенерировать диаграмму” или “загрузить изображение”, и возвращать эти файлы модели для последующей обработки, что значительно расширяет возможности применения модели в сложных задачах. (Источник: OpenAIDevs)

Постфактумный анализ проблем с качеством модели Anthropic Claude : Anthropic опубликовала подробный постфактумный анализ, раскрывающий три сложные и взаимосвязанные инфраструктурные ошибки, которые привели к периодическому снижению качества ответов Claude. Этот отчет выявляет проблемы, с которыми сталкиваются при поддержании надежности крупномасштабных AI-систем, подчеркивая, что даже ведущие AI-компании должны постоянно бороться со стабильностью системы и ухудшением производительности. (Источник: dl_weekly)

🎯 Тенденции

Обновление модели Gemini Flash повышает эффективность и надежность : Разработчики Google AI объявили об обновлении моделей Gemini 2.5 Flash и Flash-Lite, сосредоточившись на улучшении использования инструментов, надежности системы и общей эффективности. Новая версия быстро предоставляет пользователям новейшие функции через предварительные модели и поддерживает пропуск обновлений кода с помощью псевдонима -latest. Пользователи сообщают, что обновленная модель немного улучшила производительность, при этом стоимость снизилась почти на 30%, что значительно повысило эффективность токенов. (Источник: nin_artificial, scaling01)

Meta выпускает Code World Model (CWM) : Meta AI представила Code World Model (CWM) — модель с открытым исходным кодом с 32B параметрами, ориентированную на генерацию кода и рассуждения. CWM обучается путем объединения статического кода, траекторий выполнения и взаимодействий агентов, способна понимать синтаксис и семантику кода, имитировать выполнение Python и поддерживать многоэтапные задачи программной инженерии. Она также обладает способностью обрабатывать длинный контекст (131k токенов) и демонстрирует выдающиеся результаты в бенчмарках кода, таких как SWE-bench Verified и LiveCodeBench. (Источник: TheTuringPost, awnihannun, ImazAngel)

Tencent Hunyuan представляет Hunyuan3D-Part для 3D-генерации на уровне частей : Tencent Hunyuan выпустила Hunyuan3D-Part, модель генерации 3D-форм на уровне частей с открытым исходным кодом. Эта модель, благодаря двум крупным инновациям — P3-SAM (модель сегментации 3D-частей) и X-Part (модель генерации частей), — обеспечивает высокую степень управляемости и высококачественную генерацию 3D-объектов. В процессе обучения она избегает использования 2D SAM и использует масштабный набор данных, содержащий 3,7 миллиона форм, достигая лидирующих результатов в области 3D-генерации. (Источник: ImazAngel)

Модель NVIDIA Jet-Nemotron значительно увеличивает скорость инференса : Исследовательская группа NVIDIA представила Jet-Nemotron, новую модель «гибридной архитектуры», скорость инференса которой в 53 раза выше, чем у существующих ведущих моделей с открытым исходным кодом (таких как Qwen3, Gemma3, Llama3.2), при сохранении сопоставимой точности. Этот прорыв достигнут благодаря фреймворку PortNAS, который снижает затраты на обучение путем замораживания весов MLP и оптимизации механизма внимания. Ключевая инновация JetBlock использует динамическую свертку, что дополнительно повышает точность в задачах математических рассуждений и поиска. (Источник: 量子位 )

OpenLens AI Университета Цинхуа автоматизирует весь процесс медицинских исследований : Исследовательская группа Со Цзиньли из Департамента автоматизации Университета Цинхуа выпустила OpenLens AI — первый полностью автономный AI-фреймворк для исследований, разработанный специально для медицинской информатики. Эта система способна автоматизировать весь цикл исследований, от поиска литературы, экспериментального дизайна, анализа данных, генерации кода до создания готовых к публикации статей, сокращая цикл исследований с нескольких месяцев до нескольких часов. OpenLens AI, благодаря модульному взаимодействию агентов и специализированным механизмам контроля качества в медицине, обеспечивает строгость, прослеживаемость и высокое качество результатов исследований, предвещая вступление медицинских исследований в эпоху «нулевого ручного труда». (Источник: 量子位 )

Alibaba Tongyi Qianwen выпускает нативную полномодальную большую модель Qwen3-Omni : Alibaba Tongyi Qianwen официально выпустила Qwen3-Omni, новое поколение нативных полномодальных больших моделей. Эта модель способна бесшовно обрабатывать различные формы ввода, такие как текст, изображения, аудио и видео, а также генерировать текстовые и естественные речевые выходы одновременно через потоковую передачу в реальном времени, что еще больше расширяет границы применения и интерактивного опыта мультимодального AI. (Источник: 36氪 )

🧰 Инструменты

Unsloth GPT-OSS Reinforcement Learning повышает эффективность инференса : Unsloth AI выпустила обновление Reinforcement Learning для GPT-OSS, значительно повысив скорость инференса и эффективность VRAM. Новая версия обеспечивает 3-кратное увеличение скорости инференса GPT-OSS RL (около 21 токена/сек), скорость инференса BF16 около 30 токенов/сек, снижение использования VRAM на 50% и поддержку в 8 раз большей длины контекста, что позволяет модели GPT-OSS 20B работать с 15 ГБ VRAM. Кроме того, обновление включает стратегии противодействия обману с вознаграждениями и поддерживает Vision RL. (Источник: danielhanchen, Reddit r/LocalLLaMA)

vLLM поддерживает гибридные модели для повышения производительности : Проект vLLM объявил, что его версия v1 официально поддерживает гибридные модели, включая Mamba, Mamba2 и механизмы линейного внимания, обрабатывая их как первоклассных граждан. Это обновление направлено на дальнейшее повышение производительности и эффективности инференса за счет интеграции различных типов архитектур моделей. (Источник: vllm_project)

Технология сжатия CompLLM оптимизирует ответы на длинные контексты : CompLLM — это технология мягкого сжатия, разработанная для LLMs, призванная решить вычислительные проблемы при обработке длинного контекста. Эта технология разделяет контекст на независимые фрагменты для сжатия, обеспечивая линейное масштабирование, способность к обобщению от коротких последовательностей до 100k токенов и повторное использование фрагментов между запросами. При 2-кратной степени сжатия CompLLM может ускорить время генерации первого токена (TTFT) в 4 раза и уменьшить размер KV-кэша на 50%, сохраняя или превосходя производительность несжатого контекста. (Источник: HuggingFace Daily Papers, gabriberton)

Расширение LMCache с открытым исходным кодом повышает эффективность инференса LLM : LMCache — это расширение движка LLM-сервиса с открытым исходным кодом, служащее слоем кэширования для масштабного инференса. Оно интеллектуально управляет KV-кэшем и повторно использует состояния ключей-значений предыдущего текста между GPU, CPU и локальным диском, тем самым снижая затраты RAG (в 4-10 раз), сокращая время генерации первого токена (TTFT) и увеличивая пропускную способность под нагрузкой. NVIDIA уже интегрировала его в свой проект Dynamo Inference. (Источник: TheTuringPost)

Модель Qwen3 Coder повышает возможности локального кодирования : Модель Qwen3 Coder привлекла внимание своей “удивительной стабильностью” в задачах локального кодирования, особенно при использовании в сочетании с такими инструментами, как Cline и LM Studio, что позволяет обеспечить высококачественный опыт кодирования на потребительском оборудовании. Это обеспечивает мощную поддержку разработчикам для LLM-ассистированного кодирования в локальной среде. (Источник: ImazAngel)

Обновления библиотек mlx-lm и oLLM улучшают локальный инференс LLM : Библиотека mlx-lm получила обновление, добавив новые модели, такие как Code World Model от Meta, и улучшив функции пакетного инференса для гибридных SSM и скользящего окна внимания. В то же время oLLM, как легкая библиотека Python, также поддерживает запуск LLM, таких как Qwen3-next-80B, GPT-OSS и Llama3, на потребительском оборудовании, предоставляя более широкий выбор и более высокую эффективность для локального инференса моделей. (Источник: awnihannun, ImazAngel, huggingface)

Replit улучшает AI-агенты и функции автоматизации : Replit усиливает свои возможности по созданию AI-агентов и автоматизации на своей платформе; теперь разработчики могут тестировать и отслеживать запланированные автоматизации в реальном времени прямо на панели управления, что значительно повышает эффективность и удобство разработки. (Источник: amasad)

Пользователи OpenWebUI сообщают о проблемах с потоковой передачей модели GPT-OSS : Пользователи OpenWebUI сообщают о “502: Upstream Error” при потоковой передаче облачной модели GPT-OSS 20B на этой платформе, хотя та же модель нормально работает в CLI и Ollama Web UI. Это указывает на возможные проблемы в интеграции OpenWebUI с конкретными LLM-моделями или в механизме потоковой передачи, что влияет на пользовательский опыт. (Источник: Reddit r/OpenWebUI)

DeepAgent Desktop запускает модельно-независимые кодирующие агенты : DeepAgent Desktop выпущен и утверждает, что его кодирующие агенты превосходят по производительности Claude Code и GPT-5 (Codex). Инструмент предоставляет мощные функции кодирующих агентов как в CLI, так и в редакторе, и умело использует несколько самых современных моделей для решения сложных задач. Это указывает на то, что модельно-независимый подход к интеграции может быть более эффективным в области кодирующих агентов. (Источник: matanSF)

Слухи об AI-нативных браузерах могут изменить рыночный ландшафт : Ходят слухи, что OpenAI и Google скоро выпустят “AI-нативные” браузеры. Этот шаг рассматривается как стратегический ход технологических гигантов в области распространения, сбора данных и бесшовной AI-автоматизации, который может нанести огромный удар по стартапам, предлагающим AI-плагины и расширения для браузеров, предвещая более глубокую интеграцию AI в повседневный пользовательский опыт работы с компьютером. (Источник: dotey)

📚 Обучение

Рекомендуется бесплатная книга по структурам данных Python : Книга “A First Course on Data Structures in Python” Дональда Р. Шихи рекомендуется как отличный бесплатный ресурс для изучения структур данных, алгоритмического мышления, анализа сложности, рекурсии/динамического программирования и методов поиска. Эти навыки являются основополагающими в областях AI и Machine Learning и очень ценны для учащихся, желающих углубиться в эти области. (Источник: TheTuringPost, huggingface)

Запрос на ресурсы для изучения Deep Learning и LLM : Пользователь на Reddit ищет лучшие ресурсы для изучения внутренней архитектуры LLM и Deep Learning, особо упоминая книгу Франсуа Шоллет и Мэттью Уотсона “Deep Learning with Python, Third Edition”. Это отражает потребность AI-сообщества в высококачественном, углубленном образовательном контенте по LLM и Deep Learning. (Источник: Reddit r/deeplearning)

Дорожная карта мастерства AI и краткая история AI : В социальных сетях была опубликована дорожная карта мастерства AI, предлагающая путь обучения и руководство по ключевым навыкам для тех, кто стремится работать в области AI. Также были распространены ресурсы по краткой истории искусственного интеллекта, помогающие людям понять историю развития и важные вехи AI-технологий. (Источник: Ronald_vanLoon, Ronald_vanLoon)

Руководство по началу работы с DSPy и учебные пособия : Руководство по началу работы с DSPy было опубликовано в социальных сетях, охватывая запуск примеров с главной страницы, а также подробные учебные пособия по RAG, математическим рассуждениям и созданию AI-агентов. Кроме того, были предоставлены видеоресурсы, помогающие пользователям концептуально понять проблемы, решаемые DSPy, и методы практического применения. (Источник: lateinteraction)

💼 Бизнес

Applied Compute привлекает 500 миллионов долларов в новом раунде финансирования : Стартап Applied Compute, основанный тремя бывшими исследователями OpenAI и специализирующийся на предоставлении Reinforcement Learning как услуги (RL as a service), по сообщениям, привлекает новый раунд финансирования с оценкой в 500 миллионов долларов, возглавляемый Lux Capital. Это произошло всего через три месяца после предыдущего раунда финансирования, что свидетельствует о высокой оценке рынком модели RLaaS и ее команды. (Источник: steph_palazzolo)

Mistral AI завершает раунд финансирования серии C на 1,7 миллиарда евро, возглавляемый ASML : Европейский AI-единорог Mistral AI завершил раунд финансирования серии C на 1,7 миллиарда евро (около 14,2 миллиарда юаней), при этом оценка компании после инвестиций достигла 11,7 миллиарда евро. ASML возглавила раунд с инвестициями в 1,3 миллиарда евро, получив 11% акций. Этот шаг рассматривается как стратегический альянс между европейскими технологическими гигантами и новыми AI-игроками, направленный на извлечение ценности AI в промышленном производстве, содействие самостоятельному развитию Европы в области AI и сосредоточение на вертикальных AI-приложениях. (Источник: 36氪 )

Hangwei Technology приобретает Shanghai Shuxing Information, открывая эру AIRaaS : Hangwei Technology объявила о приобретении 75% акций Shanghai Shuxing Information, что стало первым случаем, когда компания, котирующаяся на рынке акций класса А, приобрела объект AIRaaS (AI Result as a Service). Это знаменует переход AI-индустрии от простой “продажи вычислительной мощности” к бизнес-модели “продажи результатов”. Shanghai Shuxing Information, благодаря своей технологии больших моделей и способности сочетать ее с отраслевыми сценариями, уже достигла прибыльности в таких областях, как FMCG (товары повседневного спроса), автомобильная и финансовая промышленность, предоставляя Hangwei Technology возможность перейти от продажи оборудования к услугам с высокой добавленной стоимостью. (Источник: 36氪 )

🌟 Сообщество

Снижение производительности ChatGPT 4o вызывает сильное недовольство пользователей : Пользователи ChatGPT Plus повсеместно сообщают о значительном снижении производительности и “личности” модели GPT-4o. Многие пользователи утверждают, что даже при выборе 4o диалоги тайно перенаправляются на GPT-5, особенно при обработке “чувствительных” или “эмоциональных” запросов, что приводит к “холодным, ленивым и лишенным эмоционального интеллекта” ответам. Пользователи чувствуют себя “обманутыми” и преданными, ставят под сомнение прозрачность и честность OpenAI и выражают недовольство платным продуктом. (Источник: Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, menhguin)

AI-агенты: разрыв между хайпом и реальностью : Дискуссии в социальных сетях об AI-агентах выявляют разрыв между их амбициозным видением и текущими реальными возможностями. Бывший CEO Google Эрик Шмидт заявил, что “нет доказательств того, что AI способен к самосовершенствованию”. Разработчики сообщают, что предоставление AI-агентам большей свободы часто приводит к худшим результатам, в то время как по-настоящему успешными агентами являются те, которые строго контролируются и сосредоточены на конкретных задачах в качестве вспомогательных инструментов. Это указывает на то, что зрелость AI-агентов далека от ожидаемой и по-прежнему требует значительного ручного вмешательства и тонкой настройки. (Источник: Reddit r/ArtificialInteligence, dotey)

Глубокий анализ производительности Flash Attention 4 вызывает горячие споры : Статья объемом 4000 слов с глубоким техническим анализом Flash Attention 4 вызвала широкую дискуссию, подробно объясняя, как эта технология достигает 20% повышения производительности. В статье раскрываются ее основные оптимизации, включая более сложный warp-specialized асинхронный конвейер, инновационную кубическую аппроксимацию экспоненциальной функции для “программного softmax”, а также эффективное перемасштабирование для числовой стабильности. Эти технические детали дали AI-сообществу глубокое понимание высокоэффективных механизмов внимания. (Источник: charles_irl, akshat_b, TheZachMueller, jonst0kes, atroyn, swyx, dejavucoder)

Глубокое обсуждение влияния AI на занятость и общество : Сэм Альтман предсказывает, что в будущем 30-40% экономических задач будут выполняться AI, что ускорит профессиональную трансформацию. Он подчеркивает, что “умение учиться”, адаптивность, устойчивость, понимание человеческих потребностей и межличностные взаимодействия являются ключевыми навыками будущего. Обсуждение также затрагивает этические последствия AI для общества, такие как “ментальные наркотики” и опасения по поводу загрязнения Интернета AI-генерированным контентом, а также баланс между заменой рабочих мест и созданием новых возможностей AI. (Источник: dotey, Ronald_vanLoon, TheEthanDing, swyx, cloneofsimo, MillionInt, glennko, Reddit r/ArtificialInteligence)

Этика AI: вызовы доверия, конфиденциальности и контроля : Дискуссии в социальных сетях сосредоточены на этических вызовах AI, включая конфиденциальность данных, рекламное финансирование AI-агентов и проблемы доверия, а также широкое влияние растущей мощи AI на общество. Сообщество призывает AI-системы к большей прозрачности и обсуждает, должен ли AI служить “интеллекту ради интеллекта” или отдавать приоритет благополучию человека. Эти дискуссии отражают глубокую озабоченность общественности направлением развития AI. (Источник: Ronald_vanLoon, pmddomingos, Reddit r/ChatGPT, Reddit r/ArtificialInteligence)

💡 Другое

Обнаружена уязвимость Bluetooth в роботе Unitree G1 : Робот-гуманоид Unitree G1 (возможно, включая Go2, H1, B2) был обнаружен с серьезной уязвимостью Bluetooth. Любое устройство в радиусе действия Bluetooth может использовать жестко закодированный ключ AES для выполнения root-команд, тем самым управляя роботом или внедряя бэкдор. Хотя некоторые уязвимости в старых версиях прошивки, возможно, были исправлены, фундаментальный недостаток безопасности в виде жестко закодированного ключа все еще существует, что вызывает опасения по поводу безопасности AI-роботов. (Источник: Sentdex, teortaxesTex)

Совместное развитие AI и квантовых вычислений : Социальные дискуссии подчеркивают преобразующий потенциал квантовых вычислений в области кибербезопасности и отмечают, что NVIDIA активно инвестирует в квантовые стартапы, разрабатывая такие платформы, как CUDA-Q и DGX Quantum, для поддержки гибридного квантово-классического программирования. Это свидетельствует о растущем осознании в отрасли синергетического эффекта квантовых технологий и AI, а также их перспектив в коммерческом применении. (Источник: Ronald_vanLoon, TheTuringPost)

Modular Manifolds: новая теория оптимизации нейронных сетей : Thinking Machines предложила теорию “Modular Manifolds” — метод совместного проектирования оптимизаторов путем наложения ограничений многообразия на матрицы весов, что позволяет добиться более стабильного и высокопроизводительного обучения нейронных сетей. Эта теория глубоко исследует геометрические свойства оптимизации нейронных сетей, стремясь превзойти традиционные методы оптимизации, такие как Adam, и предлагает новое направление для AI-исследований. (Источник: thinkymachines, dejavucoder, johnschulman2, giffmana, menhguin, jeremyphoward, rown, suchenzang, teortaxesTex, zacharynado)