Ключевые слова:OpenAI GDPval бенчмарк, Claude Opus 4.1, GPT-5, Оценка ИИ, Экономическая производительность ИИ, Оценка экономического влияния моделей ИИ, Claude Opus 4.1 против GPT-5, Тестирование GDPval бенчмарка, Практические возможности ИИ, Сравнение производительности ИИ в различных отраслях

🔥 Фокус

Выпуск бенчмарка OpenAI GDPval: Claude Opus 4.1 превосходит GPT-5 : OpenAI выпустила новый бенчмарк GDPval для оценки производительности моделей ИИ в реальных экономических задачах в 9 отраслях и 44 профессиях. Первоначальные результаты показывают, что Claude Opus 4.1 от Anthropic достигает или превосходит уровень экспертов-людей почти в половине задач, опережая GPT-5. OpenAI признает выдающиеся эстетические показатели Claude, в то время как GPT-5 лидирует по точности. Это знаменует переход в оценке ИИ к измерению реального экономического воздействия и демонстрирует быстрый прогресс в возможностях ИИ. (Источник: OpenAI, menhguin, MillionInt, _sholtodouglas, polynoamial, menhguin, aidan_mclau, sammcallister, menhguin, andy_l_jones, tokenbender, scaling01, scaling01, scaling01, scaling01, scaling01, scaling01, alexwei_, scaling01, scaling01, scaling01, gdb, teortaxesTex, snsf, dilipkay, scaling01, scaling01, jachiam0, jachiam0, sama, ClementDelangue, AymericRoucher, shxf0072, Reddit r/artificial, 36氪, 36氪, 36氪)

OpenAI GDPval基准发布:Claude Opus 4.1表现优于GPT-5

«Спираль обреченности» ИИ и Википедии для уязвимых языков : Модели ИИ обучаются языкам, извлекая текст из Интернета, и Википедия часто является крупнейшим онлайн-источником данных для уязвимых языков. Однако большое количество низкокачественного контента, переведенного ИИ, наводняет эти небольшие версии Википедии, что приводит к распространению ошибок. Это создает порочный круг «мусор на входе, мусор на выходе», что может сделать переводы ИИ этих языков еще менее надежными, тем самым ускоряя упадок уязвимых языков. Гренландская Википедия была предложена к закрытию из-за проблем с «бессмыслицей», вызванных инструментами ИИ. Это подчеркивает потенциальное негативное влияние ИИ на культурное разнообразие и сохранение языков. (Источник: MIT Technology Review, MIT Technology Review)

AI与维基百科对弱势语言的“厄运螺旋”

Ведущий исследователь OpenAI Сун Ян перешел в Meta : Сун Ян, руководитель команды стратегических исследований OpenAI и ключевой участник разработки диффузионных моделей, перешел в команду MSL компании Meta, где будет подчиняться главному научному сотруднику Чжао Шэнцзя. Сун Ян — вундеркинд, поступивший в Университет Цинхуа в 16 лет, и во время работы в OpenAI он прославился своими достижениями, такими как модели согласованности, считаясь одним из «самых мощных умов» в отрасли. Этот переход является еще одним значительным событием в продолжающейся кампании Meta по переманиванию талантов из OpenAI, что вызывает обеспокоенность в отрасли по поводу конкуренции за таланты в области ИИ и направлений исследований. (Источник: 36氪, dotey, jeremyphoward, teortaxesTex)

OpenAI顶尖研究员宋飏跳槽Meta

China Telecom Tianyi AI выпустила высококачественный набор данных объемом более 10 триллионов Tokens : China Telecom Tianyi AI выпустила общий объем данных для универсальных больших моделей в 350 ТБ, что составляет более 10 триллионов tokens, а также специализированные наборы данных, охватывающие 14 ключевых отраслей. Этот набор данных был тщательно аннотирован и оптимизирован, включает мультимодальные отраслевые данные и предназначен для повышения производительности и обобщающей способности моделей ИИ. China Telecom подчеркивает, что высококачественные наборы данных являются основным топливом для развития ИИ, и, опираясь на платформу Starry MaaS, строит замкнутый цикл «данные — модель — сервис», стремясь продвигать повсеместное развитие ИИ и отечественные инновации, успешно обучив большую модель с триллионом параметров. (Источник: 量子位)

中国电信天翼AI发布超10万亿Tokens高质量数据集

Китайская Guoxing Yuhang запустила первую в мире космическую вычислительную группировку для регулярного коммерческого использования : Китайская Guoxing Yuhang успешно запустила и ввела в регулярную коммерческую эксплуатацию космическую вычислительную группировку, что знаменует переход космических вычислений от «возможного» к «доступному». Эта группировка состоит из первой партии спутников «Xingsuan» и предназначена для создания космической вычислительной инфраструктуры из 2800 вычислительных спутников с общей вычислительной мощностью более 100 000 P, поддерживающей работу моделей с миллиардами параметров. Этот успех позволил развернуть модель распознавания дорог на орбитальном спутнике, завершив весь процесс от сбора изображений и вывода модели до обратной передачи результатов, что стало первым случаем работы алгоритмов для транспортной отрасли на спутнике и предоставило новую парадигму для пространственного расширения глобальной инфраструктуры ИИ. (Источник: 量子位)

中国团队重新定义“星际之门”!全球首个太空计算星座已实现常态化商用

Китай ограничивает закупки чипов Nvidia, ускоряя самообеспечение полупроводниками : Китай запретил крупным технологическим компаниям закупать чипы Nvidia, что свидетельствует о достаточном прогрессе Китая в полупроводниковой отрасли, позволяющем отказаться от зависимости от чипов американской разработки. Это подчеркивает уязвимость США в производстве полупроводников на Тайване и повышение способности Китая к самообеспечению. Например, модель DeepSeek-R1-Safe была обучена на 1000 чипах Huawei Ascend. Дженсен Хуан из Nvidia также отмечал, что 50% исследователей ИИ в мире родом из Китая. (Источник: AndrewYNg, Plinz)

中国限制Nvidia芯片采购,加速半导体自给自足


🎯 Тенденции

Запуск ChatGPT Pulse открывает эру активного интеллекта : OpenAI представила предварительную версию ChatGPT Pulse для пользователей Pro. Эта функция превращает ChatGPT из пассивного инструмента для вопросов и ответов в активного интеллектуального помощника. Pulse в фоновом режиме генерирует персонализированные ежедневные сводки в виде карточек на основе истории чатов пользователя, отзывов и подключенных приложений (таких как календарь, Gmail), стремясь предоставить целенаправленную, не вызывающую привыкания информационную ленту. Сэм Альтман назвал это своей «любимой функцией», предвещая, что ChatGPT в будущем будет стремиться к высоко персонализированным и проактивным услугам. (Источник: Teknium1, openai, dejavucoder, natolambert, gdb, jam3scampbell, jam3scampbell, scaling01, sama, sama, scaling01, nickaturley, kevinweil, dotey, raizamrtn, BlackHC, op7418, 36氪, 36氪, 36氪, 36氪, 量子位)

ChatGPT Pulse上线,开启主动智能时代

Google выпустила серию Gemini Robotics 1.5, обеспечивающую «межвидовое» обучение роботов : Google DeepMind выпустила серию моделей Gemini Robotics 1.5 (включая Gemini Robotics 1.5 и Gemini Robotics-ER 1.5), предназначенных для наделения роботов более сильными способностями «думать перед действием» и навыками обучения между различными воплощенными формами. Gemini Robotics-ER 1.5 выступает в качестве «мозга», отвечающего за планирование и принятие решений, а Gemini Robotics 1.5 — в качестве «мозжечка», выполняющего действия; они работают в тандеме. Эта серия моделей демонстрирует выдающуюся производительность в воплощенном рассуждении и межвоплощенном обучении, способная переносить действия, изученные одним роботом, на другого, что, как ожидается, будет способствовать развитию универсальных роботов. (Источник: Teknium1, nin_artificial, dejavucoder, crystalsssup, scaling01, jon_lee0, BlackHC, Google, demishassabis, shaneguML, demishassabis, JeffDean, 36氪, 36氪)

谷歌发布机器人最新「大脑」模型,思考能力SOTA,还能「跨物种」学习

Google выпустила обновления для серии моделей Gemini 2.5 Flash : Google выпустила последние обновления для моделей Gemini 2.5 Flash и Flash-Lite. Эти модели улучшены по интеллектуальности, экономической эффективности и эффективности использования tokens. Flash-Lite демонстрирует повышение индекса интеллекта на 8 пунктов в режиме вывода и на 12 пунктов в режиме без вывода, а также более высокую эффективность использования tokens и более быструю скорость вывода. Эти обновления улучшают производительность моделей в следовании инструкциям, мультимодальном понимании и переводе, а модели Flash более эффективны в использовании инструментов Agent. (Источник: scaling01, osanseviero, Google, osanseviero, andrew_n_carr)

谷歌发布Gemini 2.5 Flash系列模型更新

Скорость развития ИИ поразительна: возможности LLM удваиваются каждые 7 месяцев : Исследование бенчмарка LLM, опубликованное METR, показывает, что возможности LLM удваиваются каждые 7 месяцев, если измерять время, необходимое LLM для выполнения человеческих задач. GPT-5 уже способен стабильно выполнять сложные задачи, на которые человеку потребовались бы часы. При такой тенденции к 2030 году LLM могут справляться с работой, на которую человеку потребовался бы год, например, основание новой компании. Это предвещает разрушительное влияние ИИ на рынок труда в ближайшие годы. (Источник: karminski3)

AI能力提升速度惊人,LLM能力每7个月翻一番

Видеомодели демонстрируют потенциал общего визуального интеллекта : Видеомодели переживают свой «GPT时刻», демонстрируя универсальные возможности от простого восприятия до визуального рассуждения. Модели, такие как Veo3, уже обладают способностью к Zero-shot обучению и могут решать сложные задачи в визуальном стеке. Исследования показывают, что видеомодели являются универсальными «пространственно-временными рассуждателями» и в будущем могут стать ключевым путем к общему визуальному интеллекту, особенно в области робототехники, где они могут решать «самые сложные» проблемы, такие как семантика, планирование и здравый смысл. (Источник: shaneguML, BlackHC, AndrewLampinen, teortaxesTex)

视频模型展现通用视觉智能潜力

AI-агенты переходят от «помощников» к «управляющим», проникая в физический мир : Известный футуролог Бернард Марр предсказывает, что к 2026 году AI-агенты превратятся из пассивных помощников в активных управляющих, способных автономно решать повседневные задачи и координировать сложные проекты. ИИ больше не будет ограничен цифровым миром, а будет глубоко интегрирован в физический мир через автономное вождение, гуманоидных роботов, IoT и другие формы, изменяя способы взаимодействия человека с окружающей средой. Крупные китайские компании, такие как Tencent, Alibaba и Baidu, также активно развивают AI-агентов корпоративного уровня, подчеркивая их способность выполнять и доставлять задачи, а не только вести диалог, стремясь сделать их новой точкой роста бизнеса. (Источник: 36氪, 36氪, omarsar0)

AI智能体从“助手”走向“管家”,深入物理世界

Промышленные роботы переходят от «индивидуальных бойцов» к «суперпроизводственным командам» : Промышленные воплощенные интеллектуальные роботы расширяются от отдельных операций до сквозной координации всего процесса, формируя «суперпроизводственные команды». Например, производственная линия из 8 промышленных воплощенных интеллектуальных роботов Micro-E Intelligence может производить 4 различных продукта, обеспечивая переключение за минуты и настройку за часы. Эти роботы могут мыслить как люди, брать на себя задачи, повышая эффективность производства и гибкость. Технология AI-зрения становится основной движущей силой, продвигая промышленных роботов от «исполнительных инструментов» к «воплощенному интеллекту», предлагая китайское решение для цифровой и интеллектуальной трансформации производства. (Источник: 36氪)

工业机器人从“单兵作战”转向“超级生产团队”

Повышение эффективности Grok-4-fast может быть связано с алгоритмом NVIDIA Jet-Nemotron : Удивительная производительность Grok-4-fast в снижении затрат и повышении эффективности может быть связана с алгоритмом NVIDIA Jet-Nemotron. Этот алгоритм, используя фреймворк PortNAS, начинает с предварительно обученной модели полного внимания и оптимизирует механизм внимания, что приводит к ускорению вывода LLM примерно в 53 раза, сохраняя при этом производительность, сравнимую с ведущими моделями с открытым исходным кодом. Jet-Nemotron-2B превосходит Qwen3-1.7B-Base по точности на MMLU-Pro, работает в 47 раз быстрее и требует меньше памяти, что, как ожидается, значительно снизит стоимость моделей. (Источник: 36氪)

马斯克新模型背后算法来自英伟达???

Модель NVIDIA Cosmos Reason преодолела отметку в 1 миллион загрузок : Модель NVIDIA Cosmos Reason преодолела отметку в 1 миллион загрузок на HuggingFace и занимает лидирующие позиции в рейтинге физического рассуждения. Эта модель призвана научить AI-агентов и роботов мыслить как люди, предоставляется в виде легко развертываемых микросервисов и является важным достижением NVIDIA в развитии технологий AI Agents и робототехники. (Источник: huggingface, ClementDelangue)

NVIDIA Cosmos Reason模型下载量突破100万

Meta выпустила Code World Model (CWM) для продвижения исследований в области генерации кода : Meta FAIR выпустила Code World Model (CWM), исследовательскую модель с 32 миллиардами параметров, предназначенную для изучения того, как мировые модели могут изменить генерацию и рассуждение кода. CWM доступна по исследовательской лицензии, что поощряет сообщество к дальнейшей разработке на ее основе, предвещая новое направление исследований в области генерации кода. (Источник: ylecun)

Google выпустила легкую модель текстовых эмбеддингов EmbeddingGemma : Google представила EmbeddingGemma, легкую открытую модель текстовых эмбеддингов с всего 300 миллионами параметров, которая достигла производительности SOTA в бенчмарке MTEB. Она превосходит модели вдвое большего размера и идеально подходит для быстрых и эффективных AI-приложений на устройствах. (Источник: _akhaliq)

谷歌发布EmbeddingGemma轻量级文本嵌入模型

Alibaba Tongyi Qianwen представила дорожную карту по мультимодальности и масштабному расширению : Alibaba Tongyi Qianwen представила амбициозную дорожную карту, сосредоточенную на унифицированных мультимодальных моделях и экстремальном масштабировании. Цели включают расширение длины контекста с 1M до 100M tokens, увеличение количества параметров до триллионов или даже десятков триллионов, расширение вычислений во время тестирования до 1M и увеличение объема данных до 100 триллионов tokens. Кроме того, будет продвигаться генерация синтетических данных бесконечного масштаба и расширение возможностей Agent, что отражает философию «масштаб — это все». (Источник: menhguin, karminski3)

阿里通义千问公布多模态与大规模扩展路线图

Медицина с поддержкой ИИ переходит в стадию клинического применения : Применение ИИ в медицине превращается из передовых экспериментальных образцов в обычные инструменты. Например, JD Health выпустила «AI Hospital 1.0» и обновила большую медицинскую модель «Jingyi Qianxun 2.0», реализовав замкнутый цикл услуг «медицинский осмотр, диагностика, лечение, лекарства», управляемый ИИ, охватывающий навигацию, консультации, обследования, покупку лекарств и управление здоровьем. Интеллектуальные AI-стетоскопы уже могут помогать в диагностике сердечных заболеваний, а AI-анализ изображений достиг прорывов в таких областях, как легочные узлы и внутримозговые кровоизлияния, с точностью диагностики более 96%. ИИ полностью входит в клиническую практику, повышая эффективность и точность медицинских услуг. (Источник: 36氪, 36氪, 量子位, Ronald_vanLoon, Reddit r/ArtificialInteligence)

AI辅助医疗进入临床应用阶段

Приложение Meta AI запустило функцию создания коротких видеороликов Vibes с помощью ИИ : Приложение Meta AI запустило новую функцию под названием «Vibes», представляющую собой динамическую ленту, посвященную коротким видеороликам, генерируемым ИИ. Этот шаг знаменует дальнейшее расширение Meta в области создания контента с помощью ИИ, направленное на предоставление пользователям нового опыта коротких видеоророликов, управляемых ИИ. (Источник: dejavucoder, _tim_brooks, EigenGender)

Прорыв в области AI-generated genomes : Arc Institute опубликовал три новых открытия, включая первый в мире функциональный AI-generated genome. Этот прорыв использует биологическую ML-модель Evo 2, выпущенную Arc в сотрудничестве с NVIDIA, позволяя ученым проектировать и вносить крупномасштабные изменения в геном человека, исправлять повторения ДНК, вызывающие генетические заболевания, и, как ожидается, ускорить исследования в области генной терапии и биоматериалов. (Источник: dwarkesh_sp, riemannzeta, zachtratar, kevinweil, Reddit r/artificial)

AI-generated genomes实现突破

Apple представила SimpleFold, легкий ИИ для предсказания сворачивания белков : Исследователи Apple разработали SimpleFold, новый тип ИИ, основанный на моделях потокового сопоставления, для предсказания сворачивания белков. Он отказывается от вычислительно дорогих компонентов традиционных диффузионных методов, используя только универсальные блоки Transformer, и может напрямую преобразовывать случайный шум в предсказание структуры белка. SimpleFold-3B демонстрирует отличные результаты в стандартных бенчмарках, достигая 95% производительности ведущих моделей, при этом обеспечивая более высокую эффективность развертывания и вывода, что, как ожидается, снизит вычислительный порог для предсказания структуры белков и ускорит открытие лекарств. (Источник: Reddit r/ArtificialInteligence, HuggingFace Daily Papers)

Apple推出SimpleFold,轻量级AI预测蛋白质折叠

Глубокая интеграция промышленного ИИ и физического ИИ : Alibaba и NVIDIA сотрудничают, чтобы интегрировать полный стек программного обеспечения NVIDIA Physical AI в платформу Alibaba Cloud. Physical AI призван вывести искусственный интеллект из экрана в физический мир, оптимизируя генерируемый ИИ контент с помощью физических законов, чтобы он больше соответствовал реальной логике. Его основные технологии включают мировые модели, движки физического моделирования и контроллеры воплощенного интеллекта, направленные на достижение полного понимания ИИ трехмерного пространства, вычислений физики в реальном времени и конкретных действий. Это сотрудничество, как ожидается, будет способствовать широкому применению ИИ в робототехнике, логистике, автомобилестроении, производстве и других отраслях, превращая ИИ из инструмента обработки информации в интеллектуальную систему, способную понимать и управлять физическим миром. (Источник: 36氪)

工业AI与物理AI的深度融合

Выпущен фреймворк Hunyuan3D-Omni для генерации 3D-активов с помощью ИИ : Hunyuan3D-Omni — это унифицированный фреймворк для контролируемой генерации 3D-активов, основанный на Hunyuan3D 2.1. Он поддерживает не только условия изображения и текста, но также принимает облака точек, воксели, ограничивающие рамки и позы скелета в качестве сигналов условий, обеспечивая точный контроль над геометрией, топологией и позой. Модель использует единую кросс-модальную архитектуру для унификации всех сигналов и обучается с помощью прогрессивной стратегии выборки с учетом сложности, что повышает точность и надежность генерации. (Источник: HuggingFace Daily Papers)

Tencent выпустила Hunyuan Image 3.0, названную самой мощной открытой моделью преобразования текста в изображение : Tencent анонсировала выпуск Hunyuan Image 3.0 28 сентября, заявив, что это самая мощная в мире открытая модель преобразования текста в изображение. Этот анонс вызвал широкий интерес и ожидания в сообществе, особенно в отношении перспектив ее применения в таких инструментах, как ComfyUI. (Источник: ostrisai, Reddit r/LocalLLaMA)

腾讯发布Hunyuan Image 3.0,号称最强开源文生图模型

Llama.cpp добавила поддержку Qwen3 reranker : Llama.cpp интегрировала поддержку Qwen3 reranker. Эта функция выводит оценки сходства для пар запросов и документов с помощью reranking-модели (кросс-кодировщика), что значительно повышает производительность извлечения в таких конвейерах, как RAG. Пользователям необходимо использовать новый файл GGUF для получения правильных результатов. (Источник: Reddit r/LocalLLaMA)![Llama.cpp新增Qwen3 reranker支持](https://external-preview.redd.it/gjtn51bKTEhntL8tK6567mzxkqg8KV6qsi2OUMPMyfI.png?auto=webp&s