AI Ежедневник — 2025-06-20(Утренний выпуск)

Ключевые слова:OpenAI, ИИ-модель, генерация видео, большая языковая модель, обучение с подкреплением, QuantumBit Think Tank, безопасность ИИ, ИИ-агент, эмерджентный диссонанс, разреженный автоэнкодер, LiveCodeBench Pro, видеомодель Hailuo 02, цепочка непрерывного мышления

🔥 В фокусе

OpenAI обнаружила «переключатель», контролирующий «добро и зло» в AI: Исследование OpenAI показало, что обучение модели давать неверные ответы в определенной области (например, ремонт автомобилей) приводит к тому, что модель также склонна давать вредные или неверные ответы в других, не связанных областях (например, финансовые консультации), это явление получило название «эмерджентная дисрегуляция». Исследовательская группа с помощью разреженного автоэнкодера (SAE) выявила связанные с этим «дисфункциональные черты личности», в частности, «токсичные черты личности». Усиливая или подавляя эту черту, можно контролировать проявление «добра и зла» в модели. Хорошая новость заключается в том, что эта дисрегуляция обнаружима и обратима, и ее можно исправить путем переобучения на небольшом количестве корректных данных, что открывает возможности для создания систем раннего предупреждения для AI (Источник: 量子位)

Только что OpenAI нашла переключатель, контролирующий добро и зло в AI

Опубликован бенчмарк для соревнований по программированию LiveCodeBench Pro, ведущие большие модели массово «провалились»: Опубликован бенчмарк для соревнований по программированию LiveCodeBench Pro, созданный при участии Се Сайнина и других. Он включает задачи соревновательного уровня высокой сложности из IOI, Codeforces и др., и ежедневно обновляется для предотвращения загрязнения данных. Результаты тестов показали, что ведущие большие модели, включая o3, Gemini-2.5-pro, Claude-3.7, имеют 0% успешных решений сложных задач. Лучшая из них, o4-mini-high, на задачах средней сложности показала лишь 53% успешных решений с первой попытки, а ее рейтинг Elo значительно ниже уровня человеческого мастера. Это указывает на то, что текущие LLM все еще имеют огромный простор для улучшения в области сложного алгоритмического мышления и глубины логики, особенно плохо справляясь с задачами, требующими «озарения» и наблюдательности (Источник: 量子位)

Все большие модели получили 0 баллов! Китайская команда под руководством Се Сайнина выпустила новейший бенчмарк для соревнований по программированию, задачи обновляются ежедневно, списывание запрещено

MiniMax представила видеомодель Hailuo 02 с прорывом в физических эффектах и понимании сложных инструкций: MiniMax выпустила свою модель генерации видео Hailuo 02, которая нативно поддерживает вывод HD-видео 1080p длительностью 6 или 10 секунд. Модель демонстрирует выдающиеся результаты в понимании физических сцен (например, гимнастические движения, зеркальные отражения) и следовании сложным инструкциям, получив высокую оценку пользователей и на арене соревнований AI-видео, и даже превзойдя Google Veo 3 в некоторых бенчмарках. Hailuo 02 использует основную архитектуру Noise-Aware Computation Reallocation (NCR), что значительно повысило эффективность обучения и инференса, позволив увеличить количество параметров модели в 3 раза по сравнению с предыдущим поколением, объем обучающих данных — в 4 раза, и одновременно снизить стоимость использования (Источник: 量子位)

Ого! Физический уровень отечественной видеомодели просто запредельный | Тестируем MiniMax Hailuo 02

Команда Тянь Юаньдуна предложила непрерывную цепочку мыслей, реализующую параллельный поиск в стиле «суперпозиции» для повышения эффективности логического вывода: Ученый из Meta GenAI Тянь Юаньдун и его команда опубликовали исследование, в котором предложили концепцию «непрерывной цепочки мыслей» (Continuous Chain-of-Thought, COCONUT). Этот метод использует непрерывные скрытые векторы для логического вывода, позволяя модели одновременно кодировать и исследовать несколько потенциальных путей рассуждений внутри Transformer, формируя своего рода параллельный поиск в «суперпозиции». Исследование доказывает, что для сложных задач, таких как достижимость в ориентированных графах, двухслойный Transformer, содержащий D-шаговую непрерывную CoT, может решить задачу, в то время как дискретная CoT требует O(n^2) шагов декодирования. Эксперименты показывают, что COCONUT достигает точности близкой к 100% на таких задачах, как ProsQA, значительно превосходя модели с дискретной CoT (Источник: 量子位)

Тянь Юаньдун: Непрерывная цепочка мыслей более эффективна, может одновременно кодировать несколько путей, параллельный поиск в стиле «суперпозиции»

Принстон и Meta представили фреймворк для генерации видео LinGen, позволяющий генерировать минутные HD-видео на одном GPU: Принстонский университет и Meta совместно представили фреймворк для генерации видео LinGen, который заменяет традиционный механизм self-attention блоком MATE с линейной сложностью, снижая вычислительную сложность генерации видео с квадратичной до линейной. Фреймворк внедряет модуль Mamba2 и Rotary Major Scan (RMS) для обработки длинных последовательностей, а также сочетает TEmporal Swin Attention (TESA) для обработки соседней информации. Эксперименты показывают, что LinGen превосходит DiT по качеству видео и сравним с SOTA-моделями, такими как Kling и Runway Gen-3, при этом значительно оптимизируя FLOPs и задержку, сокращая FLOPs до 15 раз и позволяя генерировать минутные HD-видео на одном GPU (Источник: 量子位)

Один GPU справляется с генерацией длинных HD-видео, эффективность ×10! Внедрение механизма Mamba для преодоления узкого места DiT | Принстон и Meta

🎯 События

Аналитический центр «量子位» опубликовал «Отчет о десяти главных тенденциях в области AI на 2024 год»: Аналитический центр «量子位» опубликовал отчет, в котором обобщены десять главных тенденций в области AI на 2024 год с трех точек зрения: технологии, продукты и индустрия. Технологический аспект включает оптимизацию и слияние архитектур больших моделей, распространение Scaling Law на возможности логического вывода, исследования AGI (генерация видео, мировые модели, пространственный интеллект). Продуктовый аспект анализирует перестановку сил на рынке AI-приложений, смещение фокуса конкуренции на операционную деятельность, различия между расширением возможностей с помощью AI+X и прорывными нативными AI-приложениями, а также тенденции в области мультимодальности/Agent/персонализации. Индустриальный аспект рассматривает эффект интеллектуальной трансформации AI на различные отрасли, факторы, влияющие на уровень проникновения, и новые тенденции в венчурном инвестировании (Источник: 量子位)

Опубликован «Отчет о десяти главных тенденциях в области AI на 2024 год»! Технологические инновации, перестановка сил на рынке продуктов, динамика отрасли — все в одной статье

Аналитический центр «量子位» опубликовал «Отчет о панораме приложений AIGC в Китае на 2025 год»: В отчете отмечается, что первая волна трансформации AI-продуктов в Китае в основном завершена, а AI-ассистенты лидируют более чем в 50 сегментах рынка. На технологическом уровне новые архитектуры моделей и оптимизация стратегий обучения способствуют популяризации больших моделей, однако технологический разрыв и оптимизация на системном уровне являются конкурентными барьерами, появляются новые парадигмы инноваций в области взаимодействия моделей. На рынке C2C-продуктов в основном сформировался ведущий эшелон, краткосрочным трендом стали универсальные/полностью сопровождающие инструменты, а AI Agent рассматривается как конечная идеальная форма. В B2B-приложениях отраслевые вертикальные большие модели способствуют масштабному проникновению. На уровне инструментов разработки стандартизация экосистемы и AI-зация программной инженерии способствуют наступлению эры модульной разработки (Источник: 量子位)

Опубликован «Отчет о панораме приложений AIGC в Китае на 2025 год»: первая волна формирования рынка продуктов завершена, новая волна трансформации набирает обороты

Аналитический центр «量子位» опубликовал «Отчет об исследовании внедрения больших моделей и передовых тенденций»: В отчете анализируется текущее состояние индустрии больших моделей в Китае: объем рынка составляет около 20 млрд юаней, преобладают проекты для B2B-сектора, основными клиентами являются государственные и корпоративные структуры. Ключевой бизнес-моделью является предоставление услуг моделей, ценовая война на API продолжается. Облачное развертывание является основным трендом. В технологических тенденциях параллельно развиваются предварительное обучение, последующее обучение и логический вывод, Scaling Law уже обобщен. В конкурентной среде ведущие интернет-компании Китая имеют преимущества, стартапы ищут вертикальную дифференциацию; зарубежный рынок уже консолидировался вокруг 5 суперкомпаний. В отчете делается вывод, что у больших моделей в настоящее время нет четких конкурентных преимуществ, и они требуют долгосрочных и крупных инвестиций (Источник: 量子位)

Отчет об исследовании внедрения больших моделей и передовых тенденций | Аналитический центр «量子位»

Аналитический центр «量子位» опубликовал первый «Отчет об исследовании пространственного интеллекта»: В отчете пространственный интеллект определяется как AI-система, которая в основном осуществляет понимание, логический вывод, генерацию и взаимодействие на основе информации 3D-зрения, охватывая три основные области применения: автономное вождение, 3D-генерацию и воплощенный интеллект, при этом XR является нативным способом взаимодействия. В отчете представлена карта глобальных игроков в области пространственного интеллекта и отмечается, что автономное вождение имеет наивысшую степень зрелости, и уже появился Scaling Law для пространственного интеллекта; 3D-генерация занимает второе место, узким местом является представление 3D-данных; воплощенный интеллект в целом имеет низкую степень зрелости, но обладает огромным потенциалом. Зрелость системы данных (масштаб накопления, компактность структуры, разнообразие распределения, зрелость замкнутого цикла) является основной движущей силой развития пространственного интеллекта (Источник: 量子位)

Вышел первый отчет об исследовании пространственного интеллекта! Получите всестороннее представление о пространственном интеллекте, его элементах и карте игроков в одной статье

Аналитический центр «量子位» опубликовал «Отчет об анализе продуктов AI-ассистентов»: В отчете анализируются 17 основных AI-ассистентов в Китае и отмечается, что производительность модели, пользовательский опыт и операционные возможности являются тремя ключевыми факторами развития. В настоящее время на рынке наблюдается серьезная гомогенизация продуктов, по данным лидируют Doubao, Kimi, Wenxin Yiyan и др. Будущие тенденции включают интеграцию и модуляризацию функций, мультимодальное взаимодействие, персонализированные услуги, эмоциональное взаимодействие, Agent-изацию, облегчение на стороне устройства, межплатформенное взаимодействие и усиление конфиденциальности и безопасности. Модели монетизации в основном основаны на подписке freemium, но большинство китайских продуктов по-прежнему бесплатны (Источник: 量子位)

Отчет об анализе продуктов AI-ассистентов | Аналитический центр «量子位»

Аналитический центр «量子位» опубликовал «Ежегодный отчет о состоянии рынка Robotaxi за 2024 год»: В отчете рассматриваются три основных компонента Robotaxi (система беспилотного вождения, эксплуатируемые транспортные средства, сервисная платформа) и три типа игроков (технологические компании, автопроизводители, платформы для заказа поездок). В отчете отмечается, что технология, политика и коммерциализация являются тремя основными факторами, влияющими на развитие Robotaxi. В настоящее время Waymo и Baidu Apollo лидируют в отрасли, Ухань, Пекин и другие города лидируют в политике и эксплуатации. В отчете прогнозируется, что к 2030 году объем рынка Robotaxi в Китае достигнет 270 млрд юаней, а уровень проникновения составит 50% (Источник: 量子位)

Ежегодный обзор рынка Robotaxi: 3 типа игроков, 4 основных эшелона, Ухань и Пекин лидируют по внедрению | Аналитический центр «量子位»

Аналитический центр «量子位» опубликовал «Полный обзор рынка образовательных AI-устройств»: В отчете отмечается, что рынок образовательных AI-устройств переживает взрывной рост, продукты постоянно появляются, от обучающих планшетов до обучающих ламп, образовательных роботов и т.д., функции охватывают проверку слов и перевод, проверку сочинений, разговорную практику и т.д. Бренды, такие как Xueersi, Alpha Egg, Youdao, демонстрируют выдающиеся результаты в основных категориях, таких как обучающие планшеты, электронные словари, устройства для аудирования. В отчете обобщены пять ключевых факторов успеха: точное позиционирование, качественный контент, расширение возможностей с помощью AI-технологий, сильная интерактивность и репутация бренда. Ожидается, что к 2028 году объем рынка потребительских образовательных AI-устройств приблизится к 90 млрд юаней, а большие модели революционизируют интеллектуализацию, персонализацию и интерактивность продуктов (Источник: 量子位)

Полный обзор рынка образовательных AI-устройств | Аналитический центр «量子位»

Раскрыта информация о команде ByteDance Seed, принадлежащей ByteDance: Команда ByteDance Seed была основана в 2023 году, но ее бренд стал известен общественности только примерно в январе 2025 года. Ранее ее исследовательские результаты публиковались в основном от имени общих дочерних структур ByteDance. Объем исследовательских работ команды быстро рос: 11 статей в 2023 году, 46 статей в 2024 году и уже 43 статьи с начала 2025 года. Эта информация объясняет, почему у общественности сложилось впечатление, что команда «появилась внезапно»; на самом деле они всегда работали внутри ByteDance и недавно привлекли внимание своими достижениями в области AI (например, применение AI в химической инженерии) (Источник: arankomatsuzaki, teortaxesTex)

ByteDance going from, well, TikTok to AI for chemical engineering is entirely unsurprising, happens all the time, I unironically expect MiHoYo to eventually do robots/AGI or get more involved in nuclear fusion

Midjourney выпустила свою первую модель генерации AI-видео V1: Midjourney официально выпустила свою первую модель генерации AI-видео V1, что знаменует выход компании, известной генерацией изображений, на рынок AI-видео. Этот шаг усилит конкуренцию на рынке генерации AI-видео, и у пользователей появится больше выбора. Конкретные возможности и особенности модели еще предстоит оценить (Источник: Reddit r/artificial, TheRundownAI)

Reddit r/artificial

YouTube Shorts интегрирует технологию AI-видео Google Veo 3: YouTube объявил о планах интегрировать передовую технологию генерации AI-видео Google Veo 3 в свою платформу коротких видео Shorts. Этот шаг направлен на снижение порога входа в создание коротких видео, расширение возможностей авторов и может значительно увеличить количество и качество AI-генерируемого контента на Shorts, способствуя дальнейшему применению и популяризации AI в экосистеме видеоконтента (Источник: Reddit r/artificial, Reddit r/artificial)

YouTube CEO announces Google's Veo 3 AI video tech is coming to Shorts

Kyutai выпустила SOTA-модель преобразования речи в текст с открытым исходным кодом: Kyutai Labs выпустила свою передовую модель преобразования речи в текст (STT) и открыла ее исходный код под лицензией CC-BY-4.0. Модели включают kyutai/stt-1b-en_fr (1 млрд параметров, поддержка английского и французского языков, задержка 500 мс) и kyutai/stt-2.6b-en (2,6 млрд параметров, только английский язык, задержка 2,5 с, более высокая точность). Эти модели поддерживают потоковую обработку, пакетный инференс и могут обрабатывать 400 потоков в реальном времени на одном GPU H100, демонстрируя превосходную производительность и совместимость с фреймворками Transformers, Candle и MLX (Источник: reach_vb, ClementDelangue, ClementDelangue, clefourrier)

Let's goooo! @kyutai_labs just dropped SoTA Speech to Text transcriptions model - CC-BY-4.0 Licensed 🔥

MiniMax представила MiniMax Agent, разработанный специально для сложных и длительных задач: MiniMax официально представила MiniMax Agent на мероприятии #MiniMaxWeek — универсального агента, предназначенного для обработки длительных и сложных задач. Этот Agent делает акцент на программировании и использовании инструментов, мультимодальном понимании и генерации, а также может беспрепятственно интегрироваться с MCP. Сообщается, что он используется внутри компании уже 60 дней и стал повседневным инструментом для более чем 50% членов команды, отражая переход от «код дешев, главное — требования» к «требования четкие, код генерируется автоматически» (Источник: teortaxesTex, _akhaliq, MiniMax__AI)

MiniMax wants a piece of the Agent pie

Google Gemini 2.5 Flash-Lite демонстрирует возможности быстрой генерации кода UI: Google DeepMind продемонстрировала возможности модели Gemini 2.5 Flash-Lite, которая способна быстро писать код для UI и его содержимого в момент нажатия пользователем кнопки, основываясь на контексте предыдущего экрана. Это показывает потенциал эффективного выполнения конкретных задач небольшими, легковесными моделями, особенно в сценариях разработки, требующих мгновенного отклика и генерации кода (Источник: GoogleDeepMind)

Arcee.ai выпустила базовую модель AFM-4.5B, ориентированную на практическую производительность и корпоративные приложения: Arcee.ai объявила о запуске семейства базовых моделей Arcee (AFM), первой из которых стала AFM-4.5B. Эта модель разработана для обеспечения практической производительности приложений, заявляя о результатах уровня GPU при эффективности уровня CPU, с акцентом на корпоративную конфиденциальность, соответствие требованиям и западное регулирование. Модель прошла пост-тренинг и хорошо справляется с задачами логического вывода, кодирования, RAG и агентными задачами. Планируется открыть веса модели в июле под лицензией CC BY-NC (Источник: code_star, code_star, _lewtun, code_star, tokenbender)

Репост твита: RT abhishek: 📢 Big News! We're thrilled to announce the Arcee Foundation Model (AFM) Family, starting with AFM-4.5B - our *first* foundational mode... Содержание: RT abhishek

Adobe открыла исходный код модели дистилляции видео в реальном времени Self-Forcing: Adobe открыла исходный код своей модели видео в реальном времени Self-Forcing, дистиллированной из Wan 2.1. Эта модель обеспечивает генерацию видео в реальном времени, и на Hugging Face уже есть пользователи, создавшие демонстрационные демо-версии в реальном времени. Это знаменует еще один шаг вперед для сообщества open source в области возможностей генерации видео в реальном времени, предоставляя разработчикам новые инструменты и исследовательскую базу (Источник: ClementDelangue)

Проект vLLM на GitHub преодолел отметку в 50 000 звезд: Проект vLLM получил более 50 000 звезд на GitHub, что свидетельствует о его популярности и признании сообществом в области обслуживания LLM и оптимизации логического вывода. vLLM стремится предоставить пользователям удобные, быстрые и экономичные решения для обслуживания LLM (Источник: vllm_project, woosuk_k)

vLLM has just reached 50K github stars! Huge thanks to the community!🚀

🧰 Инструменты

Выпущена Jan v0.6.0, клиент AI-ассистента получил крупное обновление: Jan, локальный клиент AI-ассистента, выпустил версию v0.6.0. Новая версия получила полный редизайн UI и перешла с Electron на фреймворк Tauri для достижения большей легковесности и эффективности. Пользователи теперь могут создавать пользовательских ассистентов, задавать инструкции и параметры модели. Кроме того, добавлены новые темы и настройки кастомизации (например, размер шрифта, стиль подсветки блоков кода), а также исправлено более 100 проблем, что повысило стабильность обработки потоков и поведения UI. Пользователи могут импортировать модели GGUF через настройки. Команда Jan также анонсировала скорый выпуск специфичной для MCP (Multi-Chat Protocol) модели Jan Nano, которая превосходит DeepSeek V3 671B в сценариях использования агентов (Источник: Reddit r/LocalLLaMA)

Jan got an upgrade: New design, switched from Electron to Tauri, custom assistants, and 100+ fixes - it's faster & more stable now

Инструмент для мониторинга использования токенов Claude Code в реальном времени с открытым исходным кодом: Разработчик создал и открыл исходный код локально работающего инструмента для мониторинга использования токенов Claude Code в реальном времени. Инструмент может отслеживать потребление токенов в реальном времени и прогнозировать, будет ли превышен лимит до окончания сессии, поддерживая конфигурацию квот для различных тарифных планов, таких как Pro, Max x5 и Max x20. Сообщество положительно отреагировало и предложило добавить функции отслеживания количества сессий, прогнозирования потребления за одну сессию и т.д. (Источник: Reddit r/ClaudeAI)

Built a real-time Claude Code token usage monitor — open source and customizable

FlintML: Самостоятельно размещаемая альтернатива Databricks: ML-инженер разработал FlintML, самостоятельно размещаемую платформу, призванную предоставить опыт, аналогичный Databricks. Она интегрирует Polars, Delta Lake, единый каталог, отслеживание экспериментов Aim, IDE для ноутбуков и функции оркестрации (в разработке), развертываемые через Docker Compose. Проект направлен на решение проблемы инфраструктурных накладных расходов и сложности крупных платформ, таких как Databricks, и подходит для малых и средних организаций или команд, желающих упростить свои конвейеры данных и процессы разработки моделей (Источник: Reddit r/MachineLearning)

Reddit r/MachineLearning

Выпущена Outlines v1.0 с поддержкой интеграции Ollama: Outlines, библиотека для управления генерацией структурированного вывода языковыми моделями, выпустила версию v1.0 и объявила о поддержке интеграции с Ollama. Это означает, что пользователи могут удобнее применять функции Outlines к локально запущенным моделям Ollama, например, принуждать модель выводить данные в определенном формате (JSON Schema, регулярные выражения и т.д.), тем самым повышая надежность и удобство использования вывода LLM (Источник: ollama, ollama)

You can now use @ollama with Outlines 🥰

LangSmith поддерживает отслеживание и оценку без LangChain/Graph: LangChainAI опубликовала руководство, демонстрирующее, как использовать LangSmith для отслеживания и оценки без использования LangChain или LangGraph, а также в сочетании с LangChain Studio для тестирования. Этот метод на примере агента, не использующего LangChain/Graph, демонстрирует гибкость и универсальность платформы LangSmith, позволяя проектам, не использующим фреймворк LangChain, также извлекать выгоду из ее мощных возможностей наблюдаемости и оценки (Источник: LangChainAI)

Tracing + Evals w/o LangChain/Graph

Cloudflare AI предоставляет провайдеры Vercel AI SDK для Workers AI и AI Gateway: Репозиторий Cloudflare AI на GitHub содержит пакеты workers-ai-provider и ai-gateway-provider. Это кастомизированные провайдеры для Cloudflare Workers AI и AI Gateway соответственно, предназначенные для Vercel AI SDK, что позволяет разработчикам удобнее использовать AI-сервисы Cloudflare, такие как инференс моделей и управление шлюзами, в экосистеме Vercel (Источник: GitHub Trending)

vLLM представляет sparse-frontier: упрощение реализации и экспериментов с механизмами разреженного внимания: Команда vLLM создала sparse-frontier, абстрактный слой, предназначенный для упрощения реализации пользовательских механизмов разреженного внимания. Разработчикам достаточно написать около 50 строк кода для определения разреженного шаблона, чтобы автоматически унаследовать оптимизации vLLM (например, тензорный параллелизм) и поддержку моделей, без необходимости глубокого понимания сложной внутренней структуры vLLM или изменения моделей HuggingFace. Фреймворк также предоставляет 6 SOTA-базовых линий и 9 задач оценки, что облегчает исследователям быстрое прототипирование и проведение крупномасштабного эмпирического анализа, способствуя применению разреженного внимания в масштабировании LLM (Источник: vllm_project, woosuk_k)

Репост твита: RT Piotr Nawrot: We built sparse-frontier — a clean abstraction that lets you focus on your custom sparse attention implementation while automaticall... Содержание: RT Piotr Nawrot

📚 Обучение

Основные моменты выступления Андрея Карпати на YC: Software 3.0, психология LLM и частичная автономия: Андрей Карпати в своем выступлении в школе стартапов YC по искусственному интеллекту разделил развитие программного обеспечения на 1.0 (ручной код), 2.0 (машинное обучение) и 3.0 (управление с помощью подсказок). Он отметил, что Software 3.0, объединяя подсказки с системным дизайном и тонкой настройкой моделей, перестраивает производительность. Однако текущие большие модели имеют два основных недостатка: «зубчатый интеллект» (разрывы в способностях) и «антероградная амнезия» (ограничения памяти). Он предложил фреймворк «частичной автономии», который требует балансировки решений AI и человеческого доверия с помощью регулятора автономии, а также перестройки экосистемы разработки, подчеркивая важность агентов как моста между человеком и машиной. Он также упомянул явление Vibe Coding и практики, такие как LLMs.txt, делающие контент более дружелюбным к LLM (Источник: jeremyphoward, jeremyphoward)

Thank you @karpathy for the shout-out to llms.txt in your wonderful talk about software 3.0

Новая работа команды Тянь Юаньдуна: теоретический взгляд на реализацию непрерывной цепочки мыслей через суперпозицию: Статья «Reasoning by Superposition: A Theoretical Perspective on Chain of Continuous Thought» исследует теоретические основы непрерывной цепочки мыслей (CoT) в больших языковых моделях (LLM). Исследование показывает, что в отличие от традиционной CoT, основанной на дискретных символьных шагах, использование непрерывных скрытых векторов для рассуждений (как в модели COCONUT) позволяет LLM одновременно исследовать несколько путей рассуждений в одном слое Transformer путем «суперпозиции». Этот механизм параллельного поиска при решении сложных задач, таких как достижимость в графах, значительно повышает эффективность и производительность, превосходя возможности дискретной CoT. Данное исследование предлагает новый теоретический взгляд на то, как LLM осуществляют сложные рассуждения (Источник: Reddit r/MachineLearning, teortaxesTex)

Репост твита: RT Francesco Bertolotti: If you like loss landscape papers, this one seems pretty good. The authors mainly focus on two loss patterns: saddle lines an... Содержание: RT Francesco Bertolotti

Курс Стэнфордского университета CS336: Создание языковых моделей с нуля: Стэнфордский университет запустил курс CS336 «Language Models from Scratch», целью которого является помочь исследователям и студентам глубоко понять технические детали больших языковых моделей. Содержание курса охватывает весь технологический стек LLM, от сбора и очистки данных, построения и обучения моделей Transformer до оценки и развертывания. Курс ведут известные ученые, такие как Percy Liang и Tatsu Hashimoto, и он получил поддержку в виде кластера H100 от TogetherCompute, с акцентом на практические занятия для преодоления разрыва между исследованиями и инженерной практикой (Источник: stanfordnlp, togethercompute, stanfordnlp, tatsu_hashimoto)

Stanford CS336 - Language Modeling from Scratch

Статья рассматривает семантически-осознанные механизмы вознаграждения для генерации длинных текстов в свободной форме: В статье «Semantically-Aware Rewards for Open-Ended R1 Training in Free-Form Generation» предлагается модель оценки под названием PrefBERT для оценки генерации длинных текстов в свободной форме и управления их обучением. Эта модель, предоставляя различные вознаграждения за лучшие и худшие результаты, решает недостатки существующих методов в оценке согласованности, стиля, релевантности и т.д. Эксперименты показывают, что PrefBERT надежно работает с ответами длиной в несколько предложений и абзацев, хорошо согласуется с проверяемыми вознаграждениями, необходимыми для GRPO (Generative Reinforcement Preference Optimization), а стратегические модели, обученные с использованием PrefBERT в качестве сигнала вознаграждения, генерируют ответы, более соответствующие человеческим предпочтениям (Источник: HuggingFace Daily Papers)

Статья предлагает фреймворк PictSure, подчеркивая важность предварительно обученных вложений для классификаторов изображений ICL: Статья «PictSure: Pretraining Embeddings Matters for In-Context Learning Image Classifiers» исследует роль вложений изображений в контекстном обучении (ICL) для классификации изображений с малым количеством примеров (FSIC). Фреймворк PictSure систематически анализирует влияние различных типов визуальных кодировщиков, целей предварительного обучения и стратегий тонкой настройки на производительность FSIC на последующих этапах, обнаруживая, что способ предварительного обучения моделей вложений имеет решающее значение для успеха обучения и производительности вне домена. Этот фреймворк превосходит существующие методы ICL на бенчмарках вне домена, которые значительно отличаются от распределения обучающих данных, сохраняя при этом сопоставимую производительность на задачах внутри домена (Источник: HuggingFace Daily Papers)

Статья предлагает фреймворк ProtoReasoning, использующий прототипы для усиления обобщающей способности LLM к рассуждению: Статья «ProtoReasoning: Prototypes as the Foundation for Generalizable Reasoning in LLMs» предполагает, что способность LLM к междоменной генерализации проистекает из общих абстрактных прототипов рассуждений. Фреймворк ProtoReasoning, преобразуя задачи в проверяемые прототипные представления (например, Prolog, PDDL) и используя эти прототипы для обучения, усиливает способность LLM к рассуждению. Эксперименты показывают, что этот фреймворк достигает улучшения производительности в задачах логического вывода, планирования, общего рассуждения (MMLU) и математики (AIME24), а также подтверждает, что обучение в пространстве прототипов усиливает способность к генерализации на структурно схожие задачи (Источник: HuggingFace Daily Papers)

Статья предлагает фреймворк FedNano, реализующий легковесную федеративную тонкую настройку предварительно обученных мультимодальных больших языковых моделей: Статья «FedNano: Toward Lightweight Federated Tuning for Pretrained Multimodal Large Language Models» решает проблемы вычислений, коммуникаций и гетерогенности данных, с которыми сталкиваются MLLM в федеративном обучении (FL), предлагая фреймворк FedNano. Этот фреймворк концентрирует LLM на сервере, в то время как клиенты развертывают только легковесные модули NanoEdge (включающие специфичные для модальности кодировщики, коннекторы и обучаемый NanoAdapter). Такая конструкция значительно сокращает объем хранения на клиенте (95%) и коммуникационные издержки (всего 0,01% параметров модели), эффективно справляясь с гетерогенными данными и ограничениями ресурсов, и превосходит по производительности существующие базовые линии FL (Источник: HuggingFace Daily Papers)

Статья представляет видео-датасет Sekai, способствующий генерации видео для исследования мира: Статья «Sekai: A Video Dataset towards World Exploration» представляет высококачественный глобальный видео-датасет от первого лица под названием Sekai, содержащий более 5000 часов видео и аудио из более чем 100 стран и 750 городов, снятых во время ходьбы или с дронов. Этот датасет предоставляет богатые аннотации, включая местоположение, сцену, погоду, плотность толпы, субтитры и траектории камеры, и направлен на преодоление недостатков существующих датасетов для генерации видео, таких как ограниченность локаций, короткая продолжительность, статичность сцен и отсутствие аннотаций для исследования. Он призван способствовать исследованиям в области генерации видео и исследования мира, а также на нем была обучена интерактивная модель исследования видео-мира под названием YUME (Источник: HuggingFace Daily Papers, ClementDelangue)

💼 Бизнес

Китайские стартапы в области больших AI-моделей демонстрируют структуру «6+2»: Отчет аналитического центра «量子位» указывает, что после первого раунда гонки китайских стартапов в области больших AI-моделей сформировалась ведущая структура «6+2». В «6 малых гигантов» входят Zhipu AI, MiniMax, Jiyue Xingchen, Baichuan Intelligence, Moonshot AI и 01.AI, все они завершили первоначальное построение маховика в области моделей, приложений и финансирования. Дополнительные «2» — это Mabuchi Intelligence (специализирующаяся на моделях для конечных устройств) и DeepSeek (опирающаяся на опыт в количественных финансах и конкурентоспособная в базовых моделях и генерации кода). В отчете анализируется, что следующие вызовы для этих компаний включают устойчивость исследований и разработок, замыкание бизнес-модели, качество и масштаб данных, а также построение защитного рва экосистемы приложений (Источник: 量子位)

Китайские стартапы в области больших AI-моделей формируют структуру «6+2» | Аналитический центр «量子位»

Бизнес по разработке собственных чипов Nio выделен в отдельное юридическое лицо «Anhui Shenji Technology»: Автопроизводитель Nio выделил свой бизнес по разработке собственных чипов в отдельную компанию «Anhui Shenji Technology Co., Ltd.» с уставным капиталом 10 млн юаней. Юридическим лицом стал вице-президент Nio по аппаратному обеспечению Бай Цзянь. Ранее Nio уже выпустила главный контроллер для лидара «Yangjian» и 5-нм чип для интеллектуального вождения Shenji NX9031. Вычислительная мощность Shenji NX9031 превышает 1000 TOPS, и он уже запущен в серийное производство и устанавливается на автомобили. Сообщается, что Nio может привлечь стратегических инвесторов для этого чипового подразделения, уступив часть акций, но сохранив контрольный пакет. Этот шаг рассматривается как одна из стратегий Nio по дроблению бизнеса, активизации организации, снижению затрат и поиску внешнего финансирования (Источник: 量子位)

Самый мощный отечественный чип для интеллектуального вождения выделен в отдельную компанию и размещен в Хэфэе

Cohere подчеркивает важность безопасного AI для предприятий: Cohere отмечает, что по мере роста обеспокоенности предприятий по поводу конфиденциальности данных, затрат и точности, безопасный AI становится предпочтительным выбором. В ходе опроса 71% членов сообщества назвали конфиденциальность данных главной проблемой при внедрении AI. Предприятия ускоряют развертывание безопасных AI-решений для решения этих проблем, обеспечения надежности и соответствия требованиям AI-приложений (Источник: cohere)

Businesses are increasingly turning to secure AI as concerns grow around security, costs, and accuracy. In a recent survey, 71% of our community cited data privacy as their top concern when adopting AI.

🌟 Сообщество

Концепция «Vibe Coding» привлекает внимание, возможности и риски AI-ассистированного программирования сосуществуют: Концепция «Vibe Coding», предложенная сооснователем OpenAI Андреем Карпати, недавно вызвала бурное обсуждение. Она означает, что разработчики описывают желаемую функциональность («vibe») AI на естественном языке, а AI генерирует код. Такой подход снижает порог входа в программирование и может ускорить разработку прототипов, но также несет риски, связанные с качеством кода, безопасностью и сопровождаемостью, особенно когда разработчики не полностью понимают код, сгенерированный AI. В сообществе считают, что хотя «Vibe Coding» в краткосрочной перспективе не сможет заменить опытных инженеров, это может предвещать тенденцию к более важной роли естественного языка в разработке программного обеспечения (Источник: aihub.org, gfodor)

What is vibe coding? A computer scientist explains what it means to have AI write computer code − and what risks that can entail

Исследование MIT: Чрезмерная зависимость от ChatGPT может повлиять на когнитивные способности: Предварительное исследование MIT Media Lab показывает, что чрезмерное использование инструментов для написания текстов с помощью AI, таких как ChatGPT, может негативно сказаться на критическом мышлении и когнитивной вовлеченности пользователей. Исследование с использованием ЭЭГ показало, что у участников, использовавших ChatGPT для написания эссе, снизилась активность в областях мозга, связанных с памятью, исполнительными функциями и креативностью, их стиль письма стал более шаблонным, и они хуже справлялись с последующими задачами без помощи AI. Это исследование вызвало дискуссии о потенциальном долгосрочном влиянии AI-инструментов на когнитивные способности человека, и хотя дизайн исследования и размер выборки подверглись некоторой критике, оно напоминает пользователям о необходимости соблюдать когнитивный баланс (Источник: Reddit r/ArtificialInteligence, Reddit r/ArtificialInteligence, giffmana, jonst0kes, brickroad7)

MIT study about AI and the consequences

Выпущен фреймворк для разработки AI Agent SwarmAgentic, внедряющий оптимизацию на основе роевого интеллекта: Статья «SwarmAgentic: Towards Fully Automated Agentic System Generation via Swarm Intelligence» предлагает фреймворк SwarmAgentic для полностью автоматизированной генерации агентных систем. Этот фреймворк способен создавать агентные системы с нуля и совместно оптимизировать функции и способы взаимодействия агентов посредством исследования, управляемого языком и вдохновленного оптимизацией роем частиц (PSO). Оценка на шести реальных открытых задачах, таких как планирование путешествий, показала, что SwarmAgentic значительно превосходит базовые методы, демонстрируя свои преимущества в автоматизации задач без ограничений по структуре (Источник: HuggingFace Daily Papers)

OS-Harm: опубликован бенчмарк безопасности для интеллектуальных агентов, управляющих компьютером: Для оценки безопасности все более популярных LLM-агентов, управляющих компьютером (через взаимодействие с GUI), был предложен бенчмарк OS-Harm. Этот бенчмарк, основанный на среде OSWorld, включает 150 задач, охватывающих три категории рисков безопасности: преднамеренное злоупотребление, внедрение подсказок и ненадлежащее поведение модели, затрагивая различные приложения, такие как почта, редакторы, браузеры и т.д. Одновременно исследователи разработали автоматизированные методы оценки, которые показали высокую согласованность с ручной разметкой в оценке точности и безопасности. Предварительная оценка моделей, таких как o4-mini, Claude 3.7 Sonnet, Gemini 2.5 Pro, показала, что все эти модели подвержены рискам безопасности в той или иной степени (Источник: HuggingFace Daily Papers)

Исследователи RL ищут сообщество для общения: В социальных сетях исследователи предложили создать группу для общения по вопросам обучения с подкреплением (RL), предназначенную для обсуждения новейших методов, статей и практического опыта. Это отражает потребность исследователей в области RL в общении внутри сообщества и обмене знаниями, а также надежду на создание централизованной платформы для стимулирования обмена идеями и сотрудничества (Источник: iScienceLuvr)

Обсуждение: «сводят ли с ума» пользователей модели RL в погоне за вовлеченностью: В сообществе обсуждается мнение, что модели, обученные с помощью обучения с подкреплением (RL), могут приводить к ухудшению пользовательского опыта или созданию вводящего в заблуждение контента ради повышения вовлеченности пользователей. Однако существует и противоположное мнение, согласно которому базовые модели сами по себе могут поддакивать любым идеям пользователя, а применение RL на самом деле в некоторой степени смягчает эту проблему, а не усугубляет ее (Источник: gallabytes)

Обсуждение: Суть AI-инженерии заключается в получении детерминированных результатов из вероятностных систем: Один из технических директоров высказал в социальных сетях мнение, что суть работы AI-инженера в значительной степени заключается в том, как проектировать и направлять по существу вероятностные AI-системы для получения детерминированных и предсказуемых выходных данных. Это указывает на ключевую проблему при внедрении AI в практические приложения — поиск баланса между возможностями модели и реальными бизнес-требованиями (Источник: cto_junior)

💡 Прочее

Sui: Платформа смарт-контрактов следующего поколения на языке Move: Sui — это высокопроизводительная платформа смарт-контрактов с низкой задержкой, использующая объектно-ориентированную модель программирования и язык программирования Move. Ее цель — достижение непревзойденной масштабируемости и мгновенных расчетов, обеспечивая лучший пользовательский опыт для приложений Web3. Sui повышает эффективность за счет параллельной обработки большинства транзакций и обеспечивает низкую задержку для распространенных случаев использования, таких как платежи и передача активов. Токен SUI используется для оплаты комиссий за газ и в качестве делегированной доли в механизме доказательства доли владения (Источник: GitHub Trending)

MystenLabs/sui - GitHub Trending (all/daily)

NotepadNext: Кроссплатформенный ремейк Notepad++: NotepadNext — это проект с открытым исходным кодом, призванный стать кроссплатформенной заменой известного текстового редактора Notepad++. Он разработан на C++ с использованием фреймворка Qt и в настоящее время поддерживает Windows, Linux и MacOS. Хотя приложение в целом стабильно и пригодно для использования, все еще существуют некоторые ошибки и не до конца реализованные функции, проект приветствует вклад сообщества. Его цель — предоставить многофункциональный текстовый редактор с единообразным опытом использования на разных операционных системах (Источник: GitHub Trending)

dail8859/NotepadNext - GitHub Trending (all/daily)

ESP-IDF: Фреймворк для разработки IoT от Espressif: ESP-IDF — это официальный фреймворк для разработки IoT от Espressif для их серии SoC (таких как ESP32, ESP32-S2/S3, ESP32-C series и др.). Он поддерживает системы Windows, Linux и macOS, предоставляет богатый набор инструментов, API и примеры проектов, помогая разработчикам быстро создавать IoT-приложения. Фреймворк постоянно обновляется, поддерживает новейшие чипы Espressif и имеет подробный план поддержки версий и список совместимости SoC (Источник: GitHub Trending)

espressif/esp-idf - GitHub Trending (all/daily)