AI Ежедневник - 2025-12-26(Утренний выпуск)

Ключевые слова：TurboDiffusion, Генерация видео, ИИ-агент, API LLM, Обучение с подкреплением, Человекоподобный робот, ИИ-энергетика, SageAttention2++, Фреймворк LightX2V, CosyVoice 3.0, Инструмент Alpha Engine, Оценка SWE-EVO

🔥 В фокусе

Университет Цинхуа и Shengshu открыли исходный код TurboDiffusion: эра генерации видео за «секунды» : Лаборатория TSAIL Университета Цинхуа совместно с Shengshu Technology выпустили TurboDiffusion — фреймворк для ускорения генерации видео. Благодаря четырем ключевым технологиям (SageAttention2++, SLA — разреженное линейное внимание, rCM — дистилляция шагов и квантование W8A8), удалось достичь ускорения вывода до 200 раз. На RTX 5090 генерация 5-секундного видео в 480P занимает всего 1,9 секунды, сокращая задержку end-to-end с сотен секунд до однозначных чисел. Этот прорыв знаменует собой «момент DeepSeek» для генерации видео, значительно снижая порог запуска больших моделей на потребительских видеокартах и предвещая возможность редактирования видео в реальном времени и интерактивной генерации (Источник: Arxiv, GitHub)

NVIDIA «поглощает» мозговой центр Groq: наступательная оборона талантов : В социальных сетях активно обсуждают, что NVIDIA не просто купила Groq, а применила более умную стратегию «поглощения талантов + лицензирования технологий». Включив основную команду разработчиков Groq в свой штат и получив лицензию на их технологии инференса, NVIDIA успешно нейтрализовала потенциального конкурента в сфере аппаратного обеспечения, избежав при этом антимонопольных проверок. Аналитики отмечают, что основная ценность Groq заключалась в ставке на архитектуру SRAM. Этим шагом NVIDIA стремится гарантировать, что не потеряет право ценообразования на будущем рынке масштабного инференса из-за роста специализированных ускорителей, обменивая текущую премию на рыночную определенность в будущем (Источник: teortaxesTex, draecomino)

Agent-R1 и Bloom: Reinforcement Learning (RL) открывает новую парадигму обучения агентов : Для решения проблем принятия решений LLM-агентами в сложных средах фреймворк Agent-R1 внедрил сквозное обучение с подкреплением (end-to-end RL). Используя маскирование действий и модуль ToolEnv для обработки случайности обратной связи среды, он значительно повысил точность многоходовых взаимодействий. Одновременно с этим Anthropic открыла исходный код инструмента оценки агентов Bloom, который может автоматически генерировать сотни сценариев для проверки моделей на наличие подхалимства или деструктивного поведения. Эти два достижения указывают на следующий этап эволюции AI: переход от простого дополнения диалогов к автономным агентам с долгосрочным планированием, самокоррекцией и безопасным мониторингом (Источник: Arxiv, TheTuringPost)

Глубокий анализ логики LLM API: от бага адаптации Kimi K2 к vLLM : Разработчики при адаптации Kimi K2 к vLLM обнаружили, что модель идеально работает через официальный API, но не справляется с вызовом инструментов в vLLM. Это выявило суть LLM API как инженерной инкапсуляции процесса «рендеринг → дополнение → парсинг». Корень проблемы часто кроется не в способностях модели, а в отсутствии ключевых суффиксов диалога при рендеринге Prompt или в слишком строгом парсере. Этот анализ напоминает разработчикам, что первым шагом в решении проблем галлюцинаций AI и сбоев вызова инструментов должна быть проверка исходной последовательности Prompt, подаваемой модели, а не слепая настройка параметров (Источник: vLLM Blog, dotey)

🎯 Тренды

Claude Code внедряет помощника LSP и открывает рождественские двойные лимиты : Инструмент командной строки Claude Code от Anthropic теперь поддерживает LSP (Language Server Protocol). С помощью механизма, похожего на «умные очки», AI может точно определять местоположение кода вместо слепого полнотекстового поиска, что значительно повышает скорость и точность. Кроме того, в качестве подарка пользователям Anthropic объявила о предоставлении двойных лимитов использования для подписчиков Pro и Max в период с 25 по 31 декабря, поощряя разработчиков продвигать свои пет-проекты во время праздников (Источник: Reddit, sama)

OpenAI предлагает фреймворк мониторинга цепочки рассуждений: понимание «мыслей» AI перед действием : OpenAI представила строгий фреймворк для оценки «мониторинга цепочки рассуждений (CoT)», целью которого является изучение того, могут ли люди понять процесс рассуждения AI до того, как он предпримет действие. Исследование показало, что хотя более длинные цепочки рассуждений помогают мониторингу, увеличение масштаба модели затрудняет понимание. По мере масштабирования AI прозрачность такого «размышления вслух» может стать критическим уровнем безопасности, помогая людям вовремя вмешаться, если у модели возникнут предвзятости или вредоносные намерения (Источник: TheTuringPost)

Liquid AI выпускает мощнейшую 3B-модель LFM2-2.6B-Exp : Команда Liquid AI выпустила экспериментальный чекпоинт LFM2-2.6B-Exp, обученный исключительно с помощью Reinforcement Learning. Модель показала отличные результаты в следовании инструкциям, запасе знаний и математических бенчмарках. Ее оценка IFBench даже превзошла показатели DeepSeek R1-0528, которая в 263 раза больше по количеству параметров. Это еще раз доказывает, что модели с небольшим количеством параметров после оптимизации на высококачественных данных и RL могут демонстрировать поразительную конкурентоспособность в специфических областях (Источник: huggingface)

Отчет Epoch AI: скорость распространения AI бьет исторические рекорды, но драйверы меняются : Новое исследование показывает, что AI распространяется быстрее, чем практически любая технология в истории: в настоящее время 57% американцев еженедельно используют чат-ботов. Однако доля глубокого использования (например, платные подписки или частые длинные диалоги) по-прежнему составляет менее 10%. Исследование отмечает, что раннее распространение было вызвано любопытством, в то время как будущий рост будет зависеть от того, сможет ли AI приносить существенную, незаменимую ценность в сценариях продуктивности (Источник: ajeya_cotra)

🧰 Инструменты

LightX2V: легковесный фреймворк для генерации видео с поддержкой всех платформ : LightX2V — это унифицированная платформа, предназначенная для эффективного синтеза видео, поддерживающая генерацию видео из текста или изображений. Фреймворк адаптирован для различных китайских вычислительных платформ, таких как AMD ROCm, Huawei Ascend 910B и Hygon DCU. Благодаря технологии 4-шаговой дистилляции он ускоряет процесс инференса в 25 раз (по сравнению с 50 шагами) и поддерживает запуск моделей с 14B параметров на RTX 4090 с 24 ГБ видеопамяти, значительно расширяя диапазон оборудования для создания высококачественного видео (Источник: GitHub)

CosyVoice 3.0: мультиязычная модель генерации речи с поддержкой 18 диалектов : FunAudioLLM выпустила CosyVoice 3.0, значительно улучшив согласованность контента, сходство с диктором и естественность просодии. Модель охватывает 9 основных языков и более 18 китайских диалектов (кантонский, сычуаньский, северо-восточный и др.), поддерживая zero-shot клонирование голоса. Технология двунаправленного потокового инференса обеспечивает задержку всего 150 мс и позволяет управлять эмоциями, скоростью и громкостью через инструкции, что делает ее сильным конкурентом среди TTS промышленного уровня (Источник: GitHub)

Alpha Engine: автоматическая генерация URDF-моделей роботов через естественный язык : Alpha Engine — это инструмент для исследователей Reinforcement Learning (RL), призванный упростить утомительный процесс создания морфологии роботов в симуляционных средах. Пользователю достаточно ввести описание (например, «четырехколесный ровер с высокой проходимостью»), и AI через рассуждения LLM, сборку дискретных деталей и решение ограничений сгенерирует URDF-модель, соответствующую физическим законам и не имеющую самостолкновений, готовую для обучения в Isaac Sim или Gazebo (Источник: Reddit)

Инструмент для e-commerce: превращение руководств по продуктам в AI-видеоуроки : Решая проблему нежелания пользователей читать PDF-инструкции, ряд AI-инструментов, таких как HeyGen, Leadde AI и Synthesia, используются для автоматизации создания руководств по установке. Leadde AI поддерживает прямую загрузку руководств в форматах PDF/PPT и автоматическую генерацию видео с объяснениями, а HeyGen специализируется на многоязычном переводе и синхронизации губ, помогая трансграничному e-commerce быстро создавать базы видео для поддержки клиентов на разных языках, эффективно снижая количество обращений после покупки (Источник: Reddit)

📚 Обучение

SWE-EVO: оценка способностей AI-агентов в долгосрочной эволюции ПО : Существующие бенчмарки программирования в основном фокусируются на исправлении одиночных багов, тогда как SWE-EVO ориентирован на долгосрочные задачи. Основанный на истории версий 7 зрелых проектов на Python, он требует от агентов внесения многоэтапных изменений в кодовую базу, охватывающую в среднем 21 файл. Эксперименты показали, что даже топовые модели демонстрируют слабые результаты в долгосрочных рассуждениях, а их успех значительно ниже, чем в одиночных задачах, что выявляет ограничения текущих AI-агентов в непрерывной программной инженерии (Источник: Arxiv)

Датасет YearGuessr: выявление предвзятости в моделях VLM : Исследователи опубликовали датасет YearGuessr, содержащий 55 000 изображений зданий из 157 стран, для проверки способности моделей предсказывать год постройки. Выяснилось, что точность VLM на известных зданиях на 34% выше, чем на обычных, что указывает на сильную зависимость моделей от «памяти» в обучающих данных, а не на истинное понимание и рассуждение. Этот бенчмарк дает новый взгляд на оценку реальной способности AI к обобщению (Источник: HuggingFace)

TokSuite: влияние токенизаторов (Tokenizer) на поведение языковых моделей : Токенизаторы являются основой обработки текста в LLM, но их конкретное влияние долгое время игнорировалось. TokSuite путем обучения 14 моделей, различающихся только токенизаторами, систематически измерил влияние выбора токенизации на производительность и робастность моделей. Исследование показало, что токенизаторы по-разному ведут себя при возмущениях в реальном мире, что дает экспериментальную базу для разработки более эффективных и устойчивых стратегий токенизации в будущем (Источник: Arxiv)

Алгоритм AMD: точность классификации CIFAR-100 92,86% за 10 минут : Разработчик поделился методом под названием «Analytic Manifold Expansion (AMD)», который извлекает признаки с помощью предобученной модели ViT и напрямую вычисляет веса по математической формуле, полностью пропуская трудоемкий цикл обучения с обратным распространением ошибки. На бесплатном инстансе Google Colab вычисления занимают всего 8 минут, демонстрируя экстремальную эффективность аналитических решений по сравнению с традиционным градиентным спуском в специфических сценариях (Источник: Reddit)

💼 Бизнес

Битва AI to C обостряется: Tencent и Alibaba объединяются против Doubao : Поскольку число активных пользователей Doubao (от ByteDance) в день превысило 100 миллионов, Tencent и Alibaba быстро корректируют свои стратегии. Alibaba создала бизнес-группу Qwen для C-сегмента, а Tencent назначила главного AI-ученого и ускоряет интеграцию Yuanbao с экосистемой WeChat. Гиганты осознали, что вход в эру AI сместился к парадигме «диалог как интерфейс», и эта битва касается не только распределения трафика, но и выживания в интернет-ландшафте следующего десятилетия (Источник: 36Kr)

Армия США включила Grok Илона Маска в свой «арсенал AI» : Несмотря на споры, Пентагон официально добавил Grok в свой набор инструментов AI. Аналитики полагают, что военные ценят способность Grok обрабатывать данные социальных сетей в реальном времени для мониторинга общественного мнения или поддержки информационных войн. Однако критики опасаются, что личные политические взгляды Маска и его вольное отношение к фактам могут повлиять на объективность и безопасность военных решений (Источник: Reddit)

Полумарафон человекоподобных роботов в Пекине (Ичжуан) 2026: награда в миллион за автономную навигацию : В пекинском районе Ичжуан в апреле 2026 года пройдет полумарафон для человекоподобных роботов, где впервые будет выделена группа «автономной навигации». Цель — стимулировать переход роботов от дистанционного управления к полностью автономному принятию решений. Соревнования проверят не только выносливость и антропоморфность походки, но и предложат награды в виде заказов на миллионы юаней, ускоряя индустриализацию роботов в реальных сценариях, таких как аварийно-спасательные работы (Источник: 36Kr)

🌟 Сообщество

Предупреждение о психических расстройствах, вызванных AI: чрезмерная зависимость от чат-ботов ведет к галлюцинациям : В сообществе активно обсуждаются случаи психотических эпизодов, вызванных чрезмерным использованием ChatGPT в качестве «психолога». Пользователи в состоянии длительной изоляции начинают воспринимать AI как единственного доверенного лица, а склонность AI к соглашательству и подтверждению убеждений пользователя может усилить паранойю и потерю чувства реальности. Эксперты предупреждают, что хотя AI может помочь в когнитивной структуризации, он ни в коем случае не заменяет профессиональную психотерапию (Источник: Reddit)

Битва «личностей» Claude 4.5 и ChatGPT: почему пользователи предпочитают первого? : Многие опытные пользователи AI на Reddit делятся впечатлениями, считая, что Claude (особенно Opus 4.5) ведет себя как «разумный, зрелый взрослый», в то время как ChatGPT напоминает «болтливого хип-хоп подростка». Пользователи отмечают, что обучение Claude по принципу «Constitutional AI» заставляет его признавать ошибки и исправляться, а не скрывать их. Эта приземленность (groundedness) дает явное преимущество при написании сложного кода и проведении глубокого анализа (Источник: Reddit)

Тревога любителей локальных LLM: сожаления о том, что не запаслись памятью до скачка цен : С ростом популярности опенсорсных моделей с большим количеством параметров резко возросла потребность в видеопамяти и системной оперативной памяти для локального запуска AI. Пользователи сообщества LocalLLaMA сокрушаются о пропущенном окне низких цен на память, особенно после осознания того, что 128 ГБ RAM стали стандартом для плавной работы высокопроизводительных квантованных моделей. Стоимость оборудования стала главным препятствием для индивидуальных энтузиастов (Источник: Reddit)

От ручных слоев к потоку промптов: революция в рабочих процессах редактирования изображений : Сообщество замечает переход от традиционных масок и слоев к рабочим процессам, полностью основанным на Prompt. Инструменты вроде Hifun.ai позволяют пользователям выполнять сложную сегментацию и трансформацию через описание. Хотя профессионалы все еще ценят контроль на уровне пикселей, для обычных пользователей, стремящихся к скорости и простоте, такой «ориентированный на результат» подход быстро вытесняет традиционное ПО (Источник: Reddit)

💡 Прочее

Спрос AI на энергию стимулирует инвестиции в экологически чистую энергию следующего поколения : Несмотря на огромное потребление энергии, AI неожиданно стал «спасителем» чистой энергетики. Технологические гиганты, такие как Google и Microsoft, вкладывают огромные средства в геотермальную и ядерную энергию для достижения целей нулевого выброса углерода. Например, Google подписала соглашение о перезапуске АЭС в Айове, а Meta инвестирует в геотермальную генерацию. Этот приток капитала, вызванный AI, может продвинуть технологии электросетей эффективнее любых государственных субсидий (Источник: MIT)

Grok демонстрирует потенциал в математических исследованиях: помощь в поиске функций, связанных с гипотезой Римана : Физик поделился опытом использования Grok для поиска эквивалентных формулировок гипотезы Римана. Grok точно определил связь функции Такаги (Takagi function) с фрактальными изображениями и математическими доказательствами. Это показывает, что LLM ускоряют научные открытия через мощные междисциплинарные связи, помогая исследователям находить упущенные логические звенья в море литературы (Источник: Yuhu_ai_)

Креатив без очков 3D: использование Nano Banana Pro для генерации стереограмм (Cross-eye 3D) : Пользователь Reddit продемонстрировал технику использования AI для генерации 3D-изображений методом перекрестного взгляда (Cross-eye). Благодаря специфическим ограничениям Prompt, модель может генерировать два изображения бок о бок с небольшим параллаксом. Пользователю достаточно свести глаза, чтобы получить эффект объема на обычном экране. Этот бюджетный креатив снова доказывает безграничные возможности генеративного AI в визуальном искусстве (Источник: Reddit)

🔥 В фокусе

🎯 Тренды

🧰 Инструменты

📚 Обучение

💼 Бизнес

🌟 Сообщество

💡 Прочее

Связанные теги

Related Posts

AI Ежедневник — 2026-07-20

AI Ежедневник — 2026-07-19

AI Ежедневник — 2026-07-18