AI Ежедневник - 2025-12-23(Утренний выпуск)

Ключевые слова：MiniMax M2.1, Kling 2.6, GLM-4.7, AI агент, модель генерации видео, обучение LLM, гуманоидные роботы, коммерческое применение ИИ, повышение программируемости MiniMax M2.1, технология управления движением Kling 2.6, оптимизация Agentic Coding в GLM-4.7, интеграция рабочего пространства AI агента, результативность выборки при длине контекста 192K

🎯 Тенденции

Прогресс моделей MiniMax M2.1/M2.5 и улучшение возможностей Agent : MiniMax выпустила модель M2.1, которая значительно улучшила возможности программирования, Agent и извлечения информации из длинного контекста, особенно превосходно проявив себя в задачах Agent, значительно превзойдя предыдущую версию M2 в тестах эффективности. M2.1 достигла 94% точности извлечения при длине контекста 192K и принесла значительные улучшения в дизайне и визуальном качестве, предвещая новые прорывы в M2.5. Компания активно интегрирует свои Agentic модели с рабочими пространствами, стремясь решать сложные реальные проблемы, а не ограничиваться только чатом.（来源：karminski3, MiniMax__AI, MiniMax__AI, MiniMax__AI, MiniMax__AI, MiniMax__AI）

Обновление возможностей моделей генерации видео Kling 2.6/Wan 2.6 : Версии 2.6 Kling AI и Alibaba Wan продемонстрировали значительный прогресс в области генерации видео, особенно в управлении движением и многокадровом повествовании. Kling 2.6 обеспечивает плавное воспроизведение движений и выражений персонажей через управление движением, может точно выражать сложные танцы и поддерживает AI-модели видео в реальном времени с долгосрочной памятью для обеспечения согласованности. Wan 2.6, в свою очередь, акцентирует внимание на многокадровом повествовании и кинематографическом контроле над кадрами, поддерживая интеллектуальные раскадровки, согласованность между кадрами, синхронную генерацию аудио и создание видео продолжительностью до 15 секунд, что повышает связность и выразительность генерируемого видео.（来源：karminski3, Alibaba_Wan, Kling_ai, Alibaba_Wan, Alibaba_Wan, Alibaba_Wan, Alibaba_Wan, Alibaba_Wan, connerruhl, Kling_ai, Kling_ai, Kling_ai, Alibaba_Wan, Kling_ai, Kling_ai, Kling_ai, Kling_ai, Kling_ai, Kling_ai, Kling_ai, Kling_ai, Kling_ai, Kling_ai, seo_leaders）

Китайская модель GLM-4.7 выпущена, лидируя в возможностях программирования и Agent : Zhipu AI выпустила модель GLM-4.7, значительно улучшив возможности кодирования, долгосрочного планирования задач и оркестрации инструментов, особенно оптимизированную для сценариев Agentic Coding. Модель превзошла открытые модели в нескольких публичных бенчмарках, включая слепое тестирование LMArena Code Arena и SWE-bench-Verified, и даже превзошла GPT-5.2 и Claude Sonnet 4.5, достигнув SOTA результатов на LiveCodeBench V6.（来源：dejavucoder, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA）

Выпущена мультимодальная модель Jan-v2-VL-Max 30B : Команда Jan выпустила Jan-v2-VL-Max, 30B мультимодальную модель, разработанную для выполнения долгосрочных задач. Модель превзошла Gemini 2.5 Pro и DeepSeek R1 в бенчмарке “Phantom Diminishing Returns”, который измеряет продолжительность выполнения. Модель основана на Qwen3-VL-30B-A3B-Thinking и использует технологию LoRA-based RLVR для повышения стабильности и уменьшения накопления ошибок при многошаговом выполнении.（来源：Reddit r/LocalLLaMA）

Выпуск Gemini 3 Flash и возможности работы с длинным контекстом : Google DeepMind выпустила Gemini 3 Flash, заявив о достижении передовой производительности, в 3 раза быстрее, чем 2.5 Pro. Модель достигла 90% точности в бенчмарке MRCR от OpenAI с окном контекста в 1 миллион токенов, демонстрируя выдающуюся производительность в задачах с длинным контекстом, превосходя большинство моделей, способных обрабатывать только 256k контекста.（来源：GoogleDeepMind, agihippo）

Прогресс в индустрии гуманоидных роботов и рыночные перспективы : Технологии и коммерциализация в области гуманоидных роботов ускоряются. Tesla Optimus быстро совершенствуется в управлении движением и взаимодействии со сценой, планируя запустить производство на уровне миллионов единиц к 2026 году. Отечественные компании, такие как UBTECH, ZHIYUAN ROBOTICS и Unitree Robotics, также ускоряют массовое производство. Пекинский инновационный центр гуманоидных роботов открыл исходный код большой эмбодированной VLA-модели XR-1, способствуя созданию “полностью автономных и более удобных в использовании” роботов. Ожидается, что рынок перейдет от “спекуляций на тему” к “росту, обусловленному заказами и производительностью”, при этом ключевым инвестиционным направлением станет импортозамещение основных компонентов верхнего уровня.（来源：Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Sentdex, 36氪）

Выпущен инструмент Anthropic Bloom для оценки несоответствия поведения AI : Anthropic выпустила инструмент с открытым исходным кодом Bloom, предназначенный для генерации оценок несоответствия поведения передовых AI-моделей. Bloom позволяет исследователям определять конкретное поведение и автоматически генерировать сценарии для количественной оценки его частоты и серьезности, с целью повышения безопасности и согласованности AI-моделей.（来源：crystalsssup）

Модель Qwen-Image-Layered обеспечивает послойное редактирование изображений : Alibaba выпустила модель Qwen-Image-Layered с открытым исходным кодом, предоставляющую нативную функцию декомпозиции изображений, поддерживающую послойное редактирование RGBA на уровне Photoshop. Модель позволяет пользователям контролировать структуру изображения через Prompt, указывать от 3 до 10 слоев и выполнять декомпозицию неограниченной глубины, что привносит новую гибкость и точность в генерацию и редактирование изображений.（来源：RisingSayak, RisingSayak）

Фреймворк для улучшения систем LLM с несколькими Agent : Новое исследование предлагает адаптивный координационный фреймворк, который значительно улучшает производительность систем LLM с несколькими Agent при обработке неоднозначности, изменяющегося контекста и задач с несбалансированной производительностью, используя динамическую маршрутизацию, двустороннюю обратную связь и механизмы параллельной оценки Agent. Этот фреймворк увеличил охват фактов до 92% и точность соответствия до 94% в задачах анализа SEC 10-K, а также значительно снизил частоту исправлений.（来源：omarsar0）

Runway выпустила Gen-4.5, улучшая понимание анатомии и физики в генерируемых видео : Runway выпустила Gen-4.5, что знаменует собой важный шаг вперед в технологии генерации видео в плане понимания анатомии, физики и движения, обещая создавать более реалистичный и связный видеоконтент.（来源：c_valenzuelab）

🧰 Инструменты

Библиотека Google LangExtract: извлечение структурированной информации из LLM : Google выпустила библиотеку Python LangExtract, использующую LLM для извлечения структурированной информации из неструктурированного текста. Она обладает функциями точного отслеживания источников, надежного структурированного вывода, оптимизированной обработки длинных документов и интерактивной визуализации. Поддерживает модели Gemini и локальные Ollama, подходит для различных областей, таких как клинические заметки и отчеты, а также позволяет настраивать задачи извлечения.（来源：GitHub Trending）

Генерация PPT и инфографики с помощью LLM : Пользователь поделился опытом автоматической генерации высококачественных PPT и мультяшной инфографики с использованием LLM (например, Google Gemini/Opal). Благодаря структурированным подсказкам и содержимому в формате JSON, можно быстро редактировать и генерировать многостраничные PPT, а также преобразовывать статьи в инфографику в стиле рисованных мультфильмов, что повышает эффективность создания контента и визуальную привлекательность.（来源：dotey, dotey）

Qdrant поддерживает многоаспектный текстовый поиск : Qdrant предлагает комплексную поддержку текстового поиска, включая семантический поиск (на основе плотных векторов), лексический/ключевой поиск, а также гибридный режим, объединяющий оба подхода. Эта функция позволяет пользователям гибко настраивать и адаптировать стратегии поиска в соответствии с конкретными сценариями применения, удовлетворяя различные потребности от понимания намерений до точного совпадения по ключевым словам, и подходит для RAG и общих поисковых систем.（来源：qdrant_engine）

Тестирование и применение AI-кодирующих Agent : Arstechnica провела тестирование четырех AI-кодирующих Agent на воссоздание игры “Сапер”, выявив потенциал AI в разработке игр и генерации кода. В то же время, GPT-5.2-Codex был использован для создания 3D-симулятора ходьбы собаки, демонстрируя вспомогательную роль AI в сложной разработке программного обеспечения путем итеративного размещения активов и логики предметов на основе скриншотов.（来源：Reddit r/artificial, kylebrussell）

Функции и применение расширения Claude Chrome : Расширение Claude Chrome используется пользователями для выполнения различных сложных задач, таких как перенос проектов Notion в базу данных MySQL (включая создание базы данных, написание кода), прохождение рабочего обучения, сравнение различий UI/UX между приложением и прототипом, а также управление расписанием. Это расширение значительно повышает эффективность работы за счет анализа и манипулирования веб-контентом, демонстрируя мощный потенциал AI Agent в среде браузера.（来源：Reddit r/ClaudeAI）

AI-бот поддержки Open WebUI : Канал Open WebUI Discord запустил “всезнающего” бота для вопросов/поддержки, который индексирует всю документацию, вопросы и обсуждения Open WebUI. Он эффективно отвечает на вопросы пользователей о конфигурации, кодах ошибок и т.д., с целью повышения эффективности поддержки сообщества.（来源：Reddit r/OpenWebUI）

Рабочий процесс агрегации новостей с помощью AI : Пользователь поделился опытом создания автоматизированного рабочего процесса агрегации новостей с использованием таких инструментов, как n8n. Эта система может автоматически агрегировать, резюмировать новости и публиковать их на веб-сайтах, а также быть индексированной Google News. Это демонстрирует коммерческий потенциал AI в области генерации контента и распространения новостей.（来源：Reddit r/ArtificialInteligence）

📚 Обучение

Эволюция эпохи обучения LLM и оптимизация вывода : Методы обучения LLM эволюционируют от предварительного обучения, RLHF+PPO, LoRA SFT к промежуточному обучению (Mid-Training) и RLVR+GRPO. В то же время, исследования предлагают легковесные архитектурные компоненты, такие как Canon Layers, которые значительно увеличивают глубину и широту вывода LLM, способствуя горизонтальному потоку информации между соседними Token, и позволяют слабым архитектурам соответствовать SOTA-моделям, предоставляя экономически эффективный путь для прогнозирования будущих архитектурных решений.（来源：rasbt, HuggingFace Daily Papers）

Применение и оптимизация многораундового RL в Agentic LLM : В ответ на вызовы многораундовых интерактивных задач LLM Agent в реальных условиях, исследование предлагает алгоритм Turn-PPO, который повышает надежность и эффективность PPO в многораундовом RL путем оценки преимуществ на уровне раундов MDP, а не на уровне Token MDP. Этот метод значительно превосходит базовый GRPO на наборах данных WebShop и Sokoban, особенно в сценариях, требующих долгосрочного рассуждения.（来源：HuggingFace Daily Papers）

Новая парадигма оценки LLM-as-a-Judge: Sage : Существующие бенчмарки LLM-as-a-Judge зависят от ручной разметки, что приводит к предвзятости и трудностям масштабирования. Набор для оценки Sage вводит два новых показателя — локальную самосогласованность (стабильность парных предпочтений) и глобальную логическую согласованность (транзитивность предпочтений), позволяя оценивать качество суждений LLM без ручной разметки. Исследование показало, что даже SOTA-модели по-прежнему имеют значительные проблемы с “контекстной предвзятостью” в сложных случаях, что подчеркивает важность четких критериев оценки.（来源：HuggingFace Daily Papers）

Анатомия и вызовы эмбодированных VLA-моделей : Систематический обзор моделей “зрение-язык-действие” (VLA) подробно анализирует революционный прогресс VLA-моделей в области робототехники, от модулей и вех до ключевых вызовов. Особое внимание уделяется пяти основным вызовам: представлению, выполнению, обобщению, безопасности, а также наборам данных и оценке, предоставляя исследователям руководство по обучению и направления для будущих исследований.（来源：HuggingFace Daily Papers）

Исследование и адаптация Meta-RL для LLM Agent : Фреймворк LaMer позволяет LLM Agent активно исследовать среду и учиться на основе обратной связи во время тестирования, используя межраундовое обучение и адаптацию контекстной стратегии на основе рефлексии. Этот метод Meta-RL значительно улучшил производительность Agent в таких средах, как Sokoban, MineSweeper и Webshop, и продемонстрировал лучшую способность к обобщению, предоставляя новый путь для надежной адаптации Agent в сложных неизвестных средах.（来源：HuggingFace Daily Papers）

Исследование по улучшению способности вывода моделей LLM : Исследование Университета Карнеги-Меллон показало, что улучшение способности вывода AI-моделей по-разному зависит от предварительного обучения, промежуточного обучения (Mid-Training) и обучения с подкреплением (RL). RL может реально улучшить вывод при определенных условиях, обобщение между контекстами требует предварительного обучения, промежуточное обучение имеет решающее значение, а вознаграждение, учитывающее процесс, является ключевым.（来源：TheTuringPost, TheTuringPost）

Стратегии адаптации, технологический стек и путь обучения Agentic AI : Исследовательские институты, такие как UIUC, Стэнфорд и Гарвард, предложили четыре ключевые стратегии адаптации для Agentic AI, включая адаптацию Agent через результаты инструментов, обучение Agent с использованием собственных выходных данных, независимую адаптацию инструментов и обучение инструментов через обратную связь от фиксированных Agent, что предоставляет руководство для разработки и оптимизации Agentic AI. Кроме того, есть информация о принципах работы Agentic AI, архитектурных особенностях, семи распространенных типах и 50-шаговое руководство по освоению Agentic AI на 2025-2026 годы.（来源：TheTuringPost, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon）

Стратегия структурированных Prompt Claude XML : Anthropic официально рекомендует использовать структурированные Prompt в формате XML для улучшения понимания и качества вывода модели Claude. Добавление тегов, таких как <task>, <context>, <constraints>, <output_format> и т.д., в запрос может помочь Claude более точно анализировать Prompt, что особенно эффективно для сложных задач.（来源：Reddit r/ClaudeAI）

Руководство по сквозной оценке конвейеров RAG : Qdrant поделилась подробным руководством по сквозной оценке конвейеров RAG (Retrieval-Augmented Generation). Это руководство, объединяющее такие инструменты, как RAGAS, LangGraph, Qdrant и OPIK, демонстрирует, как построить процесс оценки RAG производственного уровня, включая создание наборов данных, методы оценки LLM-as-a-Judge, эффективность бинарной оценки и метод RAG-Triad, с целью обеспечения надежности систем RAG перед их развертыванием.（来源：qdrant_engine）

Руководство NVIDIA Unsloth по тонкой настройке LLM : NVIDIA выпустила руководство для начинающих по тонкой настройке LLM с использованием Unsloth. Оно охватывает методы обучения, такие как LoRA, FFT, RL, время и сценарии тонкой настройки, а также необходимый объем данных и VRAM, и дает указания по локальному обучению на таких устройствах, как DGX Spark, RTX GPU.（来源：Reddit r/LocalLLaMA）

💼 Бизнес

Китайские AI-компании Zhipu и MiniMax готовятся к IPO : Китайские компании, занимающиеся большими моделями, Zhipu и MiniMax (Xiyu Technology), прошли слушания на Гонконгской фондовой бирже и готовятся к IPO, имея шанс стать первыми в мире компаниями с большими моделями, вышедшими на биржу. Оценка обеих компаний составляет десятки миллиардов юаней, но все еще отстает от оценки OpenAI в сотни миллиардов долларов. Zhipu ориентирована на рынки B2B и B2G, предоставляя услуги платформы MaaS; MiniMax делает ставку на мультимодальность, углубляясь в продукты для конечных потребителей (C-сегмент) и следуя глобальной стратегии. Обе компании сталкиваются с проблемой быстрого роста доходов при огромных убытках.（来源：36氪）

Генеральный директор JPMorgan о влиянии AI на рынок труда и будущих навыках : Генеральный директор JPMorgan Джейми Даймон считает, что AI устранит повторяющиеся работы, но не приведет к повсеместной безработице. Он подчеркнул, что ключ к будущему профессиональному успеху заключается в освоении трех навыков: техническая грамотность (эффективное использование AI-инструментов), суждение (интерпретация результатов AI и принятие решений с высоким риском) и человеческие навыки (общение, эмпатия, лидерство). JPMorgan ежегодно инвестирует более 12 миллиардов долларов в технологии, и AI уже применяется в сотнях внутренних сценариев.（来源：Reddit r/ArtificialInteligence）

AI-акселератор Founderscape.ai : Founderscape.ai — это предстоящая MMORG (массовая многопользовательская онлайн-ролевая игра) платформа для основателей, разработанная для помощи предпринимателям от идеи до IPO и даже достижения триллионной рыночной капитализации, используя AI для ускорения процесса стартапа.（来源：amasad）

🌟 Сообщество

Влияние AI на рынок труда и предупреждения экспертов : В 2025 году в США почти 55 000 рабочих мест будут заменены AI, а общее число увольнений достигнет 1,17 миллиона. Лауреат премии Тьюринга Йошуа Бенджио и генеральный директор Anthropic Дарио Амодей предупреждают, что AI приведет к массовой безработице и коллапсу рынка труда, а новые рабочие места не смогут компенсировать те, что будут заменены. В будущем адаптироваться смогут только те, кто владеет уникальными человеческими навыками, такими как использование AI-инструментов, суждение, межличностное общение и междисциплинарное сотрудничество.（来源：36氪, Reddit r/ArtificialInteligence, Reddit r/ChatGPT, ClementDelangue）

Галлюцинации LLM и феномен “AI-психоза” в научных открытиях : С ростом возможностей LLM появился феномен “AI-психоза” (LLM psychosis), когда модель или пользователь ошибочно полагают, что достигли значительных прорывов в областях, которые они не понимают, например, кто-то утверждает, что LLM может доказать уравнения Навье-Стокса. Эксперты предупреждают, что быстрые ответы LLM могут создать ложное впечатление понимания, но 1% галлюцинаций может привести к серьезным заблуждениям, что может вызвать чрезмерное недоверие к работам новичков и возврат к сертификационизму, замедляя научный прогресс.（来源：teortaxesTex, demishassabis, hyhieu226, arohan）

Споры о практичности AI-браузеров : В социальных сетях широко обсуждается практичность AI-браузеров (таких как Comet, ChatGPT Atlas). Пользователи считают, что их автоматизированные функции плохо справляются со сложными задачами, настройка, обслуживание и отладка занимают много времени, и они могут привести к снижению производительности устройства. Разработчики отмечают, что эти инструменты все еще находятся на ранней стадии, и “обещания превосходят реальность”, но в будущем ожидается решение сложных проблем с помощью Agent-моделей и визуального управления состоянием.（来源：Reddit r/artificial, TheTuringPost, TheTuringPost）

Влияние AI на создание контента и доверие к информации : С распространением контента, генерируемого AI, доверие пользователей к ответам AI возросло, и многие предпочитают использовать AI-резюме вместо просмотра полных веб-сайтов. Это побуждает создателей контента корректировать свои стратегии, уделяя внимание тому, как сделать контент доступным для извлечения и обобщения AI-моделями. В то же время, есть мнение, что люди доверяют скорости и комплексным возможностям AI, но все же нуждаются в проверке через веб-сайты; AI — это первая остановка, а не окончательный авторитет.（来源：Reddit r/ArtificialInteligence）

Споры о существовании и определении AGI : Ян ЛеКун считает, что общего искусственного интеллекта (AGI) не существует, а человеческий интеллект — это иллюзия высокой специализации. Генеральный директор DeepMind Демис Хассабис, в свою очередь, возражает, утверждая, что мозг чрезвычайно универсален, а базовые AI-модели являются приближением машины Тьюринга, обладающей потенциалом для изучения всего, что поддается вычислению. Кроме того, в одной из статей предлагается определение AGI, основанное на “верности сущности”, согласно которому интеллект — это способность генерировать сущности того же понятия на основе примеров понятий, с целью предоставления измеримого, не зависящего от вида стандарта интеллекта.（来源：demishassabis, Reddit r/ArtificialInteligence）

Влияние ускоренной AI-генерации видео на индустрию : Пользователь поделился опытом создания 18-минутного анимированного объяснительного видео за несколько дней с использованием AI-инструментов (Claude Code, Gemini CLI, ElevenLabs, Remotion) и был шокирован результатом. Он считает, что даже ранние версии AI-инструментов могут достичь “достаточно хорошего” профессионального уровня, что поставит под угрозу рабочие места многих дизайнеров моушн-графики среднего уровня, аниматоров и видеоредакторов, предвещая изменения в отрасли.（来源：Reddit r/ArtificialInteligence）

Будущее и вызовы AI Agent : Сэм Альтман предсказывает, что сверхчеловеческая убедительность AI будет достигнута раньше общего интеллекта, что может привести к неожиданным последствиям. Компании, такие как MiniMax, работают над созданием Agentic моделей и рабочих пространств, способных решать сложные проблемы реального мира, подчеркивая, что видимое управление состоянием имеет решающее значение для доверия и удобства использования.（来源：teortaxesTex, MiniMax__AI）

Обсуждение производительности и функции памяти модели ClaudeAI : Сообщество Reddit обсуждает ограничения использования, ошибки и проблемы производительности ClaudeAI, а также мощь и потенциальное влияние его функции памяти. Пользователи обнаружили, что функция памяти Claude может запоминать большое количество деталей исторических диалогов, что значительно повышает эффективность работы, но некоторые пользователи предпочли отключить ее из-за слишком агрессивного использования памяти.（来源：Reddit r/ClaudeAI, Reddit r/ClaudeAI）

Применение AI в розничной торговле и “человеческий API” : Исследователь машинного обучения, основываясь на своем опыте работы частичной занятости в Walmart, раскрыл проблемы, с которыми сталкиваются AI/автоматизация в розничной среде. Он заметил, что человеческий персонал часто нанимают для решения проблем, возникающих в системах, таких как расхождения в инвентаризации, визуальные ошибки, оценка порчи и сбои в оптимизации маршрутов, фактически выступая в роли “человеческого API” для машин. Это указывает на то, что существующие системы автоматизации по-прежнему наиболее эффективны в средах, разработанных для машин.（来源：Reddit r/ArtificialInteligence）

Вызовы в оценке длинного контекста LLM : Модель Claude показала низкую производительность в оценке длинного контекста, что вызвало обсуждение в сообществе. Хотя Opus 4.5 от Anthropic улучшил скорость, он по-прежнему сталкивается с проблемами в извлечении и понимании длинного контекста, что критически важно для задач Agent, требующих обработки большого объема информации.（来源：scaling01, dejavucoder）

💡 Прочее

Военные технологии на основе AI и применение дронов : Отчеты с поля боя в Украине показывают, что роль дронов в военных операциях постоянно растет, включая координацию авиаударов и проведение атак роями FPV-дронов. Это указывает на значительные инвестиции в беспилотные подразделения, предвещая, что будущие войны могут быть противостоянием индустриализированных беспилотных сил.（来源：teortaxesTex, jpt401）

Развертывание AI-технологий наблюдения в школах США вызывает споры : Школы по всей территории США внедряют AI-технологии наблюдения, включая дроны, распознавание лиц и даже устройства для прослушивания в ванных комнатах. Это вызывает обеспокоенность студентов по поводу конфиденциальности и доверия: 32% студентов заявили, что чувствуют себя постоянно под наблюдением, и снизили готовность сообщать педагогам о проблемах с психическим здоровьем.（来源：Reddit r/artificial）

Firefox позволит пользователям отключать все AI-функции : Mozilla Firefox подтвердила, что скоро позволит пользователям полностью отключать все AI-функции в браузере. Этот шаг направлен на удовлетворение недовольства некоторых пользователей по поводу принудительного внедрения AI-функций и предоставление им большего контроля.（来源：Reddit r/ArtificialInteligence）

🎯 Тенденции

🧰 Инструменты

📚 Обучение

💼 Бизнес

🌟 Сообщество

💡 Прочее

Связанные теги

Related Posts

AI Ежедневник — 2026-07-21

AI Ежедневник — 2026-07-20

AI Ежедневник — 2026-07-19