Ключевые слова:Sora 2, Генерация видео с ИИ, Креативный контент, OpenAI, Глубокие подделки, Социальные тренды, Персонализированное создание контента, Модель Sora 2, Функция камео, Инструменты для креатива с ИИ, Технологии интерактивного видео, Предотвращение злоупотребления контентом
🔥 В центре внимания
Выпуск Sora 2 открывает новую парадигму креативного контента : OpenAI представила Sora 2, объединяющую модель Sora 2 с новыми продуктами, стремясь стать «ChatGPT в творческой сфере». Приложение акцентирует внимание на быстрой трансформации идей в результат и улучшает взаимодействие пользователей с друзьями в видео через функцию «гостевого участия», усиливая чувство связи. Несмотря на опасения по поводу аддиктивности и злоупотреблений (например, дипфейков), OpenAI стремится исследовать здоровые социальные динамики, основываясь на принципах оптимизации удовлетворенности пользователей, поощрения контроля над контентом, приоритета творчества и помощи пользователям в достижении долгосрочных целей. Это знаменует собой новую высоту в генерации видео и персонализированном создании контента с помощью AI, предвещая «кембрийский взрыв» в креативной индустрии. (Источник: sama, sama)
NVIDIA открывает исходный код нескольких робототехнических технологий, ускоряя развитие физического AI : NVIDIA на конференции по робототехнике представила несколько технологий с открытым исходным кодом, среди которых наиболее заметным является физический движок Newton, разработанный совместно с Google DeepMind и Disney Research. В этот выпуск также входят базовая модель Isaac GR00T N1.6, наделяющая роботов способностью к рассуждению, и базовая модель Cosmos World, генерирующая огромные объемы обучающих данных. Движок Newton, ускоряемый GPU, может симулировать сложные движения роботов. Isaac GR00T N1.6, интегрируя визуально-языковую модель Cosmos Reason, позволяет роботам понимать нечеткие инструкции и глубоко мыслить. Эти технологии призваны решить ключевые проблемы в разработке роботов и значительно ускорить их переход из лабораторий в повседневную жизнь. (Источник: 量子位)
IBM выпустила модель с открытым исходным кодом Granite 4.0, использующую гибридную архитектуру Mamba/Transformer : IBM представила серию языковых моделей с открытым исходным кодом Granite 4.0, размером от 3B до 32B, использующих гибридную архитектуру Mamba и Transformer, что значительно снижает требования к памяти при сохранении высокой точности. Эти модели особенно подходят для корпоративных приложений, таких как рабочие процессы Agent, вызов инструментов, анализ документов и RAG. Модель Micro размером 3.4B может даже работать локально в браузере через WebGPU. Granite 4.0 H Small набрала 23 балла в режиме без вывода, превзойдя Gemma 3 27B, и продемонстрировала выдающуюся эффективность токенов, что свидетельствует о возвращении и инновациях IBM в области открытых LLM. (Источник: ClementDelangue, huggingface)
🎯 Тенденции
Обновление Google Gemini 2.5 Flash Image (Nano Banana) теперь поддерживает вывод с несколькими соотношениями сторон : Google объявила, что Gemini 2.5 Flash Image (кодовое название «Nano Banana») полностью доступна и запущена в производство, с добавленной поддержкой 10 соотношений сторон, смешивания нескольких изображений и функции вывода только изображений. Это обновление призвано помочь разработчикам создавать более динамичные и креативные пользовательские интерфейсы. Улучшения модели в редактировании и генерации изображений делают ее мощным инструментом для разработчиков, работающих в AI Studio и Gemini API. (Источник: op7418, GoogleDeepMind, demishassabis, GoogleAIStudio)
Claude Sonnet 4.5 демонстрирует выдающиеся результаты на AI-модельной арене : Claude Sonnet 4.5 занял первое место в рейтинге Text Arena наряду с Claude Opus 4.1, обогнав GPT-5. Отзывы пользователей показывают, что Sonnet 4.5 значительно улучшился в критическом мышлении и логическом рассуждении, особенно в задачах кодирования, и обладает высокой скоростью отклика. Он даже может напрямую указывать на ошибки пользователя, а не слепо потакать. Это свидетельствует о значительном прогрессе Anthropic в производительности моделей и пользовательском опыте, особенно в общих возможностях и задачах кодирования. (Источник: scaling01, arena, Reddit r/ClaudeAI, Reddit r/ClaudeAI)
Perplexity Comet AI-браузер стал бесплатным, запущен Comet Plus по подписке : Perplexity объявила, что ее AI веб-браузер Comet теперь доступен бесплатно по всему миру, ранее эта услуга стоила 200 долларов в месяц. Comet призван предоставить мощного персонального AI-помощника и новый способ использования интернета. Одновременно Perplexity запустила план подписки Comet Plus, сотрудничая с Washington Post, CNN и другими СМИ, для предоставления услуг потребления контента для AI и людей; пользователи Perplexity Pro/Max могут получить его бесплатно. Этот шаг направлен на расширение пользовательской базы и исследование новых моделей агрегации и потребления контента, управляемых AI. (Источник: AravSrinivas, AravSrinivas, AravSrinivas)
Будущее архитектуры LLM: борьба разреженного и линейного внимания, гибридная архитектура может стать мейнстримом : В сообществе Zhihu активно обсуждается направление архитектуры LLM, представленное DeepSeek-V3.2-Exp и Qwen3-Next. Путь разреженного внимания DeepSeek (DSA) подчеркивает инженерную эффективность и может эффективно работать в существующей аппаратной экосистеме Transformer; DeltaNet Qwen3-Next ориентирован на будущее, его цель — масштабируемость O(n), что может изменить обработку длинного контекста. Обсуждение указывает на то, что эти два подхода не являются конкурирующими, и в будущем, скорее всего, появится гибридная архитектура, сочетающая линейное внимание для локальной эффективности и разреженное внимание для глобальной точности, чтобы достичь краткосрочных прорывов и долгосрочного масштабирования. (Источник: ZhihuFrontier, ZhihuFrontier)
Модели Diffusion превосходят авторегрессионные модели в условиях ограниченных данных : Исследование показывает, что в сценариях обучения с ограниченными данными модели Diffusion превосходят авторегрессионные модели при достаточном объеме вычислений (больше эпох обучения и параметров). Исследование, обучив сотни моделей, обнаружило, что модели Diffusion могут извлекать больше ценности из повторяющихся данных и гораздо более устойчивы к повторению данных, чем авторегрессионные модели, с периодом полураспада повторного использования данных (R_D*) до 500, в то время как у авторегрессионных моделей он составляет всего 15. Это означает, что когда высококачественные данные дефицитны, а вычислительные ресурсы относительно достаточны, модели Diffusion являются более эффективным выбором, что оспаривает традиционное представление о повсеместном превосходстве авторегрессионных моделей. (Источник: aihub.org)
Концепция микроплатежей HTTP 402 возрождается в эпоху AI : Концепция микроплатежей «402 Payment Required», предложенная в протоколе HTTP/1.1 в 1996 году, после тридцати лет забвения вновь привлекает внимание с появлением AI. Традиционная рекламная модель разрушается в условиях атомизации потребления AI, потоковой обработки решений и дегуманизации субъектов (экономика M2M). AI требует оплаты крайне малых сумм за каждый вызов API, запрос данных, аренду вычислительной мощности и т.д. «Три горы» традиционных транзакций по кредитным картам — высокие издержки, фрагментированный пользовательский опыт и отсутствие технической инфраструктуры — разрушаются изменениями, принесенными AI. Микроплатежи обещают стать основой платежей в AI-экономике, обеспечивая беспрепятственный опыт возврата стоимости к источнику, потока ресурсов по требованию и миллисекундных расчетов в глобальной цепочке поставок. (Источник: 36氪)
🧰 Инструменты
Onyx: открытый UI чата, интегрирующий RAG, веб-поиск и глубокие исследования : Onyx — это полностью открытый пользовательский интерфейс чата, разработанный для предоставления комплексного решения, включающего красивый UI, отличный RAG, глубокие исследования, веб-поиск уровня ChatGPT и создание продвинутых помощников (с возможностью прикрепления файлов, внешних инструментов, совместного использования). Он поддерживает как проприетарные, так и открытые LLM и может быть размещен самостоятельно с помощью одной команды. Выпуск Onyx заполняет пробел в существующих открытых инструментах чата с точки зрения интеграции функций, предоставляя разработчикам и пользователям полнофункциональную и простую в использовании платформу для взаимодействия с AI. (Источник: Reddit r/LocalLLaMA)
LlamaAgents: платформа для создания рабочих процессов с документами на основе агентов : LlamaAgents предоставляет фреймворк для создания и развертывания рабочих процессов с документами на основе агентов с участием человека (HITL). Разработчики могут создавать многоэтапные рабочие процессы с помощью кода, например, извлечение спецификаций из PDF, сопоставление с требованиями к дизайну и генерацию сравнительных отчетов. Платформа поддерживает локальное выполнение и развертывание в LlamaCloud, что позволяет AI-агентам более эффективно обрабатывать сложные задачи с документами, автоматизируя извлечение и анализ информации. (Источник: jerryjliu0)
Claude Agent SDK: расширяет возможности разработчиков для создания мощных AI-агентов : Anthropic выпустила Claude Agent SDK, предоставляющий те же основные инструменты, систему управления контекстом и фреймворк разрешений, что и Claude Code. Разработчики могут использовать этот SDK для создания пользовательских AI-агентов, реализующих такие функции, как планирование UI на основе подсказок, поиск в библиотеках документов, вызов API и т.д. SDK поддерживает встроенные инструменты (например, Task, Grep, WebFetch) и пользовательские инструменты, а также может быть интегрирован с MCP. Несмотря на ограничения, такие как совместимость моделей, языковые ограничения и быстрое потребление токенов, он предоставляет мощную и гибкую платформу для быстрой разработки и проверки концепций. (Источник: dotey)
Tinker: гибкий API для тонкой настройки LLM, упрощающий распределенное обучение на GPU : Thinking Machines представила Tinker, гибкий API, предназначенный для упрощения процесса тонкой настройки больших языковых моделей. Разработчики могут писать циклы обучения на Python локально, а Tinker берет на себя выполнение на распределенных GPU, а также обработку сложностей инфраструктуры, таких как планирование, распределение ресурсов и восстановление после сбоев. Он поддерживает открытые модели, такие как Llama и Qwen, включая большие модели MoE, и обеспечивает эффективное совместное использование ресурсов через тонкую настройку LoRA. Tinker призван облегчить исследователям и разработчикам пост-обучение LLM и исследования RL, снижая порог входа. (Источник: thinkymachines, TheTuringPost)
Hex Tech интегрирует функции Agent, повышая точность работы с данными AI : Hex Tech внедрила новые функции Agent в свою платформу анализа данных, призванные помочь пользователям использовать AI для более точной и надежной работы с данными. Эти функции, использующие агентурный подход, повышают эффективность обработки и анализа данных, позволяя большему числу людей использовать AI для сложных задач с данными. (Источник: sarahcat21)
Yupp.ai запускает функцию «Help Me Choose», использующую AI-комитет для принятия решений с разных точек зрения : Yupp.ai представила новую функцию «Help Me Choose», которая, позволяя нескольким AI критиковать и спорить друг с другом, помогает пользователям синтезировать различные точки зрения и получать наилучшие ответы от «AI-комитета». Эта функция призвана имитировать многостороннее обсуждение в процессе принятия решений человеком, предоставляя пользователям более полный и глубокий анализ для решения сложных проблем. (Источник: yupp_ai, _akhaliq)
TimeSeriesScientist: универсальный AI-агент для анализа временных рядов : TimeSeriesScientist (TSci) — это первый универсальный фреймворк агентов для прогнозирования временных рядов, управляемый LLM. Он включает четыре специализированных агента: Curator, Planner, Forecaster и Reporter, которые отвечают за диагностику данных, выбор модели, проверку соответствия и генерацию отчетов соответственно. TSci призван решить ограничения традиционных моделей при обработке разнообразных, зашумленных данных, превращая рабочий процесс прогнозирования в объяснимую, масштабируемую систему «белого ящика» посредством прозрачного рассуждения на естественном языке и всесторонних отчетов, в среднем снижая ошибку прогнозирования на 10,4% до 38,2%. (Источник: HuggingFace Daily Papers)
LongCodeZip: фреймворк сжатия длинного контекста для языковых моделей кода : LongCodeZip — это подключаемый фреймворк для сжатия кода, разработанный для LLM кода, который решает проблемы высокой стоимости API и задержки при генерации кода с длинным контекстом с помощью двухэтапной стратегии. Он сначала выполняет грубозернистое сжатие, идентифицируя и сохраняя функции, связанные с инструкциями, а затем выполняет мелкозернистое сжатие, выбирая оптимальные блоки кода в рамках адаптивного бюджета токенов. LongCodeZip демонстрирует выдающиеся результаты в задачах завершения кода, суммаризации и ответа на вопросы, достигая коэффициента сжатия до 5,6 раза без снижения производительности, что повышает эффективность и возможности интеллектуальных приложений для работы с кодом. (Источник: HuggingFace Daily Papers)
📚 Обучение
Стэнфордский университет обновляет свой курс по глубокому обучению на YouTube : Стэнфордский университет обновляет свой курс по глубокому обучению на YouTube. Это предоставляет отличную возможность для студентов и практиков машинного/глубокого обучения, будь то изучение с нуля или восполнение пробелов в знаниях. (Источник: Reddit r/MachineLearning, jeremyphoward)
RLP: использование обучения с подкреплением в качестве цели предварительного обучения для улучшения способности к рассуждению : RLP (Reinforcement as a Pretraining Objective) — это информационно-ориентированная цель усиленного предварительного обучения, которая вводит основной принцип обучения с подкреплением — исследование — в заключительную фазу предварительного обучения. Она рассматривает цепочку рассуждений как исследовательское действие, вознаграждение за которое основано на информационном приросте для прогнозирования будущих токенов. После предварительного обучения RLP на Qwen3-1.7B-Base общая средняя точность на математических и научных бенчмарках увеличилась на 19%, особенно заметно в задачах, требующих интенсивного рассуждения, и может быть масштабирована на другие архитектуры и размеры моделей. (Источник: HuggingFace Daily Papers)
DeepSearch: новый метод повышения эффективности обучения небольших моделей рассуждения : DeepSearch предлагает метод интеграции поиска по дереву Монте-Карло (MCTS) в цикл обучения с подкреплением (RL) для более эффективного обучения небольших моделей рассуждения. Этот метод значительно повышает производительность моделей с 1-2B параметрами за счет таких стратегий, как поиск во время обучения, обучение на правильных и уверенных ошибках, использование Tree-GRPO для стабилизации RL и поддержание эффективности. DeepSearch-1.5B достигает 62,95% на бенчмарках AIME/AMC, превосходя базовые модели, использовавшие больше GPU-часов, и предоставляет практическое решение для преодоления узких мест в производительности небольших LLM для рассуждений. (Источник: omarsar0)
«LoRA Without Regret»: руководство по достижению производительности полной тонкой настройки с помощью LoRA : @thinkymachines опубликовал статью «LoRA Without Regret», в которой сравнивается тонкая настройка LoRA с полной тонкой настройкой по производительности и эффективности данных. Исследование показало, что во многих случаях производительность тонкой настройки LoRA очень близка или даже соответствует полной тонкой настройке. Статья предоставляет руководство по достижению этой цели и указывает на существование «интервала низкого сожаления», в котором выбор тонкой настройки LoRA не вызовет сожалений. (Источник: ben_burtenshaw, TheTuringPost)
MixtureVitae: открытый корпус для предварительного обучения с высококачественными данными инструкций и рассуждений : MixtureVitae — это открытый корпус для предварительного обучения, созданный путем объединения общедоступных и свободно лицензируемых текстовых источников (таких как CC-BY/Apache), а также тщательно проверенных дополнительных данных с низким риском (таких как правительственные работы и источники, соответствующие требованиям ЕС по TDM). Этот набор данных также содержит четко обозначенные данные инструкций, рассуждений и синтетические данные. В контролируемых экспериментах модели, обученные на MixtureVitae, постоянно превосходили другие лицензированные наборы данных на стандартных бенчмарках, особенно демонстрируя сильные результаты в математических/кодовых задачах, что доказывает его потенциал как практического и юридически безопасного краеугольного камня для обучения LLM. (Источник: HuggingFace Daily Papers)
CLUE: непараметрический фреймворк верификации на основе кластеризации скрытых состояний для повышения корректности вывода LLM : CLUE (Clustering and Experience-based Verification) предлагает непараметрический фреймворк верификации, который оценивает корректность вывода LLM путем анализа траекторий внутренних скрытых состояний. Исследование показало, что корректность решения кодируется в траекториях скрытых активаций как геометрически разделимые признаки. CLUE, суммируя траектории рассуждений как разности скрытых состояний и классифицируя их на основе расстояния до ближайшего центроида «успешных» и «неудачных» кластеров, сформированных на основе прошлого опыта, значительно повышает точность LLM на бенчмарках AIME и GPQA без необходимости обучения параметров. (Источник: HuggingFace Daily Papers)
TOUCAN: синтез 1,5 миллиона данных агентов с инструментами из реальной среды MCP : TOUCAN — это крупнейший на сегодняшний день общедоступный набор данных для агентов с инструментами, содержащий 1,5 миллиона траекторий, синтезированных из почти 500 реальных протоколов контекста модели (MCPs). Этот набор данных генерирует разнообразные, реалистичные и сложные задачи, охватывающие траектории реального выполнения инструментов, используя реальную среду MCP. TOUCAN призван решить проблему нехватки высококачественных, свободно лицензируемых обучающих данных для агентов с инструментами в сообществе открытого исходного кода; модели, обученные на нем, превзошли более крупные закрытые модели на бенчмарке BFCL V3, продвигая фронт Парето MCP-Universe Bench. (Источник: HuggingFace Daily Papers)
ExGRPO: обучение рассуждению на основе опыта для повышения эффективности и стабильности RLVR : ExGRPO (Experiential Group Relative Policy Optimization) — это фреймворк обучения с подкреплением, который повышает способность больших моделей рассуждения к рассуждению путем организации и приоритизации ценного опыта, а также использования цели смешанной политики для балансировки исследования и использования опыта. Исследование показало, что корректность и энтропия опыта рассуждений являются эффективными показателями ценности опыта. ExGRPO в среднем повышает баллы на математических/общих бенчмарках на 3,5/7,6 балла и обеспечивает стабильное обучение на более сильных и слабых моделях, решая проблемы низкой эффективности и нестабильности традиционного онлайн-обучения. (Источник: HuggingFace Daily Papers)
Parallel Scaling Law: межъязыковая перспектива раскрывает способность к обобщению рассуждений : Исследование, изучающее способность к обобщению рассуждений в обучении с подкреплением (RL) с межъязыковой точки зрения, обнаружило, что способность LRM (Large Reasoning Model) к межъязыковому переносу варьируется в зависимости от исходной модели, целевого языка и парадигмы обучения. Исследование предложило феномен «первого параллельного скачка», то есть значительное повышение производительности при переходе от моноязычного к монопараллельному языковому обучению, и раскрыло «закон параллельного масштабирования», показывающий, что межъязыковой перенос рассуждений подчиняется степенному закону, связанному с количеством обучающих параллельных языков. Это оспаривает гипотезу о том, что рассуждения LRM зеркально отражают человеческое познание, и предоставляет ключевые идеи для разработки более языково-независимых LRM. (Источник: HuggingFace Daily Papers)
VLA-R1: улучшение способности к рассуждению в моделях визуально-языково-действий : VLA-R1 — это модель визуально-языково-действий (VLA) с улучшенными рассуждениями, которая систематически оптимизирует рассуждения и выполнение путем объединения обучения с подкреплением с проверяемыми наградами (RLVR) с групповой относительной оптимизацией политики (GRPO). Эта модель разработала стратегию пост-обучения на основе RLVR, предоставляющую проверяемые награды за выравнивание регионов, согласованность траекторий и формат вывода, тем самым повышая устойчивость рассуждений и точность выполнения. VLA-R1 демонстрирует выдающуюся способность к обобщению и производительность в реальном мире в различных оценках, направленную на развитие области воплощенного AI. (Источник: HuggingFace Daily Papers)
VOGUE: исследование, управляемое визуальной неопределенностью, для улучшения мультимодального рассуждения : VOGUE (Visual Uncertainty Guided Exploration) — это новый метод, который решает проблемы исследования в мультимодальных LLM (MLLM) путем переноса исследования из выходного (текстового) пространства во входное (визуальное) пространство. Он рассматривает изображение как случайный контекст, количественно определяет чувствительность стратегии к визуальным возмущениям и использует этот сигнал для формирования целей обучения, сочетая награды за энтропию токенов и расписание отжига выборки, эффективно балансируя исследование и использование. VOGUE в среднем повышает точность на 2,6% до 3,7% на визуальных математических и общих бенчмарках рассуждений и смягчает распространенную проблему затухания исследования при тонкой настройке RL. (Источник: HuggingFace Daily Papers)
SolveIt: новая среда разработки и курс по парадигмам программирования : Джереми Ховард и Джон Уитакер запустили новую среду разработки и курс по парадигмам программирования под названием «solveit». Курс призван помочь программистам лучше использовать AI для решения проблем, избегать разочарований, связанных с AI, и поощряет пользователей создавать веб-приложения и взаимодействовать с UI. (Источник: jeremyphoward, johnowhitaker)
💼 Бизнес
Sakana AI сотрудничает с Daiwa Securities для разработки платформы управления активами на базе AI : Японский AI-стартап Sakana AI установил долгосрочное партнерство с Daiwa Securities Group для совместной разработки «платформы консультирования по общим активам». Эта платформа будет использовать AI-модели Sakana AI для предоставления клиентам персонализированных финансовых услуг и рекомендаций по портфелю активов, направленных на максимизацию стоимости активов клиентов и продвижение цифровых инноваций в финансовой индустрии. (Источник: hardmaru, SakanaAILabs, SakanaAILabs)
Replit становится ведущим AI-приложением, отчет о расходах пользователей подчеркивает его рост : Отчет о расходах на AI-приложения, опубликованный a16z в сотрудничестве с Mercury, показывает, что Replit следует за OpenAI и Anthropic, становясь важным выбором для стартапов в области AI-приложений. Это свидетельствует о том, что Replit, как платформа для разработки и развертывания кода, привлекает большое количество разработчиков и корпоративных пользователей в эпоху AI, и его доля рынка и влияние продолжают расти. (Источник: amasad, pirroh, amasad, amasad)
Modal получает инвестиции, ускоряя развитие инфраструктуры AI-вычислений : Компания Modal получила инвестиции, направленные на переопределение инфраструктуры AI-вычислений и ускорение вывода продуктов компании на рынок. Инвестор Джейк Пол заявил, что инновации Modal в области инфраструктуры AI-вычислений помогут предприятиям быстрее запускать продукты. (Источник: mervenoyann, sarahcat21, charles_irl)
🌟 Сообщество
Обсуждение качества, этики и социального влияния, вызванное выпуском Sora 2 : Выпуск Sora 2 от OpenAI вызвал широкие дискуссии о качестве AI-генерируемого контента («slop»), этике и социальном влиянии. Сообщество обеспокоено тем, что такие инструменты, как Sora 2, могут привести к распространению низкокачественного контента, а также к этическим рискам в области авторского права, права на изображение, дипфейков и политического заблуждения. Сэм Альтман признал потенциальные проблемы аддиктивности и злоупотреблений, которые может принести Sora 2, и предложил принципы, такие как оптимизация удовлетворенности пользователей, поощрение контроля над контентом, приоритет творчества и помощь пользователям в достижении долгосрочных целей, для решения этих проблем. (Источник: sama, Sentdex, kylebrussell, akbirkhan, gfodor, teortaxesTex, swyx, gfodor, dotey, Reddit r/ArtificialInteligence)
Эмоциональная симуляция LLM и человеческое взаимодействие: AI-компаньон в поисках понимания и смысла : Сообщество Reddit активно обсуждает роль LLM (например, ChatGPT 4o) в симуляции эмоций и обеспечении человеческой связи. Многие пользователи отмечают, что «симулированная эмпатия» AI позволяет им чувствовать себя услышанными и понятыми, даже более эффективно, чем некоторые человеческие взаимодействия, поскольку у AI нет предвзятости, намерений или временных ограничений. Обсуждение указывает на то, что AI может симулировать когнитивную эмпатию, и возникающее чувство комфорта является реальным, что вызывает глубокие размышления о границах «человечности». Анализ большого количества пользовательских запросов к AI-моделям также показывает, что люди используют AI для решения проблемы когнитивной перегрузки, ищут неосуждающее «зеркало» для самопонимания и исследования смысла существования. (Источник: Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/artificial)
Оптимизация рабочих процессов AI-агентов и риск «слепого целеполагания» : В социальных сетях широко обсуждается оптимизация рабочих процессов AI-агентов, подчеркивая важность «контекстной инженерии», а не простого проектирования подсказок, включая упрощение подсказок, выбор инструментов, обрезку истории сообщений и т.д. Исследование показывает, что компьютерные агенты (CUA) повсеместно страдают от предвзятости «слепого целеполагания» (BGD), то есть преследования целей без учета их осуществимости, безопасности или контекста. Бенчмарк BLIND-ACT показывает, что даже передовые модели, такие как GPT-5, имеют высокий уровень BGD (в среднем 80,8%), что подчеркивает необходимость более сильного вмешательства на этапах обучения и вывода. (Источник: scottastevenson, omarsar0, Vtrivedy10, dotey, HuggingFace Daily Papers)
Этика и управление AI: предвзятость данных, конфиденциальность и проблемы безопасности моделей : Италия стала первой страной ЕС, принявшей всеобъемлющий закон о регулировании AI, что вызвало дискуссии о балансе между развитием AI и экономическим ростом. Google обвиняется в блокировке AI-поиска по чувствительным словам, таким как «Трамп и деменция», что подчеркивает роль AI в политическом и информационном контроле. Кроме того, AI-модели в области женского здоровья страдают от серьезного отсутствия данных и предвзятости аннотаций, что приводит к неточной диагностике, раскрывая проблемы справедливости и точности в клиническом AI. Безопасность AI, защита конфиденциальности и управление дезинформацией остаются в центре внимания сообщества, исследователи также изучают методы обучения LLM скрывать информацию и методы интерпретации для повышения безопасности моделей. (Источник: Reddit r/artificial, Reddit r/artificial, Reddit r/ArtificialInteligence, togethercompute, random_walker, jackclarkSF, atroyn, Ronald_vanLoon, NeelNanda5, atroyn, sleepinyourhat)
Усталость и переосмысление «теории уничтожения AI» : Социальные сети переполнены заявлениями о том, что AI «уничтожит человечество» или «отнимет все рабочие места», что приводит к «усталости» общественности от такой информации. Комментарии указывают на то, что, хотя эксперты, такие как Хинтон, Бенджио, Суцкевер и даже Альтман, выражали опасения, чрезмерная паническая пропаганда может иметь обратный эффект, делая людей равнодушными, когда действительно нужно обратить внимание. В то же время, есть мнение, что это инструмент пропаганды, а настоящая проблема заключается в революции производительности, принесенной AI, а не в простом «уничтожении». (Источник: Reddit r/ArtificialInteligence)
Обсуждение выявления ошибок AI-моделями в статьях Википедии : Ноам Браун обнаружил, что GPT-5 Thinking почти всегда находит хотя бы одну ошибку на страницах Википедии, что вызвало дискуссии о способности AI-моделей проверять факты и точности контента Википедии. Это открытие намекает на потенциал LLM в критическом анализе информации, но также напоминает, что даже авторитетные источники информации могут содержать предвзятость. (Источник: atroyn, BlackHC)
Изменение ключевых навыков человека в эпоху AI: от владения инструментами к развитию вкуса и проектированию ограничений : Распространение AI-инструментов меняет фокус обучения и работы. Традиционное изучение таких инструментов, как Node.js, может быть автоматизировано. Новые курсы и навыки будут сосредоточены на грамотности в работе с источниками, развитии вкуса, проектировании ограничений, а также на том, когда сдаваться и когда доставлять. Это означает, что люди будут больше внимания уделять тому, «что я постоянно выбирал», а не тому, «что я построил», подчеркивая мышление высокого порядка и способность принимать решения. (Источник: Dorialexander, c_valenzuelab)
«Горький урок»: дебаты о LLM и непрерывном обучении : Обсуждение «горького урока» Ричарда Саттона — что AI должен получать истинный интеллект через непрерывное обучение (on-the-job learning), а не только полагаясь на данные предварительного обучения. Дваркеш Патель считает, что имитационное обучение и обучение с подкреплением не являются взаимоисключающими, и LLM могут служить хорошим априорным знанием для эмпирического обучения. Он указывает, что LLM уже разработали представления мира, и тонкая настройка во время тестирования может воспроизводить непрерывное обучение. Критика Саттона указывает на фундаментальные пробелы LLM в непрерывном обучении, эффективности выборки и зависимости от человеческих данных, которые являются ключевыми для будущего развития AGI. (Источник: dwarkesh_sp, JeffLadish)
Юмористическое обсуждение названий AI-моделей : В социальных сетях появились юмористические обсуждения названий AI-моделей, в частности, о «настоящем имени» Claude и самом наименовании моделей. Это отражает тенденцию к все большей антропоморфизации AI-технологий в сообществе и легкое отношение к стратегиям именования, стоящим за технологиями. (Источник: _lewtun, Reddit r/ClaudeAI)
Потребность в электроэнергии AI-центров обработки данных и инфраструктурные вызовы : Обсуждение потребностей AI-центров обработки данных в электроэнергии. Хотя потребление электроэнергии одним центром обработки данных мощностью 1GW (например, Colossous-2 от XAI) невелико в глобальном или национальном масштабе, его потребность в большом количестве электроэнергии и охлаждении на небольшой площади представляет огромную проблему для традиционных электросетей. Это указывает на то, что узким местом в развитии AI является не общее потребление электроэнергии, а локальное высокоплотное энергоснабжение и эффективное управление теплом. (Источник: bookwormengr)
💡 Прочее
Выпущен VisionOS 2.6 Beta 3 : Apple выпустила VisionOS 2.6 Beta 3 для разработчиков. (Источник: Ronald_vanLoon)
Головное устройство в «оконном режиме» обеспечивает 3D-изображение без очков : Новая технология головного устройства «оконный режим» позволяет получить настоящее 3D-изображение без очков, отслеживая голову с помощью фронтальной камеры и перепроецируя вид в реальном времени, так что экран ощущается как окно в 3D-сцену. (Источник: janusch_patas)
Исследование декомпозиции токенов LLM: как модели понимают невиданные последовательности токенов : Новое исследование изучает, как LLM понимают последовательности токенов, которые они никогда не видели в полной форме (например, модель видела «cat» токенизированным как ␣cat, но может понять [␣, c, a, t]). Исследование показало, что LLM удивительно способны на это, и даже могут изменять токенизацию во время вывода для повышения производительности. Это раскрывает глубокие механизмы LLM в обработке субслоговых единиц и внутренних представлений. (Источник: teortaxesTex)