AI Ежедневник — 2025-12-19(Вечерний выпуск)

Ключевые слова:Искусственный интеллект Манхэттенский проект, Gemini 3 Flash, GPT-5.2-Codex, Управляемый термоядерный синтез, Научно-исследовательские проекты ИИ, AI Agent, Мультимодальные модели, Открытые модели ИИ, Миссия Genesis Министерства энергетики США, Тестирование кодирования Gemini 3 Flash, Защита кибербезопасности GPT-5.2-Codex, Мультимодальная модель T5Gemma 2, Аудиовизуальное разделение Perception Encoder

🔥 В центре внимания

Запуск «AI Manhattan Project» в США : Министерство энергетики США официально запустило «Миссию Генезис» (Genesis Mission), национальный научно-исследовательский проект в области ИИ, направленный на объединение передовых технологий ИИ с научно-исследовательским потенциалом национальных лабораторий для ускорения научных открытий. В проекте участвуют 24 технологических гиганта, включая Microsoft, Google, NVIDIA, OpenAI, DeepMind, Anthropic, которые будут применять модели ИИ и возможности суперкомпьютеров в таких областях, как управляемый термоядерный синтез, энергетические материалы, моделирование климата. Цель — удвоить научную производительность США к 2030 году, что знаменует собой национальную стратегическую корректировку в технологическом секторе США. (Источник: 36氪, nvidia, AnthropicAI, GoogleDeepMind, OpenAI Newsroom)

Запуск «Манхэттенского проекта» США: 24 гиганта, включая OpenAI и Google, начинают «технологическую битву за Перл-Харбор»

Диалог Хинтона и Джеффа Дина о современном ИИ : Основатель нейронных сетей Geoffrey Hinton и главный научный сотрудник Google Jeff Dean провели беседу на конференции NeurIPS, обсуждая ключевые факторы перехода современного ИИ из лабораторий к миллиардам пользователей. Они считают, что прорыв в ИИ — это не единичное чудо, а результат системного созревания алгоритмов (таких как Transformer), аппаратного обеспечения (таких как GPU, TPU) и инженерных систем (таких как JAX, Pathways). В ходе беседы также были отмечены три основных барьера для масштабирования ИИ: энергоэффективность, память (длинный контекст) и креативность (способность к ассоциациям), подчеркивая важность фундаментальных исследований и постоянных инвестиций. (Источник: 36氪, JeffDean, geoffreyhinton)

Интервью с Сэмом Альтманом: стратегия и финансирование OpenAI : Sam Altman в недавнем интервью отметил, что Google по-прежнему является самой большой угрозой для OpenAI, но OpenAI укрепит свои позиции за счет AI-нативного программного обеспечения, персонализации и функций памяти, ускоренного расширения корпоративного рынка и инвестиций в инфраструктуру в размере 1,4 триллиона долларов. Он предсказывает, что GPT-6 может появиться в первом квартале следующего года, и подчеркивает, что ИИ в будущем изменит способы использования программного обеспечения, став незаменимым «цифровым партнером», а не просто встроенным в старые продукты. (Источник: 36氪, sama)

Google выпускает модель Gemini 3 Flash : Google представила Gemini 3 Flash, модель, которая демонстрирует выдающуюся производительность по нескольким бенчмаркам с чрезвычайно высокой экономичностью и скоростью, превосходя даже GPT-5.2 в тесте кодирования SWE-bench. Google планирует глубоко интегрировать ее в свои экосистемные продукты, такие как поиск, YouTube, Gmail, стремясь изменить рыночный ландшафт ИИ за счет экосистемных преимуществ, а не просто конкуренции по параметрам модели. Этот запуск рассматривается как «точный удар» по OpenAI, вызвавший широкую дискуссию в отрасли о конкуренции моделей и распространении приложений ИИ. (Источник: 36氪, MS_BASE44, GeminiApp, scaling01)

Я бы назвал бесплатный Gemini3 Flash неразрешимым планом Google

OpenAI выпускает модель программирования GPT-5.2-Codex : OpenAI выпустила GPT-5.2-Codex, назвав ее своей самой мощной моделью программирования для ИИ-агентов, оптимизированной для сложной разработки программного обеспечения и кибербезопасности. Модель улучшила выполнение долгосрочных задач, масштабные изменения кода, совместимость со средой Windows и возможности защиты от киберугроз. Несмотря на сильные результаты в бенчмарках, некоторые пользователи сообщают, что в определенных задачах она уступает Gemini 3 Flash, что вызывает рыночные дискуссии о ее реальной эффективности и конкурентоспособности. (Источник: 36氪, sama, scaling01)

Появилась самая мощная модель программирования OpenAI, но фактические тесты показали, что она снова уступает Gemini 3 Flash

🎯 Тенденции

Google открывает исходный код T5Gemma 2 и FunctionGemma : Google открыла исходный код двух небольших моделей, T5Gemma 2 и FunctionGemma, обе основаны на семействе Gemma 3. T5Gemma 2 — это первая мультимодальная модель кодировщика-декодера с длинным контекстом, минимальный размер которой составляет 270M-270M, с акцентом на архитектурную эффективность и мультимодальные возможности. FunctionGemma — это модель размером 270M, оптимизированная для вызова функций, которая может работать на мобильных телефонах и других периферийных устройствах, призванная решить проблему «может говорить, но не может делать» в развертывании больших моделей, предоставляя специализированный «мозг» для агентов и использования инструментов. (Источник: 36氪, huggingface, osanseviero, ImazAngel, danielhanchen)

Две «маленькие пушки» от Google с открытым исходным кодом, 270 миллионов параметров превосходят SOTA

Фактические испытания модели ByteDance Doubao 1.8 : ByteDance выпустила большую модель Doubao 1.8, свое новое основное поколение моделей, которая демонстрирует лидирующие результаты в тестах по нескольким сценариям, включая образование, обслуживание клиентов, финансы и юриспруденцию. Фактические испытания показывают, что Doubao 1.8 выделяется в возможностях Agent (вызов нескольких инструментов, выполнение многоэтапных инструкций, OS Agent), управлении сверхдлинным контекстом 256K и мультимодальном понимании (возможность понимания видео увеличена до 20 минут). Она особенно подходит для создания сложных Agent и выполнения реальных процессов, что считается ключевым шагом в развитии корпоративных и конечных Agent. (Источник: WeChat)

После тестирования Doubao 1.8 я наконец понял, почему ByteDance продвигает Doubao Agent.

Meta открывает исходный код Perception Encoder Audiovisual (PE-AV) : Meta открыла исходный код Perception Encoder Audiovisual (PE-AV), основного технологического движка, лежащего в основе SAM Audio, предназначенного для достижения передовой изоляции звука. PE-AV основан на ранее выпущенной Meta модели Perception Encoder, глубоко интегрирует аудио- и визуальное восприятие, достигая лучших результатов в широком спектре аудио- и видео-бенчмарков, и, как ожидается, улучшит обнаружение звука и понимание аудиовизуальных сцен за счет мультимодальной поддержки. (Источник: AIatMeta, Reddit r/LocalLLaMA)

AIatMeta

Runway выпускает модели Gen-4.5 и GWM-1 : Runway выпустила модель генерации видео Gen-4.5 с новыми функциями редактирования аудио и нескольких кадров, а также серию GWM-1 (General World Model), включающую GWM Worlds (навигационные сцены), GWM Robotics (моделирование с точки зрения робота) и GWM Avatars (синхронизация губ персонажей). Цель — обеспечить генерацию видео в реальном времени с контролируемой мировой моделью, что предвещает значительный скачок в технологии генерации видео к универсальному моделированию. (Источник: c_valenzuelab, DeepLearningAI)

Mistral OCR 3 выпущен, новый прорыв в интеллектуальной обработке документов : Mistral AI выпустила модель Mistral OCR 3, установив новый стандарт точности и эффективности, превзойдя существующие корпоративные решения для обработки документов и AI-нативные OCR. Модель значительно оптимизирована для обработки рукописного контента, низкокачественных сканов, а также сложных таблиц и форм, часто встречающихся в корпоративных документах, что знаменует новый прогресс в области интеллектуальной обработки документов. (Источник: qtnx_, GuillaumeLample)

qtnx_

Переработка токенизации Hugging Face Transformers v5 : В Transformers v5 от Hugging Face была значительно переработана работа токенизатора. Новая версия отделяет архитектуру токенизатора от обучающего словаря, повышая прозрачность, модульность и упрощая процесс обучения специфических для модели токенизаторов с нуля. Это улучшение делает токенизаторы более легкими для проверки, настройки и обучения, решая проблемы непрозрачности и тесной связи токенизаторов в v4. (Источник: HuggingFace Blog, huggingface)

Токенизация в Transformers v5: проще, понятнее и модульнее

Firefox объявляет о переходе на ИИ, вызывая споры среди пользователей : Браузер Firefox объявил о переходе на ИИ-браузер, поддерживающий ряд новых программных решений. Этот шаг вызвал значительное недовольство пользователей в сообществах, таких как Reddit, особенно среди тех, кто ценит конфиденциальность и минимализм, считая, что Firefox отходит от своих основных ценностей. Этот переход отражает стратегию Mozilla по поиску новых точек роста в эпоху «поиска умер», но огромной проблемой для нее является достижение баланса между функциями ИИ и конфиденциальностью пользователей. (Источник: 36氪)

Браузер Firefox, покинувший Китай, решил развиваться в сторону ИИ, который вы больше всего ненавидите

ChatGPT запускает функцию закрепления чатов : OpenAI объявила, что ChatGPT теперь поддерживает функцию закрепления чатов, позволяя пользователям закреплять важные диалоги на iOS, Android и в веб-версии для быстрого доступа. Это обновление направлено на улучшение пользовательского опыта и упрощение управления диалогами. (Источник: openai, Reddit r/ChatGPT)

Reddit r/ChatGPT

Обновление расширения Claude for Chrome : Расширение Claude for Chrome теперь доступно всем платным пользователям и интегрировано с функцией Claude Code. Пользователи теперь могут тестировать и отлаживать код непосредственно в браузере с помощью Claude Code, не покидая текущей страницы. Это обновление направлено на повышение эффективности и удобства работы разработчиков, при этом Anthropic также подчеркивает внимание к безопасности при проектировании и тестировании. (Источник: Reddit r/ClaudeAI, Reddit r/ClaudeAI)

Reddit r/ClaudeAI

🧰 Инструменты

Agent Skills становится открытым стандартом : Agent Skills от Anthropic теперь является открытым стандартом, позволяющим ИИ-агентам изучать и выполнять повторяющиеся рабочие процессы на разных платформах. Этот шаг направлен на упрощение развертывания, обнаружения и создания навыков, а также на содействие взаимодействию в экосистеме ИИ-инструментов. Разработчики теперь могут создавать навыки один раз и использовать их на нескольких ИИ-платформах, тем самым повышая профессиональные возможности и эффективность агентов. (Источник: omarsar0, code, Reddit r/ClaudeAI)

Reddit r/ClaudeAI

LangChain Academy запускает новый курс : LangChain Academy выпустила новый курс «Введение в LangChain (Python)», призванный помочь разработчикам научиться использовать фреймворк LangChain для создания ИИ-агентов. Курс охватывает создание агентов, использование основных строительных блоков (модели, сообщения, память, инструменты), а также использование LangSmith для отладки поведения, с конечной целью — позволить учащимся собрать полноценную команду личных помощников. (Источник: LangChainAI, hwchase17)

LangChainAI

Расширенные настройки разработки Claude Code CLI : Разработчик поделился своей «чрезмерно спроектированной» настройкой Claude Code CLI, которая сочетает в себе MCP-сервер, настраиваемые навыки и строгий файл CLAUDE.md для достижения «Vibe Coding» производственного уровня. Этот метод с помощью шлюзов качества, итерационных циклов и внутрибраузерного тестирования эффективно предотвращает отклонение агента от курса и обеспечивает эффективный рефакторинг, решая болевые точки, возникающие при использовании традиционных агентов в реальной разработке. (Источник: Reddit r/ClaudeAI)

Reddit r/ClaudeAI

OpenRouter запускает функцию исправления JSON-вывода LLM : OpenRouter представил функцию «Response Healing», которая автоматически исправляет ошибки в структурированном JSON-выводе, генерируемом большими языковыми моделями (LLM). Эта функция значительно снизила частоту дефектов для таких моделей, как Gemini 2 Flash и Qwen3 235B, повысив надежность LLM в сценариях, требующих точного вывода в формате JSON. (Источник: xanderatallah)

xanderatallah

Инструмент транскрипции аудио AssemblyAI поддерживает ввод URL : AssemblyAI Playground обновлен и теперь поддерживает транскрипцию аудио непосредственно по URL. Пользователям не нужно загружать файлы для тестирования подкастов, облачного аудио или больших файлов (например, отчетов о прибылях и убытках), что значительно упрощает прототипирование и проверку интеграции, повышая эффективность тестирования возможностей Speech AI. (Источник: AssemblyAI)

jax-js: библиотека машинного обучения для браузера : jax-js — это библиотека машинного обучения с открытым исходным кодом, которая перереализовала JAX на чистом JavaScript и поддерживает JIT-компиляцию в WebGPU, что позволяет ей запускать нейронные сети в браузере. Библиотека предоставляет такие функции, как автоматическое дифференцирование, JIT-компиляция, и призвана предоставить эффективную и гибкую модель программирования, аналогичную PyTorch и JAX, что было подтверждено интерактивными демонстрациями, такими как обучение MNIST и вывод MobileCLIP. (Источник: Vtrivedy10, Reddit r/MachineLearning)

Vtrivedy10

Обновление сервиса парсинга документов LlamaParse v2 : LlamaIndex выпустила LlamaParse v2, значительно упростив конфигурацию парсинга документов, повысив производительность и сократив затраты на парсинг сложных документов до 50%. Новая версия представляет четыре фиксированных уровня: Fast, Cost Effective, Agentic и Agentic Plus, улучшая точность мультимодального контента, уменьшая галлюцинации и позволяя пользователям достигать производственного уровня приема документов без необходимости быть экспертами в парсинге. (Источник: jerryjliu0)

jerryjliu0

Locally AI: приложение для локального запуска моделей ИИ : Locally AI — это приложение, которое позволяет пользователям локально запускать модели ИИ на своих повседневных устройствах, и было включено в список «Избранное недели» в App Store благодаря своей удобности. Приложение призвано снизить порог использования ИИ, позволяя большему количеству людей легко взаимодействовать с локальными моделями ИИ, подчеркивая простоту использования и доступность локального ИИ. (Источник: adrgrondin)

adrgrondin

Google Flow для генерации изображений теперь поддерживает загрузку в высоком разрешении : Функция Nano Banana Pro в Google Flow теперь поддерживает загрузку изображений, сгенерированных ИИ, в разрешениях 2K и 4K. Это обновление удовлетворяет потребность пользователей в изображениях с более высоким разрешением, будь то для творческих материалов, последовательностей кадров или визуальных эффектов, обеспечивая более четкий и детализированный контент, сгенерированный ИИ. (Источник: op7418)

op7418

Пользователи OpenWebUI сообщают о проблемах с функцией RAG : Пользователи OpenWebUI сообщают о проблемах с функцией RAG (Retrieval-Augmented Generation), особенно при обработке PDF-файлов размером более 1 МБ, когда модель не может передать содержимое файла в контекст, что приводит к ошибке «источник не найден». Несмотря на успешную загрузку файла, извлечение текста и встраивание, шаг генерации запроса завершается неудачей, что препятствует использованию содержимого PDF для вывода модели и влияет на такие задачи, как извлечение структурированных данных. (Источник: Reddit r/OpenWebUI, Reddit r/OpenWebUI)

Reddit r/OpenWebUI

Текстовая приключенческая игра с ИИ Glif Agent : Glif Agent предлагает опыт текстовой приключенческой игры, в которую пользователи могут погрузиться напрямую, без сложных руководств. Этот ИИ-инструмент демонстрирует потенциал LLM в создании интерактивных повествований и захватывающих впечатлений, позволяя игрокам исследовать виртуальные миры с помощью команд на естественном языке. (Источник: NerdyRodent)

NerdyRodent

Cass: инструмент поиска сессий кодирования агентов : Инструмент Cass назван «спасителем» для кодирующих агентов, способным значительно сэкономить время и усилия. Он автоматически обнаруживает, принимает и индексирует все сессии кодирования CLI, предоставляя мгновенный поиск и «режим робота», что позволяет пользователям быстро находить, управлять и повторно использовать следы агентов, значительно повышая эффективность использования кодирующих агентов. (Источник: doodlestein)

AI Toolkit UI добавляет функцию графика потерь : AI Toolkit UI обновлен и теперь включает функцию графика потерь (loss graph) для мониторинга процесса тонкой настройки диффузионных моделей (diffusion models). Эта функция предоставит пользователям более интуитивную обратную связь по обучению модели, а в будущем будут добавлены дополнительные функции для повышения эффективности разработки и отладки моделей ИИ. (Источник: ostrisai)

ostrisai

📚 Обучение

Новый курс Nvidia NeMo Agent Toolkit : DeepLearning.AI запустила новый курс Nvidia NeMo Agent Toolkit, где эксперт NVIDIA Brian обучает, как использовать этот инструментарий для создания надежных, готовых к производству ИИ-агентов. Курс охватывает рабочие процессы, управляемые конфигурацией, обеспечение наблюдаемости через трассировку, использование эталонных наборов данных для системной оценки и развертывание многоагентных систем, призванный помочь разработчикам превратить прототипы агентов в надежные производственные системы. (Источник: AndrewYNg)

Ресурсы для изучения ИИ и обзор концепций : Был опубликован ряд ресурсов для изучения ИИ, включая последний выпуск Deep Learning Weekly, охватывающий самооптимизирующиеся агенты, ошибки в бенчмарках ИИ, руководство по обучению RL и многое другое; кроме того, представлена дорожная карта для освоения Agentic AI, обзор основных концепций ИИ 2025 года (обучение с подкреплением, варианты RLHF, непрерывное обучение, нейросимвольный ИИ, аппаратное обеспечение ИИ и т. д.), а также последние достижения в исследованиях безопасности ИИ. (Источник: dl_weekly, TheTuringPost, Ronald_vanLoon, AndrewYNg, ajeya_cotra)

TheTuringPost

Вышла глава книги «Визуальные языковые модели» : Вышла пятая глава книги «Визуальные языковые модели», посвященная предварительному обучению, с иллюстрациями и практическими рекомендациями. Это предоставляет ценный ресурс для изучающих ИИ, чтобы глубоко понять механизмы предварительного обучения визуальных языковых моделей. (Источник: algo_diver)

algo_diver

Обновление статьи о системах исследований, управляемых ИИ (ADRS) : Системы исследований, управляемых ИИ (ADRS), опубликовали обновленную статью, оценивающую производительность трех фреймворков с открытым исходным кодом в решении 10 реальных проблем производительности системы. Исследование показывает, что решения, сгенерированные ИИ, могут обеспечить 13-кратное ускорение балансировки нагрузки и 35%-ную экономию затрат в облачном планировании, превосходя даже человеческих экспертов, что является убедительным доказательством применения ИИ в системных исследованиях. (Источник: matei_zaharia)

matei_zaharia

💼 Бизнес

Различия в инвестициях в ИИ: разные стратегии Alibaba и Tencent : Столкнувшись с волной ИИ, две крупнейшие китайские технологические компании, Alibaba и Tencent, демонстрируют заметные различия в своих инвестиционных стратегиях. Alibaba ускоряет инвестиции в инфраструктуру ИИ, планируя вложить более 380 миллиардов юаней в течение следующих трех лет, стремясь стать инфраструктурной компанией, предоставляющей «воду, электричество и уголь» для ИИ. Tencent, напротив, склонна к «охлаждению», снизив свои прогнозы по капитальным затратам, и больше сосредоточена на расширении возможностей ИИ в прикладной сфере, а также привлекла бывшего ученого OpenAI Яо Шуньюй (Yao Shunyu) для усиления своей стратегии ИИ в сторону приложений. Это расхождение отражает различные суждения обеих сторон о пути коммерциализации в эпоху ИИ. (Источник: 36氪)

Различия в инвестициях в ИИ: Alibaba «нажимает на газ», Tencent «тормозит»

Срыв многомиллиардного проекта Oracle вызывает опасения по поводу пузыря ИИ : Срыв многомиллиардного финансирования проекта Oracle по центрам обработки данных в США, когда основной спонсор Blue Owl Capital отозвал свои инвестиции, вызвал панику на рынке по поводу пузыря ИИ. Это событие подчеркивает неопределенность инвесторов в отношении огромных затрат на инфраструктуру ИИ и сроков монетизации. Аналитики сомневаются, сможет ли OpenAI выполнить свои обязательства по оплате вычислительных мощностей Oracle, а также указывают на проблему слишком быстрого расширения баланса Oracle, предвещая, что конкуренция в области ИИ вступает в «период проверки денежных потоков». (Источник: 36氪)

Многомиллиардный проект Oracle внезапно «сорвался», опасения по поводу пузыря ИИ в США нарастают?

Бретт Адкок основал новую ИИ-лабораторию Hark : Генеральный директор Figure AI Бретт Адкок (Brett Adcock) объявил об основании новой ИИ-лаборатории Hark и вложил 100 миллионов долларов личных средств. Лаборатория Hark будет сосредоточена на исследованиях «ИИ, ориентированного на человека», при этом Адкок продолжит занимать свою должность в Figure AI. Этот шаг знаменует собой постоянное внимание к человеко-машинному взаимодействию и этике в области ИИ, а также вливание нового частного капитала в исследования ИИ. (Источник: steph_palazzolo)

🌟 Сообщество

Споры о производительности LLM и пользовательском опыте : В социальных сетях широко обсуждается фактическая производительность GPT-5.2. Многие пользователи жалуются на плохой повседневный опыт использования, галлюцинации или посредственную производительность в простых задачах, что контрастирует с «более умными» результатами в бенчмарках. Этот разрыв вызывает дискуссии о направлении развития моделей ИИ: стремиться к конкурентному интеллекту или к повседневной практичности? В то же время пользователи делятся опасениями по поводу снижения производительности модели Opus 4.5, а также проблем LLM с отладкой и пониманием намерений пользователя, например, трудности Claude Code при работе со сложным кодом. (Источник: VictorTaelin, aidan_mclau, 36氪, dbreunig, Reddit r/ChatGPT, Reddit r/artificial)

Влияние ИИ на работу и общество : В социальных сетях широко обсуждается влияние ИИ на рынок труда, включая опасения по поводу возможного «коллапса» белых воротничков, а также потенциал ИИ в повышении производительности. В то же время уровень осведомленности общественности об ИИ неоднороден, многие ошибочно полагают, что ChatGPT ищет ответы в базе данных. Кроме того, технологии ИИ снизили порог для дезинформации и мошенничества, что вызывает опасения по поводу механизмов модерации платформ и стоимости самоидентификации. Также существует мнение, что прогресс ИИ больше похож на «новый поезд, идущий по старым рельсам», и что узкие места в реальном применении чаще связаны с социальными, экономическими и политическими факторами. (Источник: random_walker, Reddit r/ArtificialInteligence, Plinz, doodlestein, amasad, 36氪, gfodor, Reddit r/ArtificialInteligence)

Этика и безопасность ИИ : В социальных сетях активно обсуждаются этика и безопасность ИИ. Это включает обвинения в плагиате в адрес пионеров ИИ, таких как Хинтон, случаи ошибочных арестов, вызванных ИИ в приложениях распознавания лиц, а также риски, связанные с контентом, генерируемым ИИ (например, вышедший из-под контроля торговый автомат с ИИ, протестированный WSJ). OpenAI выпустила «Спецификации модели» для руководства по поведению модели, а Google DeepMind представила технологию водяных знаков SynthID для обнаружения видео, сгенерированных ИИ. Кроме того, внимание уделяется огромному экологическому следу ИИ (потребление воды и выбросы углерода), а также этическим соображениям при предоставлении ИИ эмоциональной поддержки. (Источник: SchmidhuberAI, Reddit r/artificial, Reddit r/ArtificialInteligence, Reddit r/ArtificialInteligence, Ronald_vanLoon, AnthropicAI, ajeya_cotra, Reddit r/MachineLearning)

Развитие и вызовы ИИ-агентов : Разработка и применение ИИ-агентов стали горячей темой, обсуждения охватывают их архитектуру (компонуемые модули, управление памятью), открытые стандарты (Agent Skills), а также практическое применение в таких областях, как робототехника (Reachy Mini, Grek robot, Bipedal Gait robot, автономные мобильные роботы) и программирование (Claude MCP Agent). Вызовы включают повышение доверия к агентам, обработку длинного контекста, оптимизацию инфраструктуры для поддержки многоагентного сотрудничества, а также обеспечение стабильности агентов в сложных задачах и предотвращение «мертвых циклов». (Источник: Vtrivedy10, julesagent, LangChainAI, TheTuringPost, Ronald_vanLoon, Sentdex, ClementDelangue, doodlestein, corbtt, Ronald_vanLoon)

Исследования LLM и характеристики моделей : Обсуждения в ИИ-сообществе по исследованиям LLM охватывают функцию ценности в обучении с подкреплением (RL), практичность LoRA RL, оценку возможностей GPT-4, дебаты о RL и пост-обучении LLM, применение LLM в математических исследованиях, а также философские вопросы, такие как сознание ИИ и «пища для размышлений». Кроме того, внимание уделяется новым архитектурам LLM (например, диффузионные LLM, мировые модели DexWM), законам плотности моделей, проблемам обработки длинного контекста, а также оценке производительности конкретных моделей, таких как Kimi K2 и MiMo-V2. (Источник: natolambert, vllm_project, SebastienBubeck, sarahcat21, karpathy, riemannzeta, _akhaliq, code_star, DeepLearningAI, ollama, gdb, yacinelearning, ylecun, pmddomingos, matei_zaharia, TheTuringPost, yacinelearning, MiniMax__AI, Reddit r/deeplearning, Reddit r/deeplearning, Reddit r/deeplearning, Reddit r/LocalLLaMA)

pmddomingos

Инфраструктура и аппаратное обеспечение ИИ : Инфраструктура и аппаратное обеспечение ИИ являются горячей темой, включая низколатентный параллельный вывод тензоров с помощью фреймворка MLX на Mac, важность векторных баз данных, таких как Qdrant и Turbopuffer, в эпоху Agentic, а также стоимость и проблемы создания GPU-кластеров (например, 8x B200 или кластеров Mac Studio). Обсуждения также касаются оптимизации распределенного обучения (SonicMoE), узких мест бессерверных бэкендов для агентов и опасений по поводу энергопотребления центров обработки данных ИИ. (Источник: awnihannun, qdrant_engine, TheEthanDing, Dorialexander, halvarflake, matei_zaharia, togethercompute, andersonbcdefg, idavidrein, Reddit r/deeplearning, Reddit r/MachineLearning, Reddit r/LocalLLaMA, Reddit r/MachineLearning, StasBekman, HuggingFace Daily Papers)

qdrant_engine

Генеративное ИИ-искусство и приложения : Обсуждения сосредоточены на достижениях генеративного ИИ в области искусства и приложений. Модели Runway Gen-4.5 и GWM-1 продвигают генерацию видео к универсальному моделированию мира, а DALL-E 3 и Gemini используются для генерации изображений, включая повышение реалистичности изображений, создание 3D-контента и преобразование художественных стилей. Сообщество также обсуждает восприятие контента, сгенерированного ИИ (AIGC), например, когда качество медиаработ, созданных ИИ, настолько высоко, что зрители сомневаются, было ли оно создано ИИ — это похвала или оскорбление. Кроме того, внимание уделяется исследовательским приложениям ИИ в решении математических задач и преобразовании кода. (Источник: c_valenzuelab, BlackHC, nptacek, yupp_ai, nptacek, claud_fuen, dotey, ylecun, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT)

c_valenzuelab

💡 Прочее

Принципы ИИ-инженерии : Обсуждения в социальных сетях подчеркивают, что ИИ-инженерия должна следовать основным принципам традиционной инженерии, таким как контроль версий, тестирование и наблюдаемость в производстве. Считается, что использование LLM не должно изменять эти базовые практики, а должно быть интегрировано в процесс разработки ИИ для обеспечения надежности и качества систем. (Источник: imjaredz)

Масштабная обработка данных LLM : Обсуждается недооцененная тема масштабной обработки данных LLM. Подчеркивается, что при работе с огромными объемами данных LLM следует рассматривать как оператор базы данных, применяя такие методы, как семантическое сопоставление, фильтрация и агрегация. В то же время, с помощью стратегий оптимизации затрат, таких как каскадирование задач, можно значительно снизить затраты на обработку данных LLM, обеспечивая при этом точность, достигая баланса между эффективностью и экономичностью. (Источник: HamelHusain)

Понимание ИИ о человеческом познании и обучении : Исследователь ИИ, основываясь на 5000 часах опыта игры в Tekken, исследует, как люди строят прогностические модели в условиях экстремальных временных ограничений, и как это связано с мировыми моделями ИИ и прогностическим обучением. Он считает, что файтинги заставляют игроков предсказывать, а не просто реагировать, что отражает проблемы в исследованиях ИИ по построению внутренних мировых моделей, считыванию паттернов из частичной информации и адаптации к прогностическим ошибкам, предоставляя уникальный взгляд на понимание интеллекта, выходящего за рамки игрового ИИ. (Источник: Reddit r/MachineLearning, Reddit r/ArtificialInteligence)