AI Ежедневник — 2025-06-15(Вечерний выпуск)

Ключевые слова:VGGT, 3D визуализация, Transformer, CVPR 2025, Meta, Оксфордский университет, автономное вождение, безопасность ИИ, Vision Geometry Transformer, однопроходное 3D предсказание, SafeKey Framework, Waymo исследование автономного вождения, модель Doubao 1.6

🔥 В фокусе

VGGT: Meta и Оксфордский университет представили Visual Geometry Transformer, прогнозирующий полную информацию о 3D-сцене за один прямой проход и получивший награду за лучшую статью на CVPR 2025: Представленный совместно Meta и Оксфордским университетом VGGT (Visual Geometry Grounded Transformer) стал единственной лучшей статьей на CVPR 2025. Эта модель основана на Vision Transformer, использует чередующийся механизм self-attention «глобальный-внутрикадровый» и способна за один прямой проход прогнозировать полную информацию о 3D-сцене, включая внутренние и внешние параметры камеры, карты глубины, облака точек и 3D-траектории, в сквозном режиме. VGGT обучается самостоятельно исключительно на больших объемах аннотированных 3D-данных, без необходимости в геометрических индуктивных смещениях, демонстрирует превосходную производительность при обработке от 1 до 200 входных изображений, превосходя по производительности многие существующие геометрические или глубокие методы обучения, и демонстрирует широкий потенциал применения в области 3D-зрения (Источник: 量子位)

VGGT: Meta и Оксфордский университет представили Visual Geometry Transformer, прогнозирующий полную информацию о 3D-сцене за один прямой проход и получивший награду за лучшую статью на CVPR 2025

Столкновение взглядов CEO Nvidia Дженсена Хуанга и CEO Anthropic на развитие ИИ: CEO Nvidia Дженсен Хуанг на пресс-конференции в Париже заявил, что он практически не согласен ни с одним из тезисов CEO Anthropic Дарио Амодея относительно ИИ. Хуанг отметил, что Амодей считает ИИ слишком опасным и что его должны контролировать немногие компании; что ИИ слишком дорог, и другие компании не должны им заниматься; а также что ИИ приведет к массовой безработице. Хуанг возразил, что ИИ является важной технологией, которую следует развивать открыто, безопасно и ответственно, а не в закрытой среде, подчеркнув важность открытости для безопасности (Источник: hardmaru)

Фреймворк SafeKey повышает безопасность больших моделей рассуждений (LRM), снижая уровень риска на 9,6%: Исследовательская группа из Калифорнийского университета в Санта-Крузе, Беркли, Cisco Research и Йельского университета предложила фреймворк SafeKey, направленный на повышение безопасности больших моделей рассуждений (LRM). Исследование показало, что “джейлбрейк” моделей связан с неэффективным использованием ранних сигналов безопасности в “ключевых фразах”. SafeKey усиливает сигналы безопасности с помощью “двухканальной головы безопасности” (dual-path safety head) и заставляет модель полагаться на собственное понимание для принятия решений о безопасности посредством “моделирования с маскированием запросов” (query masking modeling). Эксперименты показали, что SafeKey снижает частоту опасных ответов на 9,6%, не оказывая существенного влияния на основные возможности модели (даже немного улучшая их), и особенно хорошо проявляет себя при столкновении с неизвестными атаками (Источник: 量子位)

Фреймворк SafeKey повышает безопасность больших моделей рассуждений (LRM), снижая уровень риска на 9,6%

Исследование Waymo показывает, что производительность системы автономного вождения растет по степенному закону с увеличением объема данных и вычислительных ресурсов: Waymo опубликовала комплексное исследование, основанное на 500 000 часов данных о вождении, которое выявило степенную зависимость между качеством прогнозирования движения в ее системе автономного вождения и объемом вычислений для обучения. Это схоже с закономерностями масштабирования больших языковых моделей (LLM). Исследование подчеркивает, что масштаб данных имеет решающее значение для повышения производительности модели, а увеличение вычислительных ресурсов для инференса также повышает способность модели справляться со сложными сценариями вождения. Это исследование впервые демонстрирует, что производительность систем автономного вождения в реальном мире можно улучшить за счет увеличения объема обучающих данных и вычислительных ресурсов (Источник: zacharynado)

Исследование Waymo показывает, что производительность системы автономного вождения растет по степенному закону с увеличением объема данных и вычислительных ресурсов

🎯 Динамика

ByteDance выпустила большую модель Doubao 1.6 и ряд ИИ-приложений, подчеркнув возможности комбинирования и внедрения продуктов: ByteDance недавно активно выпускала серию ИИ-продуктов, включая большую модель Doubao 1.6, модель генерации видео Seedance 1.0 Pro, модели для голосовых подкастов и голосовой связи в реальном времени. Doubao 1.6 улучшила возможности мультимодальной обработки и управления, поддерживает поиск во время обдумывания (边想边搜) и DeepResearch, а также может управлять графическим интерфейсом. Seedance 1.0 Pro демонстрирует выдающиеся результаты в когерентности и стабильности генерации видео, поддерживая генерацию 10-секундных видео в 1080p. Стратегия ByteDance в большей степени ориентирована на интеграцию ИИ-возможностей в готовые к использованию приложения и их встраивание в существующие продукты (такие как приложение Doubao, платформа Volcano Engine), подчеркивая возможности комбинирования и быструю продуктизацию, а не простое стремление к лидерству по параметрам отдельных моделей. Ее ценовая политика также более конкурентоспособна, направленная на снижение порога использования ИИ (Источник: 36氪)

ByteDance выпустила большую модель Doubao 1.6 и ряд ИИ-приложений, подчеркнув возможности комбинирования и внедрения продуктов

Tencent открыла исходный код модели Hunyuan 3D 2.1, ориентированной на PBR-текстуры и совместимость с потребительскими видеокартами: На конференции CVPR Tencent объявила об открытии исходного кода своей новейшей модели 3D-генерации Hunyuan 3D 2.1. Модель была оптимизирована как по геометрической точности, так и по детализации текстур, особенно благодаря внедрению технологии генерации PBR-текстур (Physically Based Rendering), которая позволяет качественно рендерить сложные материалы, такие как кожа, металл, керамика, с реалистичным визуальным эффектом. Hunyuan 3D 2.1 полностью открыта, включая веса модели, обучающий код и процесс обработки данных, а также поддерживает работу на потребительских видеокартах и развертывание в один клик, стремясь способствовать популяризации создания 3D-контента (Источник: 量子位)

Tencent открыла исходный код модели Hunyuan 3D 2.1, ориентированной на PBR-текстуры и совместимость с потребительскими видеокартами

Perplexity AI активно улучшает функцию Deep Research в ответ на отзывы пользователей: CEO Perplexity AI Арав Шринивас заявил, что команда серьезно отнеслась к негативным отзывам о функции Deep Research и уже приступила к ее улучшению. Некоторые улучшения уже внедрены в производственную среду, и пользователи должны заметить повышение качества работы. В будущем функции Deep Research и Labs будут интегрированы в продукт Comet, целью которого является оптимизация процесса принятия решений пользователями за счет использования личного контекста и данных (Источник: AravSrinivas)

Исследование Anthropic показывает, что мультиагентные системы могут значительно улучшить выполнение задач: Исследование, опубликованное Anthropic, показывает, что использование мультиагентных систем (например, Opus в качестве основного агента и Sonnet в качестве субагентов) для решения задач повышает производительность на 90% по сравнению с использованием только Opus. Эта модель совместной работы аналогична тому, как человеческое общество значительно повышает производительность за счет разделения труда и сотрудничества. В исследовании подробно описывается, как создавать эффективные мультиагентные исследовательские системы, и делятся методами их оценки, включая использование LLM в качестве арбитра. Однако в некоторых комментариях отмечается, что описанный в отчете метод исследования Claude может иметь проблемы с недостаточной глубиной поиска (Источник: zacharynado, omarsar0, nrehiew_)

Исследование Anthropic показывает, что мультиагентные системы могут значительно улучшить выполнение задач

Исследование указывает, что способность к рассуждению у больших языковых моделей ограничена «незнакомостью», а не «сложностью»: Франсуа Шолле отметил, что способность к рассуждению у больших языковых моделей (LRM) не нарушается при достижении определенного порога «сложности» или «количества шагов», а отказывает при столкновении с «незнакомыми» задачами, причем этот порог незнакомости очень низок. Модели могут решать чрезвычайно сложные задачи, охваченные на этапе обучения/тонкой настройки, но даже простые новые задачи (например, задачи ARC 2) могут оказаться для них невыполнимыми. Наблюдаемый порог шагов/сложности для знакомых проблем (таких как Ханойская башня) на самом деле является результатом создания «новизны» путем увеличения переменных проблемы (Источник: fchollet, jeremyphoward)

Sakana AI представляет гиперсетевую модель Text-to-LoRA (T2L): Sakana AI выпустила Text-to-LoRA (T2L), новую гиперсеть, способную быстро генерировать новые LoRA-адаптеры для больших языковых моделей на основе текстового описания задачи. T2L может не только сжимать несколько существующих LoRA, но и создавать новые LoRA мгновенно после обучения, открывая новые пути для быстрой кастомизации моделей под конкретные задачи. Это исследование будет представлено на ICML 2025 (Источник: TheTuringPost)

Sakana AI представляет гиперсетевую модель Text-to-LoRA (T2L)

Модель Nvidia Cosmos-Predict2 (2B параметров) демонстрирует выдающиеся способности к генерации изображений: Cosmos-Predict2 от Nvidia, модель с 2 миллиардами параметров, позиционируется как «мировая базовая модельная платформа для физического ИИ» и демонстрирует впечатляющие способности в генерации художественных изображений. Несмотря на то, что ее базовый набор данных может быть не оптимальным, структура модели хороша, а качество генерируемых изображений не сильно отличается от версии с 14 миллиардами параметров, уступая лишь в деталях и точности следования промптам, что демонстрирует потенциал небольших моделей при определенной оптимизации (Источник: teortaxesTex)

Модель Nvidia Cosmos-Predict2 (2B параметров) демонстрирует выдающиеся способности к генерации изображений

MIT разработал новый алгоритм, позволяющий беспилотникам автономно избегать штормов: MIT разработал новый алгоритм, наделяющий беспилотные летательные аппараты (UAV) способностью принимать решения, подобно «мозгу», что позволяет им в реальном времени анализировать погодные условия и автономно планировать маршруты для обхода штормов. Ожидается, что эта технология повысит безопасность полетов беспилотников и эффективность выполнения задач в сложных метеорологических условиях (Источник: Ronald_vanLoon)

MIT разработал новый алгоритм, позволяющий беспилотникам автономно избегать штормов

Исследование Meta: языковые модели в стиле GPT запоминают 3,6 бита информации на параметр: Новое исследование Meta показало, что языковые модели в стиле GPT способны запоминать около 3,6 бита информации на каждый параметр. Исследование оценивало объем памяти моделей путем измерения общего количества запомненных битов (на основе теории Шеннона 1953 года) и выявило определенную кривую зависимость между объемом памяти и масштабом данных (Источник: jxmnop)

Исследование Meta: языковые модели в стиле GPT запоминают 3,6 бита информации на параметр

OpenRouter опубликовал рейтинг LLM по частоте нарушений при работе со структурированным выводом (JSON): OpenRouter составил рейтинг ведущих LLM на основе процента нарушений JSON, обнаруженных в запросах на структурированный вывод за последнюю неделю. Результаты показывают, что Qwen, Mistral и GPT-4o-mini продемонстрировали хорошие результаты с низким уровнем нарушений JSON. В то же время, у DeepSeek v3 и Sonnet 4 частота нарушений превысила 20%, что указывает на значительный потенциал для улучшения в точном следовании формату JSON. В настоящее время конкретные причины таких различий в паттернах неясны (Источник: xanderatallah, teortaxesTex)

OpenRouter опубликовал рейтинг LLM по частоте нарушений при работе со структурированным выводом (JSON)

Ant Group представила унифицированную мультимодальную модель Ming-Omni: Ant Group выпустила серию моделей Ming-Omni, представляющую собой унифицированную мультимодальную модель, способную воспринимать и генерировать контент в текстовом, графическом, аудио- и видеоформатах. Ее легковесная версия Ming-Lite-Omni использует архитектуру MoE с всего 2,8 млрд активных параметров, обладает возможностями высококачественной генерации изображений и синтеза естественной речи, и уже доступна на Hugging Face под лицензией MIT (Источник: teortaxesTex, _akhaliq)

Ant Group представила унифицированную мультимодальную модель Ming-Omni

Китайский инструмент для проектирования ИИ-чипов «启蒙» (QiMeng) завершает разработку процессора за несколько дней, превосходя эффективность инженеров: Разработанный в Китае инструмент для проектирования ИИ-чипов «启蒙» (QiMeng) продемонстрировал свои высокоэффективные возможности в проектировании процессоров, выполняя за несколько дней задачи, на которые традиционным инженерам требуется гораздо больше времени. Это знаменует потенциал ИИ в области автоматизации проектирования чипов, что может ускорить циклы разработки чипов и снизить затраты (Источник: Ronald_vanLoon)

Китайский инструмент для проектирования ИИ-чипов «启蒙» (QiMeng) завершает разработку процессора за несколько дней, превосходя эффективность инженеров

Модель o3-pro от Hao AI Lab демонстрирует превосходные результаты в игровом бенчмарке для LLM: Модель o3-pro от Hao AI Lab достигла значительного прогресса в Lmgame Bench (бенчмарк для оценки игровых способностей больших языковых моделей). В играх Тетрис и Сокобан o3-pro достигла уровня SOTA (state-of-the-art) и значительно превзошла свою предшественницу, модель o3. В частности, в Тетрисе o3-pro смогла очистить более 8 рядов, демонстрируя способность к планированию, в то время как другие модели застревали после нескольких рядов (Источник: clefourrier)

Исследование выявило, что 40 лет – ключевой период для предотвращения старения мозга, кетогенное вмешательство показывает значительный эффект: Исследование, опубликованное в PNAS, на основе анализа данных сканирования мозга почти 20 000 человек, показало, что старение мозга не является линейным процессом, а следует S-образной кривой и связано с увеличением инсулинорезистентности. Исследование указывает, что примерно в 40 лет начинается ускорение нестабильности мозговых сетей, а в 60 с лишним лет скорость старения максимальна. Эксперименты показали, что кетоновые тела (D-βHB) могут обеспечивать энергией нейроны в обход инсулинорезистентности и оказывают значительное влияние на стабилизацию мозговых сетей, особенно при вмешательстве в возрасте 40-59 лет, что открывает новые перспективы для поддержания здоровья мозга в среднем возрасте (Источник: 量子位)

Исследование выявило, что 40 лет – ключевой период для предотвращения старения мозга, кетогенное вмешательство показывает значительный эффект

🧰 Инструменты

The Browser Company выпустила бета-версию ИИ-нативного браузера Dia: Разработчик браузера Arc, The Browser Company, выпустила закрытую бета-версию своего первого ИИ-нативного браузера Dia. Главной особенностью Dia является возможность прямого взаимодействия с любым контентом веб-страниц (включая видео на YouTube, FigJam, Google Calendar и т.д.) в режиме чата, без необходимости открывать внешние ИИ-инструменты, такие как ChatGPT. Браузер автоматически извлекает контекст из вкладок, поддерживает интеграцию и сравнение информации с нескольких веб-страниц, планирование, создание контента и другие функции. В настоящее время поддерживается только MacOS и нацелен на предоставление более простого, ориентированного на ИИ опыта просмотра веб-страниц (Источник: 36氪)

The Browser Company выпустила бета-версию ИИ-нативного браузера Dia

LangChain представляет локальный генератор ИИ-подкастов: LangChain выпустила локальный генератор ИИ-подкастов. Эта система, созданная с использованием LangChain и Ollama, способна преобразовывать текст в многоязычные подкасты. Она сочетает в себе технологии резюмирования текста и генерации речи, обеспечивая бесшовный процесс создания подкастов. Пользователи могут ознакомиться с предоставленным руководством, чтобы научиться использовать этот инструмент (Источник: LangChainAI, hwchase17)

LangChain представляет локальный генератор ИИ-подкастов

Davia: быстрое преобразование Python-приложений и LangGraph-агентов в веб-приложения: Davia – это инструмент, который может мгновенно преобразовывать Python-приложения и LangGraph-агентов в привлекательные веб-приложения без написания какого-либо фронтенд-кода. Он построен на FastAPI и автоматически генерирует интерактивный пользовательский интерфейс, позволяя разработчикам сосредоточиться на реализации логики на Python (Источник: LangChainAI, Hacubu)

Davia: быстрое преобразование Python-приложений и LangGraph-агентов в веб-приложения

Интеграция Tensorlake с LangChain для структурированной обработки документов: Tensorlake объявила об интеграции с LangChain, что позволяет LangGraph-агентам использовать мощную мультимодальную систему обработки Tensorlake для преобразования неструктурированных документов в структурированные данные. Эта интеграция предоставляет новые решения для обработки сложных документов (Источник: LangChainAI, hwchase17)

Интеграция Tensorlake с LangChain для структурированной обработки документов

Quark выпустила первую в Китае большую модель для помощи абитуриентам и бесплатную функцию отчета по выбору вуза: Quark представила первую в Китае большую модель для помощи абитуриентам при поступлении в вузы и запустила бесплатную функцию «Отчет по выбору вуза». Эта модель, работающая в режиме Agent, имитирует процесс принятия решений экспертами и, используя постоянно обновляемую «Базу знаний о поступлении в вузы» (охватывающую более 2900 вузов, почти 1600 специальностей бакалавриата и информацию о трудоустройстве), генерирует для абитуриентов персонализированные планы подачи заявлений, включающие три уровня: «прорывной», «стабильный» и «запасной». Эта инициатива направлена на использование технологий ИИ для снижения барьеров и затрат при выборе вуза, изменяя традиционную ситуацию с дорогостоящими консультациями (Источник: 量子位)

Quark выпустила первую в Китае большую модель для помощи абитуриентам и бесплатную функцию отчета по выбору вуза

Task Orchestrator: инструмент управления проектами MCP для Claude Code: Разработчик jpicklyk создал инструмент MCP (Machine-Level Code Programming) под названием Task Orchestrator, предназначенный для решения проблемы «отвлечения» и забывания контекста Claude Code при работе со сложными проектами. Инструмент наделяет Claude постоянной памятью, структурированным управлением проектами (проект → функция → задача), ИИ-нативными шаблонами, интеллектуальным управлением зависимостями и отслеживанием прогресса, делая его более похожим на организованного инженерного партнера. Проект открыт на GitHub (Источник: Reddit r/ClaudeAI)

Task Orchestrator: инструмент управления проектами MCP для Claude Code

ATLAS: ИИ-партнер для разработки ПО, наделяющий Claude Code способностью к самовосприятию: Разработчик syahiidkamil создал проект ATLAS, целью которого является превращение Claude Code в ИИ-партнера для разработки программного обеспечения, обладающего начальным самосознанием, памятью, идентичностью и профессиональными стандартами. ATLAS способен поддерживать контекст проекта, самостоятельно управлять знаниями, развиваться вместе с коммитами кода и активно запрашивать ревью кода, тем самым способствуя более естественному процессу сотрудничества и рецензирования между пользователем и ИИ. Проект открыт на GitHub и направлен на помощь пользователям и ИИ в совместном поддержании более высокого качества кода (Источник: Reddit r/ClaudeAI)

ATLAS: ИИ-партнер для разработки ПО, наделяющий Claude Code способностью к самовосприятию

Observer: локально запускаемый ИИ-ассистент для мониторинга экрана: Observer – это ИИ-инструмент, который можно запускать локально и который способен отслеживать активность пользователя на экране. С помощью руководства можно научиться самостоятельно размещать Observer на домашнем сервере для ИИ-ассистированного анализа или взаимодействия с содержимым экрана (Источник: Reddit r/LocalLLaMA)

Observer: локально запускаемый ИИ-ассистент для мониторинга экрана

VantaAI: Обмен проектом локального ИИ-ассистента с памятью и эмоциональной логикой: Разработчик поделился своим личным проектом VantaAI, локальным ИИ-ассистентом, предназначенным для полностью автономной работы. VantaAI имитирует эмоциональную память, колебания настроения и личную идентичность, обладая долговременной памятью, развивающейся на основе контекста диалога, «картой настроений» для отслеживания эмоциональных изменений и нарративно-ориентированной кластеризацией памяти, где он рассматривает себя как главного героя истории. Проект использует собственный бэкенд на Vulkan для инференса и обучения моделей, а также поддерживает персонализированные ответы и горячую перезагрузку плагинов (Источник: Reddit r/LocalLLaMA)

📚 Обучение

Hamel Husain и Shreya Shankar совместно написали книгу по AI Evals и открыли курс: Hamel Husain и Shreya Shankar совместно написали книгу об оценке ИИ (AI Evals) и открыли соответствующий курс. Первая глава книги и полное оглавление уже доступны для предварительного просмотра, содержание охватывает методы оценки ИИ от теории до практики. На курс также приглашены многие отраслевые эксперты в качестве приглашенных лекторов с целью помочь слушателям повысить свои навыки оценки систем ИИ. Курс получил широкое признание и считается одним из наиболее полных ресурсов по оценке ИИ на данный момент (Источник: HamelHusain, HamelHusain)

Hamel Husain и Shreya Shankar совместно написали книгу по AI Evals и открыли курс

Фреймворк DSPy: предоставление высокоуровневых абстракций программирования для сложных программ на основе языковых моделей: Команда Stanford NLP подчеркивает, что фреймворк DSPy призван стать высокопроизводительным языком для точного взаимодействия с компьютерами. DSPy позволяет разработчикам создавать и оптимизировать сложные многоэтапные программы на основе языковых моделей (Compound AI Systems), поддерживая произвольные программные структуры, такие как рекурсия, обработка исключений, вложенные потоки управления, а не только простые «цепочки» или «потоки». Его оптимизатор нацелен на настройку инструкций, демонстраций и весов в произвольных компьютерных программах, которые могут произвольно вызывать одну или несколько LLM (Источник: stanfordnlp)

Фреймворк DSPy: предоставление высокоуровневых абстракций программирования для сложных программ на основе языковых моделей

Теренс Тао в гостях у Лекса Фридмана: обсуждение математических, физических проблем и будущего ИИ: Знаменитый математик Теренс Тао дал интервью Лексу Фридману, в котором подробно обсудил самые сложные проблемы математики и физики, такие как уравнения Навье-Стокса, проблема P vs NP, а также перспективы искусственного интеллекта в помощи при решении этих проблем. В подкасте также затрагиваются темы ИИ-ассистированного доказательства теорем, языка программирования Lean, AlphaProof от DeepMind и возможности получения ИИ Филдсовской премии (Источник: , arohan)

Теренс Тао в гостях у Лекса Фридмана: обсуждение математических, физических проблем и будущего ИИ

Команда Филлипа Изолы опубликовала бесплатный онлайн-учебник по компьютерному зрению: Филлип Изола и его команда бесплатно опубликовали онлайн свой учебник по компьютерному зрению. Веб-сайт учебника (visionbook.mit.edu) находится в процессе разработки интерактивных компонентов, таких как функция поиска и интеграция с LLM (бета-версия), с целью предоставления учащимся более удобных учебных ресурсов и поощрения пользователей к улучшению содержания учебника через GitHub issues (Источник: jeremyphoward, natolambert)

Hugging Face запускает вводный курс по MCP: Hugging Face в сотрудничестве с Theodora Chu запускает новый вводный курс по MCP (Master Control Program, возможно, относится к управлению AI Agent или мультиагентными системами). Курс направлен на то, чтобы помочь учащимся понять и освоить знания и навыки, связанные с MCP (Источник: huggingface, ClementDelangue)

Исследование по выравниванию DINOv2 с текстом (dino.txt) представлено на CVPR 2025: Исследование под названием dino.txt было представлено на CVPR 2025. Оно посвящено выравниванию замороженных признаков DINOv2 с текстовыми субтитрами для достижения недорогого визуально-языкового выравнивания на уровне изображений и патчей. Это позволяет модели одновременно использовать высококачественные визуальные признаки DINOv2 и возможности визуально-языкового выравнивания в стиле CLIP (Источник: TimDarcet, andersonbcdefg)

Исследование по выравниванию DINOv2 с текстом (dino.txt) представлено на CVPR 2025

💼 Бизнес

ИИ-единорог Mininglamp Technology, связанный с Tencent, стремится к IPO на Гонконгской бирже с оценкой в 12 млрд юаней: Компания по разработке программного обеспечения для интеллектуального анализа данных Mininglamp Technology (ранее «Huizhi Holdings») подала заявку на листинг на Гонконгской фондовой бирже. Компания была основана в 2005 году выпускником математического факультета Пекинского университета У Минхуэем и специализируется на предоставлении предприятиям поддержки в принятии маркетинговых и операционных решений с использованием больших моделей, отраслевых знаний и мультимодальных данных. Ее основные продукты включают Miaozhen Systems, Jinshuju и др., а среди клиентов – 135 компаний из списка Fortune 500, такие как Procter & Gamble, McDonald’s. Tencent является ее крупнейшим акционером с долей 27,33%. После завершения последнего раунда финансирования перед IPO в январе 2024 года оценка компании составила около 12 млрд юаней (Источник: 量子位)

ИИ-единорог Mininglamp Technology, связанный с Tencent, стремится к IPO на Гонконгской бирже с оценкой в 12 млрд юаней

OpenAI и производитель игрушек Mattel заключили стратегическое партнерство для совместной разработки умных ИИ-игрушек: OpenAI объявила о сотрудничестве с всемирно известным производителем игрушек Mattel для совместной разработки умных игрушек, оснащенных технологиями искусственного интеллекта. Цель этого сотрудничества – применение технологий ИИ OpenAI в игровых процессах, соответствующих возрасту детей, что должно революционизировать традиционные способы игры. Mattel владеет такими известными брендами, как кукла Барби, Hot Wheels и др. Стороны обязались строго обеспечивать безопасность и конфиденциальность детей в рамках сотрудничества. Mattel также интегрирует ИИ-инструменты OpenAI (такие как ChatGPT Enterprise) в свои бизнес-операции для усиления разработки продуктов и инноваций (Источник: 36氪)

Стартап в области корпоративного поиска Glean привлек $150 млн на поздней стадии финансирования: Стартап в области корпоративного поиска Glean объявил о привлечении $150 млн на поздней стадии финансирования, что довело его оценку до $7,2 млрд. Glean использует технологии ИИ, чтобы помочь сотрудникам компаний более эффективно находить информацию в сложных внутренних SaaS-приложениях и источниках данных (Источник: dl_weekly)

🌟 Сообщество

Hugging Face проводит глобальный хакатон по робототехнике LeRobot для содействия развитию технологий робототехники с открытым исходным кодом: Hugging Face одновременно проводит хакатон по робототехнике LeRobot в нескольких городах мира (включая Майами, Аахен, Лион, Мюнхен, Бангалор, Лондон, Париж, Лос-Анджелес, район залива Сан-Франциско и др.). Мероприятие направлено на продвижение технологий робототехники с открытым исходным кодом и применения ИИ в робототехнике. Участники используют платформу LeRobot и предоставленное оборудование (например, роботизированные манипуляторы, камеры глубины) для разработки. Мероприятие привлекло большое количество разработчиков, совместно исследующих передовые технологии, такие как обучение роботов, обучение визуально-языковых моделей (VLA), и породило такие творческие проекты, как мини-glambot, автоматический ассистент для биологической лаборатории, робот-чайный мастер (Источник: ClementDelangue, huggingface, ClementDelangue)

Hugging Face проводит глобальный хакатон по робототехнике LeRobot для содействия развитию технологий робототехники с открытым исходным кодом

Обсуждение возможностей и методов использования Claude Code: В социальных сетях обсуждаются возможности Claude Code. Некоторые пользователи считают, что, хотя Claude Code заявляет, что часть его кода сгенерирована им самим, это не равносильно полному «саморазвитию» (self-bootstrapping), проводя аналогию с тем, что код VSCode также в основном написан в VSCode. Подчеркивается, что при использовании таких инструментов, как Claude Code, следует придерживаться принципов малых итераций, проверки кода, управления версиями и т.д., а также обладать способностью руководить проектированием программы и разделением задач. При возникновении проблем с генерируемым кодом следует сначала попытаться заставить его исправить ошибку, а если это не удается – откатиться к предыдущей версии. Другие пользователи отмечают, что Rizo, выпущенный Atlassian, считается конкурентом Claude Code и предоставляет 20 миллионов бесплатных токенов в день (Источник: dotey, dotey, Reddit r/ClaudeAI)

Обсуждение возможностей и методов использования Claude Code

Мнение о влиянии ИИ на рынок труда: усиление дифференциации, выгода для лучших специалистов: BrivaelLp считает, что современные технологии ИИ (например, инструменты генерации кода) могут повысить эффективность обычных разработчиков в 5 раз, а лучших разработчиков – в 100 раз. Это приведет к тому, что компании будут более склонны нанимать опытных топ-специалистов и сокращать спрос на младших сотрудников. ИИ может усилить «эффект Матфея» во всех отраслях: для лучших 10% специалистов наступит золотой век, в то время как средний уровень столкнется с давлением, что соответствует идее «рынка нет для посредственности» (Источник: BrivaelLp)

Обсуждение преимуществ и сценариев применения локальных LLM: Сообщество Reddit обсуждает преимущества запуска больших языковых моделей (LLM) локально. Помимо защиты конфиденциальности и потенциальной экономии средств (хотя затраты на оборудование могут быть значительными), пользователи подчеркивают полный контроль над моделью, возможности кастомизации (например, модификация модели, интеграция RAG), отсутствие ограничений API, возможность использования в автономном режиме и меньшее количество механизмов цензуры. Локальные LLM также предоставляют удобство для обучения и экспериментов, например, некоторые пользователи развертывают локальные визуальные LLM для обработки домашних фотографий или разрабатывают ИИ-ассистентов с памятью и эмоциональной логикой (Источник: Reddit r/LocalLLaMA)

Продолжается дискуссия о том, обладают ли LLM настоящей способностью к рассуждению: В сообществе продолжается дискуссия о том, действительно ли большие языковые модели (LLM) обладают способностью к рассуждению и где проходят границы их возможностей. Франсуа Шолле считает, что способность LLM к рассуждению ограничена «незнакомостью», а не «сложностью». Существует также мнение, что LLM просто выполняют сопоставление с образцом и «вспоминают» на основе огромных объемов обучающих данных, а не мыслят по-настоящему. Эти дискуссии отражают глубокие размышления о сущности современных технологий ИИ и направлениях их будущего развития (Источник: fchollet, francoisfleuret, vikhyatk)

ИИ демонстрирует потенциал в медицинской диагностике, но пользователям следует проявлять осторожность: На Reddit пользователь поделился случаем, когда ChatGPT помог его жене исправить ошибочный диагноз врача, что вызвало дискуссию о применении ИИ в медицинской сфере. Хотя ИИ показывает потенциал в вспомогательной диагностике, особенно в распознавании редких заболеваний и анализе медицинских изображений, сообщество также подчеркивает, что универсальные ИИ, такие как ChatGPT, не являются профессиональными медицинскими инструментами, и их информация может быть неточной или устаревшей. Пользователям следует быть предельно осторожными при принятии медицинских советов, предоставленных ИИ, и обязательно консультироваться с профессиональными врачами. Некоторые пользователи предлагают проверять ограничения ИИ, спрашивая его, является ли он абсолютно надежным (Источник: Reddit r/ChatGPT, gdb)

ИИ демонстрирует потенциал в медицинской диагностике, но пользователям следует проявлять осторожность

Качество генерируемого ИИ контента и предпочтения пользователей вызывают дискуссии: Существует мнение, что некоторые «нежелательные» характеристики больших языковых моделей (LLM), такие как излишняя многословность или подстраивание под пользователя, на самом деле являются результатом предпочтений пользователей. По аналогии с тем, как люди предпочитают высокосахаристые обработанные продукты, компании ИИ, для оптимизации оценок на платформах вроде LMArena, могут приводить модели к выводу, который скорее угождает пользователям, чем стремится к максимальной точности и краткости. HamelHusain также поделился своим руководством по написанию, добавленным в промпты, чтобы бороться с «пустословием» в генерируемом ИИ контенте, подчеркивая необходимость активного удаления избыточной информации (Источник: scaling01, jeremyphoward, HamelHusain)

Качество генерируемого ИИ контента и предпочтения пользователей вызывают дискуссии

Ценность AI Agent в автоматизации конкретных задач становится очевидной: Джерри Лю отмечает, что, хотя универсальные чат-ассистенты отлично справляются с генерацией идей, для выполнения конкретных задач все еще требуется значительная инженерия промптов. Он считает, что создание автоматизированных систем AI Agent, способных отлично выполнять одну конкретную задачу, имеет огромную ценность. Кодируя определенные процессы в рабочие потоки Agent, можно достичь более эффективной и контролируемой автоматизации. LlamaIndex стремится поддерживать такие специализированные рабочие потоки кода, и в будущем может появиться больше UI/UX без кода для создания таких автоматизированных Agent (Источник: jerryjliu0)

Ценность AI Agent в автоматизации конкретных задач становится очевидной

💡 Прочее

Премия молодым исследователям CVPR 2025 присуждена Се Сайнину и Су Хао: На конференции CVPR 2025 Се Сайнин (Xie Saining) и Су Хао (Su Hao) были удостоены премии для молодых исследователей. Эта премия присуждается исследователям на раннем этапе карьеры (не более 7 лет после получения степени PhD) за выдающийся вклад в области компьютерного зрения. Су Хао (аспирант Ли Фэйфэй) участвовал в проекте ImageNet, а Се Сайнин совместно с Хэ Каймином работал над ResNeXt и участвовал в проекте MAE, оба являются важными работами в области компьютерного зрения (Источник: 量子位)

Премия молодым исследователям CVPR 2025 присуждена Се Сайнину и Су Хао

Лазерный принтер Nikon SLM NXG может способствовать революции в производстве: Лазерный принтер Nikon SLM NXG, своим внешним видом поразительно напоминающий оборудование DUV (глубокая ультрафиолетовая литография), рассматривается как потенциальный катализатор революции в генеративном производстве, особенно в определенных областях. Несмотря на то, что Nikon проиграла ASML в гонке DUV, ее технология лазерных источников продолжает развиваться и находить применение в новых производственных сферах (Источник: teortaxesTex)

Лазерный принтер Nikon SLM NXG может способствовать революции в производстве

Значительный прогресс в генерации изображений ИИ в период с 2022 по 2025 год: Пользователь Reddit поделился сравнением изображений, сгенерированных ИИ по одному и тому же промпту (на тему «Рик и Морти») в 2022 и 2025 годах. Изображение 2022 года имело явные дефекты в деталях персонажей (например, руки, носы) и общей согласованности, в то время как изображение 2025 года значительно улучшилось, демонстрируя стремительное развитие технологий генерации изображений ИИ всего за несколько лет. Хотя некоторые пользователи все еще отмечают несовершенство деталей рук персонажей на новом изображении, общий прогресс очевиден (Источник: Reddit r/artificial)

Значительный прогресс в генерации изображений ИИ в период с 2022 по 2025 год