Ключевые слова:DeepSomatic, PaddleOCR-VL, Blackwell чип, RTFM, Гипотеза о деградации LLM, AI агент, Мультимодальный ИИ, Исследование рака Google DeepSomatic, Анализ документов Baidu PaddleOCR-VL, Производство чипов NVIDIA Blackwell, Модель мира Ли Фэйфэй RTFM, Влияние качества данных LLM на рассуждение

🔥 В центре внимания

Модель Google DeepSomatic ускоряет исследования рака : Google Research в сотрудничестве с UCSC Genomics и Children’s Mercy выпустила модель машинного обучения DeepSomatic, способную точно идентифицировать сложные генетические вариации в раковых клетках, значительно повышая эффективность исследований рака и делая ключевой шаг к более точным методам лечения. Эта модель является одним из результатов десятилетнего развития AI в геномике Google, демонстрируя глубокое влияние AI в области медицины. (Источник: Google Research, Reddit r/artificial)

Baidu PaddleOCR-VL захватывает SOTA в области OCR : Baidu выпустила легкую мультимодальную модель для анализа документов PaddleOCR-VL с всего 0.9B параметров, которая заняла первое место в мире в рейтинге OmniDocBench V1.5 с результатом 92.6 балла и полностью обновила SOTA по четырем основным возможностям: распознавание текста, распознавание формул, понимание таблиц и порядок чтения. Модель использует инновационную двухэтапную архитектуру для точного понимания сложных структур документов, рукописного текста и многоязычных данных, обладает высокой скоростью вывода, доказывая потенциал малых моделей превосходить крупные универсальные модели в специфических задачах. (Источник: 量子位)

Самая мощная в мире модель OCR всего 0.9B! Модель, производная от Baidu Wenxin, только что превзошла 4 SOTA

NVIDIA и TSMC сотрудничают, представлена первая произведенная в США пластина чипов Blackwell : NVIDIA и TSMC впервые продемонстрировали первую произведенную в США пластину чипов Blackwell на заводе в Аризоне. Это знаковое событие означает ключевой шаг в переносе производства чипов AI в США, направленный на укрепление лидерства Америки в области AI и закладывающий основу для производства архитектуры Blackwell и ее последующих версий (таких как Blackwell Ultra и Rubin) для удовлетворения будущих потребностей в обучении и выводе больших моделей. (Источник: nvidia, 36氪)

NVIDIA и TSMC сотрудничают, представлена первая произведенная в США пластина чипов Blackwell

Команда Фэй-Фэй Ли выпустила генеративную модель мира реального времени RTFM : Команда World Labs “крестной матери AI” Фэй-Фэй Ли выпустила новую генеративную модель мира реального времени RTFM (Real-Time Frame Model). Модель способна работать на одном H100 GPU, подчеркивая эффективность, масштабируемость и долговечность, может непрерывно работать и поддерживать 3D-согласованность, что представляет собой важный прорыв в моделях 3D-мира реального времени и постоянного действия, и, как ожидается, будет способствовать применению AI в понимании сложных сред и взаимодействии. (Источник: 9点1氪)

🎯 Тенденции

“Гипотеза мозговой гнили” LLM раскрывает влияние качества данных на когнитивные способности модели : Новейшее исследование предлагает “гипотезу мозговой гнили LLM”, указывая, что постоянный контакт LLM с низкокачественным веб-текстом может привести к снижению когнитивных способностей, влияя на рассуждения, понимание длинного контекста и безопасность, а также потенциально усугубляя “темные черты личности”. Исследование выявило, что “скачки мысли” являются основным режимом ошибок, и повреждение трудно полностью обратить, подчеркивая, что курирование данных является важной проблемой безопасности при обучении. (Источник: omarsar0, HuggingFace Daily Papers)

LLMs Can Get "Brain Rot"!

Значительный прогресс в производительности AI-оборудования и технологиях оптимизации LLM : NVIDIA Blackwell RTX Pro 6000 продемонстрировала выдающуюся производительность вывода модели 120B в бенчмарке vLLM, а llama.cpp увеличила скорость обработки модели GLM 4.6 IQ4_XS в 4 раза благодаря оптимизации RPC. Cerebras выпустила технологию REAP для эффективного сжатия моделей MoE, технологию SuperOffload, увеличивающую пропускную способность обучения LLM в 4 раза, и Elastic-Cache, ускоряющую декодирование диффузионных LLM на 45%. Кроме того, оптимизатор Schedulefree AdamW и новые модели и функции распределенной оценки в библиотеке mlx-lm, а также потенциал SSM в обобщении длинного контекста, демонстрируют разнообразные пути повышения эффективности AI. (Источник: Teknium1, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, dl_weekly, omarsar0, aaron_defazio, awnihannun, gallabytes)

RTX Pro 6000 Blackwell vLLM Benchmark: 120B Model Performance Analysis

Робототехника продолжает инновации, двигаясь к более интеллектуальному восприятию и управлению : Робототехника развивается в направлении “понимания, а не просто подчинения” человеческим намерениям, появляются механические долота, способные создавать произведения искусства, гуманоидные роботы, демонстрирующие китайскую каллиграфию, интеллектуальные роевые роботы, сферические полицейские роботы и трехногие роботы. Шанхайский университет Цзяотун запустил проект U-Arm с открытым исходным кодом, который за 400 юаней обеспечивает универсальное удаленное управление 95% основных роботизированных манипуляторов. Промышленные роботы улучшают свое понимание реального мира и возможности управления с помощью интеллектуальной платформы визуальных объектов. Гуманоидная рука MIT ORCA v1 также продемонстрировала свой изящный дизайн. (Источник: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, teortaxesTex, janusch_patas, 量子位)

Удаленное управление 95% роботизированных манипуляторов за 400 юаней! Шанхайский университет Цзяотун запускает проект U-Arm с открытым исходным кодом, создавая универсальный и недорогой интерфейс для удаленного управления человеком и машиной

AI достигает прорывов в научных исследованиях и создании контента : DeepMind в сотрудничестве с Commonwealth Fusion Systems использует симулятор TORAX AI для управления плазмой, ускоряя процесс коммерческого ядерного синтеза. SR-Scientist превращает LLM в автономного “AI-ученого”, который с помощью анализа данных и тестирования уравнений, управляемого инструментами, улучшает возможности открытия уравнений. Suno V5 подталкивает создание AI-музыки к критической точке, а LongCat-Audio-Codec оптимизирует голосовые LLM. RunwayML APPS реализовал редактирование видео с “путешествием во времени”, а Simulon может генерировать реалистичное VFX-освещение. (Источник: ClementDelangue, Reddit r/artificial, TheTuringPost, op7418, huggingface, c_valenzuelab, timsoret)

Музыка AI достигла критической точки с Suno V5, можно даже сказать, что музыкальная индустрия достигла критической точки в этот момент.

Новая парадигма для вывода LLM: достижение обобщения вывода без RL/обучения : Новейшее исследование показало, что путем улучшения стратегий сэмплирования во время тестирования базовые языковые модели могут достигать производительности вывода, сравнимой или даже превосходящей GRPO, за один проход вывода, без необходимости в обучении с подкреплением, обучении или валидаторе, при этом избегая потери разнообразия генерации. Кроме того, фреймворк Recursive Language Models (RLM), позволяя LLM рекурсивно вызывать себя для обработки сверхдлинного контекста, расширяет возможности обработки контекста до 10M+ tokens, сохраняя при этом производительность, и повышает точность вариантов модели GPT-5-mini. (Источник: dearmadisonblue, dilipkay, karminski3)

Бесконечный контекст большой модели реализован?

Управление контекстом AI Agent и повышение эффективности : Технология Context-Folding наделяет Agent способностью активно управлять контекстом, путем ветвления и сжатия контекста, демонстрируя лучшую производительность, чем ReAct, в задачах поиска и SWE, при этом использование контекста сокращается в 10 раз. Этот прогресс решает проблему узкого места эффективности LLM при обработке длинного контекста. (Источник: ethanCaballero)

Google Gemini API интегрирован с Maps, Microsoft Windows 11 глубоко интегрирует AI : Google объявила, что Gemini API теперь интегрирован с Google Maps, позволяя разработчикам использовать возможности вывода модели Gemini в сочетании с данными реального мира Google Maps для создания новых геопространственных AI-приложений. Microsoft позиционирует Windows 11 как устройство, ориентированное на AI, глубоко интегрируя голосовое управление Copilot, чтобы управлять задачами без мыши и клавиатуры, улучшая пользовательский опыт. (Источник: osanseviero, Reddit r/artificial, 9点1氪)

Главные новости технологий сегодня:

Активное развитие мультимодальных AI-моделей и сообщества открытого исходного кода : HuggingFace сообщает о миллионе новых AI-репозиториев с открытым исходным кодом за 90 дней, NVIDIA стала крупнейшим контрибьютором AI-моделей с открытым исходным кодом. Китайские лаборатории, такие как Alibaba Qwen, DeepSeek и другие, быстро развиваются. LongCat-Audio-Codec выпущен как решение для оптимизации аудиокодирования голосовых LLM с открытым исходным кодом. Набор данных HoneyBee улучшает визуально-языковое рассуждение, исследователи MIT-IBM повысили точность визуально-языковых моделей для персонализированного определения местоположения объектов на 12-21%. (Источник: huggingface, huggingface, Teknium1, Reddit r/artificial)

Некоторые интересные выводы об открытых моделях/репозиториях

Углубление применения AI в отраслях: медицина, кибербезопасность, проверка контрактов и финансы : Применение AI углубляется в нескольких отраслях. Система стетоскопа на базе AI может классифицировать здоровые сердечные тоны и рано выявлять заболевания с точностью более 95%. Microsoft выпустила набор бенчмарков с открытым исходным кодом для оценки способности AI Agent к декомпозиции целей, использованию инструментов и синтезу доказательств в задачах кибербезопасности. Ожидается, что в течение следующих пяти лет крупные организации повсеместно внедрят AI для проверки контрактов. AI также играет ключевую роль в управлении ростом доходов в финансовом секторе. (Источник: Reddit r/artificial, Ronald_vanLoon, scottastevenson, Ronald_vanLoon)

AI Agent переопределяет наблюдаемость и корпоративные приложения : Agentic AI не только ускоряет реагирование на инциденты, но и улучшает обнаружение, мониторинг и исправление на протяжении всего жизненного цикла наблюдаемости, превращая традиционное устранение неполадок в трансформацию жизненного цикла. Комбинация Cisco и Splunk обеспечивает сквозную видимость, способствуя цифровой трансформации. Быстрое внедрение AI Agent в предприятиях превзошло ожидания, став инфраструктурой для координации задач, предоставления персонализированного опыта и решения сложных проблем. (Источник: Ronald_vanLoon, Ronald_vanLoon)

🧰 Инструменты

Обновление Claude Code улучшает опыт разработки : Claude Code представляет модель Haiku 4.5, субагент Explore и функцию интерактивных вопросов и ответов, повышая эффективность исследования и отладки кода. Теперь пользователи могут уточнять инструкции в режиме вопросов и ответов и использовать субагент Explore для эффективного поиска по кодовой базе, а также поддерживаются Claude Skills, позволяющие настраивать поведение Agent через markdown-файлы, что повышает персонализацию и автоматизацию рабочих процессов. (Источник: tokenbender, Reddit r/ClaudeAI, Reddit r/ClaudeAI, omarsar0, jerryjliu0, skirano, QuixiAI)

Claude Code задает уточняющие вопросы с новым пользовательским интерфейсом

LlamaIndex запускает конструктор Agent и отладчик рабочих процессов : LlamaIndex выпустила LlamaAgents, конструктор Agent с приоритетом кода, который поддерживает кодирование и развертывание сложных рабочих процессов Agent. Одновременно был представлен визуальный отладчик рабочих процессов, позволяющий пользователям просматривать, отлаживать и сравнивать выполнение Agent в реальном времени, что значительно повышает эффективность разработки и обслуживания Agent, особенно для работы со знаниями, связанными со сложными документами. (Источник: jerryjliu0, jerryjliu0)

Perplexity расширяет функции AI-помощника, включая электронную почту и финансовый анализ : Функции AI-помощника Perplexity продолжают расширяться, представлен помощник по электронной почте, который может автоматически составлять письма и выполнять более 500 операций с приложениями, а также финансовый модуль, который может отслеживать инсайдерские сделки и сделки политиков. Эти инструменты призваны автоматизировать повседневные задачи и предоставлять профессиональную информацию с помощью AI, значительно повышая производительность пользователя. (Источник: AravSrinivas, AravSrinivas, AravSrinivas)

Perplexity Email Assistant довольно крут.

LangChain выпускает LangGraph для содействия разработке Agent производственного уровня : LangChain представила фреймворк LangGraph, призванный предоставить правильный уровень абстракции для AI Agent производственного уровня. Фреймворк фокусируется на контроле и устойчивости, предоставляя основные функции для поддержки масштабируемого развертывания Agent. Кроме того, LangChain в сочетании с Codex CLI позволяет быстро создавать многосессионные, контекстно-ориентированные чат-боты с поддержкой форматированного текста, не требуя написания кода. (Источник: hwchase17, hwchase17)

HuggingChat Omni интегрирует более сотни моделей, реализуя автоматический выбор модели : HuggingFace выпустила HuggingChat Omni, который с помощью интеллектуальной маршрутизации автоматически выбирает лучшую модель для запросов пользователя, интегрируя более 100 моделей с открытым исходным кодом, включая gpt-oss, deepseek, qwen и другие. Платформа призвана предоставлять наиболее оптимизированные, экономичные и быстрые ответы, а также планирует расшириться до различных модальностей, таких как изображения, аудио, видео, значительно повышая эффективность и гибкость взаимодействия с AI. (Источник: ClementDelangue, huggingface, yupp_ai)

Главный прорыв GPT-5 заключался в маршрутизации ваших сообщений между несколькими различными моделями, чтобы дать вам наилучший, самый дешевый и быстрый ответ.

Moondream AI предоставляет эффективные VLM-услуги, поддерживает локальное развертывание : Moondream Cloud запущен как хостинговый сервис визуального AI, заявляя, что он быстрее, дешевле и умнее, чем Gemini 2.5 Flash и GPT-5 Mini, и предлагает бесплатные ежемесячные кредиты и модель оплаты по мере использования. Эта модель VLM отлично справляется с подписями к изображениям, поддерживает локальное развертывание, предоставляя пользователям экономичное решение для визуально-языковой обработки. (Источник: vikhyatk, vikhyatk, vikhyatk)

Moondream Cloud здесь.

LlamaBarn упрощает локальное развертывание AI на Mac, Yupp.ai предлагает платформу для сравнения AI : Проект LlamaBarn предлагает решение в один клик, позволяющее пользователям MacBook или MacMini легко загружать и запускать большие языковые модели без сложной настройки, а также предоставляет веб-чат и API-интерфейсы. Yupp.ai предлагает бесплатную платформу для сравнения AI, интегрирующую более 800 AI-моделей, помогая пользователям глубоко понимать и сравнивать производительность различных AI, а также поддерживает создание AI-видео и генерацию PFP. (Источник: karminski3, yupp_ai, yupp_ai)

Хотите превратить свой MacBook или MacMini в сервер AI?

Scorecard повышает безопасность AI Agent, появляются инструменты управления проектами на базе AI : Компания Scorecard переносит логику безопасности автономных автомобилей в область AI Agent, предотвращая “галлюцинации” и небезопасное поведение корпоративного AI посредством тестирования в песочнице и оценки, особенно обеспечивая надежность в регулируемых отраслях. Одновременно разрабатываются CLI-инструменты для управления проектами на базе AI, которые, как ожидается, упростят отслеживание и управление проектами с помощью “vibe coding”. (Источник: dariusemrani, TheEthanDing)

Это, вероятно, лучший исход.

📚 Обучение

Образование и учебные ресурсы по AI: баланс фундаментальной теории и передовых исследований : В области AI-образования подчеркивается, что прочные основы теории вероятностей, линейной алгебры и классического машинного обучения имеют решающее значение для понимания современного AI. Учебные ресурсы включают руководства по началу работы с AI Agent, еженедельные отчеты DSPy, принципы работы Transformer, учебники по обучению роботов и многое другое. В области исследований были опубликованы передовые статьи по обобщению Transformer OOD, законам масштабирования с учетом контекста, дискриминативной проверке, GroundedPRM, а также бенчмарки FML-bench и LiveResearchBench для оценки исследовательских Agent ML. Улучшен опыт работы с документацией LangChain, а также поделен опыт хостинга Claude Agent SDK. (Источник: dilipkay, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, jeremyphoward, ClementDelangue, bookwormengr, lateinteraction, charles_irl, SchmidhuberAI, TheTuringPost, Reddit r/deeplearning, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, HuggingFace Daily Papers, sbmaruf, sbmaruf, gneubig)

18 месяцев назад @karpathy поставил задачу: "Можете ли вы взять мое 2-часовое 13-минутное видео о токенизаторе и перевести [into] a book chapter".

Последние достижения в бенчмарках для AI Agent и ML-исследований : FML-bench, как бенчмарк для оценки автономных исследовательских Agent машинного обучения, подчеркивает важность широты исследования для результатов. LiveResearchBench — это ориентированный на пользователя бенчмарк для глубоких исследований, включающий 100 экспертных задач, предназначенный для строгой оценки способности Agent искать и синтезировать информацию из сотен веб-источников в реальном времени. Бенчмарк Hard2Verify фокусируется на измерении способности валидаторов предоставлять пошаговые метки корректности в открытых, передовых математических задачах. (Источник: HuggingFace Daily Papers, HuggingFace Daily Papers, sbmaruf, sbmaruf)

LiveResearchBench: Живой бенчмарк для глубоких исследований, ориентированных на пользователя, в дикой природе

Шесть новых подходов, трансформирующих мышление модели : Новейшее исследование предлагает шесть новых подходов, трансформирующих мышление модели, включая Tiny Recursive Models (TRM), LaDIR (Latent Diffusion for Iterative Reasoning), ETD (encode-think-decode), Thinking on the fly, The Markovian Thinker и ToTAL (Thought Template Augmented LCLMs). Эти методы направлены на повышение способности модели к рассуждению, эффективности и способности обрабатывать сложные задачи, продвигая AI-модели к более высоким когнитивным функциям. (Источник: TheTuringPost)

6 новых подходов, трансформирующих мышление модели:

💼 Бизнес

AI ускоряет проникновение в бизнес, финансовые директора становятся новыми чемпионами внедрения AI : Применение AI на предприятиях ускоряется, финансовые директора становятся ключевыми фигурами, продвигающими внедрение AI, корпоративное применение AI Agent превосходит ожидания и играет стратегическую роль в управлении ростом доходов. Рыночная капитализация NVIDIA превысила 4 триллиона долларов, что отражает сильный рост рынка AI-оборудования. Основатель HeyGen поделился методологией управления и продуктовой стратегией команды AI-продуктов, подчеркивая скорость и адаптацию к итерациям моделей. (Источник: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, SchmidhuberAI, dotey)

Почему финансовые директора — новые чемпионы внедрения #AI

Облачные AI-сервисы Oracle показывают значительную валовую прибыль, AI-акселератор Microsoft привлекает внимание : Oracle объявила, что валовая прибыль ее облачных AI-сервисов может достигать 35%, и уже подписала новые контракты на поставку облачной инфраструктуры на 65 миллиардов долларов, что демонстрирует ее сильные позиции на рынке облачных AI-сервисов. Программа AI-акселератора Microsoft также привлекает внимание, и хотя возможности ее чипа Maia на 18A-технологии изменились, компания по-прежнему стремится к развитию AI-оборудования. (Источник: 9点1氪, dylan522p)

AI-стартапы активно привлекают финансирование, перспективы открытой экосистемы и коммерциализации MCP : General Intuition завершила посевной раунд финансирования в размере 134 миллионов долларов, направленный на обучение Agent, понимающих 3D-среды. HuggingFace назначила нового руководителя по приложениям для продвижения экосистемы моделей с открытым исходным кодом. Исследуются перспективы коммерциализации протокола MCP, Stripe обсуждает с разработчиками, как взимать плату за использование MCP. LangChain скоро проведет Launch Week, чтобы продемонстрировать прогресс в продуктах Agent. (Источник: Reddit r/artificial, francoisfleuret, huggingface, fabianstelzer, LangChainAI, johannes_hage)

🌟 Сообщество

Развитие AI Agent вызывает горячие дискуссии: от фантазий к реализации, сосуществование практичности и ограничений : Ожидания сообщества от AI Agent смещаются от “всемогущей фантазии” к “построению системы”, подчеркивая его роль как катализатора бизнес-процессов.