Diário de IA – 2025-08-12(Edição da manhã)

Palavras-chave:Algoritmo de Dijkstra, Meta FAIR Brain & AI, GLM-4.5, Modelo de voz AI, Aprendizagem por reforço, Inteligência incorporada, Programação AI, LIDAR, Algoritmo de caminho mais curto da equipe Duan Ran da Tsinghua, Modelagem cerebral multimodal TRIBE, Modelo de raciocínio visual MoE GLM-4.5V, MiniMax Speech 2.5 voz multilíngue, Pequeno modelo de raciocínio hierárquico HRM

Aqui está a tradução para o português (PT), mantendo a formatação e as especificações solicitadas:

🔥 Destaque

Equipe Duan Ran da Universidade Tsinghua quebra a otimalidade do algoritmo Dijkstra: A equipe Duan Ran da Universidade Tsinghua propôs um novo algoritmo que quebra a otimalidade universal do algoritmo Dijkstra em problemas de caminho mais curto, sendo mais rápido e não dependendo de ordenação. Isso resolve o “obstáculo de ordenação” que persistia há mais de quarenta anos, tendo grande significado teórico e prático. (Fonte: 量子位)

本科必学Dijkstra算法被超越!清华段然团队打破图灵奖得主证明的普遍最优性

Equipe Meta FAIR Brain & AI vence a competição de modelagem cerebral Algonauts 2025: A equipe Brain & AI da Meta FAIR conquistou o primeiro lugar na competição de modelagem cerebral Algonauts 2025 com seu modelo TRIBE (Trimodal Brain Encoder) de 1B parâmetros. Este modelo é a primeira rede neural profunda capaz de prever respostas cerebrais multimodais, multiregionais corticais e individuais, combinando modelos base como Llama 3.2, Wav2Vec2-BERT e V-JEPA 2. (Fonte: AIatMeta)

Sistema de IA pequeno Coral Protocol tem desempenho excelente no benchmark GAIA: O projeto Coral Protocol, através da colaboração de múltiplos sistemas de IA pequenos e especializados, superou em 34% o modelo apoiado pela Microsoft no benchmark GAIA. Isso indica que sistemas de IA pequenos e coordenados, ao lidar com tarefas complexas e do mundo real (como planejamento, busca de informações, análise visual), podem ser mais eficientes e ter vantagens de custo do que um único modelo grande. (Fonte: Reddit r/ArtificialInteligence)

Is smaller, coordinated AI the future? Coral just outperformed a Microsoft-backed model by 34%

🎯 Tendências

GPT-5 e Grok 4 impulsionam a concorrência de modelos gratuitos: A OpenAI lançou o GPT-5 e anunciou sua disponibilidade gratuita para consolidar sua posição no mercado. A xAI rapidamente seguiu o exemplo, disponibilizando a versão básica do Grok 4 gratuitamente para usuários globais e ampliando significativamente os limites de uso, visando expandir sua base de usuários e coletar dados para otimizar o modelo, intensificando a concorrência no mercado de IA. (Fonte: 36氪, op7418)

GPT-5发威,逼得马斯克 “放大招”?

Lançamento da série de modelos GLM-4.5 e avanço na capacidade visual: A Zhipu AI e a ByteDance lançaram o relatório técnico do GLM-4.5, destacando seu paradigma de treinamento multiestágio e seu excelente desempenho em tarefas de inferência, codificação e Agent. Simultaneamente, foi lançado o GLM-4.5V, um modelo MoE multimodal de inferência visual com 106B parâmetros, que alcançou desempenho SOTA em 41 benchmarks, demonstrando sua poderosa capacidade em compreensão de imagem, análise de vídeo e tarefas de GUI. (Fonte: teortaxesTex, OfirPress, scaling01, mervenoyann, karminski3, Reddit r/LocalLLaMA)

teortaxesTex

Ajuste da estratégia de IA da Apple e desafios no mercado de Chatbot: Tim Cook, CEO da Apple, admitiu que a empresa está atrasada no campo da IA e formou uma nova equipe para desenvolver um “motor de respostas” semelhante ao ChatGPT, visando remodelar produtos como Siri e Safari. Essa medida mostra que a Apple está respondendo ativamente às oportunidades e desafios do mercado de Chatbot, buscando recuperar a liderança na era da IA, apesar de enfrentar problemas como divergências internas e perda de talentos. (Fonte: 36氪)

AI“失意者”苹果,到了它的「诺基亚时刻」吗?

MiniMax Speech 2.5 lidera nova era da voz de IA: A MiniMax lançou a nova geração de seu modelo de voz de IA, Speech 2.5, que melhora significativamente a expressividade multilíngue, a precisão da replicação de timbre e a cobertura de idiomas (40 idiomas), tornando-o viável para implementação em larga escala em experiências imersivas interculturais e multilíngues. Essa tecnologia está impulsionando a voz de IA de uma função auxiliar para uma infraestrutura central na interação humano-máquina e na produção de conteúdo. (Fonte: 36氪)

被低估的AI语音,AI商业化的下一张船票已来

Avaliação de modelos de IA migra para benchmarks gamificados: O Google lançou a plataforma Kaggle Game Arena, que avalia o nível real de raciocínio complexo e capacidade de decisão de modelos de IA por meio de jogos de estratégia, em vez de pontuações tradicionais. Essa iniciativa visa resolver as limitações dos benchmarks existentes, que são facilmente “manipulados”, e impulsionar a avaliação da inteligência artificial para uma direção mais dinâmica e prática. (Fonte: 36氪)

AI跑分越来越没意义,谷歌说不如让AI一起玩游戏

Pequeno modelo de 27M, Hierarchical Reasoning Model (HRM), supera modelos grandes: A equipe do ex-aluno da Tsinghua, Wang Guan, lançou o HRM, que imita o mecanismo de processamento hierárquico do cérebro. Com apenas 27M parâmetros e 1000 amostras de treinamento, ele teve um desempenho excelente em Sudoku extremo, labirintos complexos e testes ARC-AGI, atingindo uma precisão de 40,3%, superando o o3-mini-high e o Claude 3.7, que possuem escalas de parâmetros maiores, e desafiando a arquitetura Transformer. (Fonte: 量子位)

又是王冠:27M小模型超越o3-mini!拒绝马斯克的00后果然不同

A era do GPT de proteínas chegou: O Instituto de Indústria Inteligente da Universidade Tsinghua e o Laboratório de Inteligência Artificial de Xangai lançaram conjuntamente o AMix-1, construindo pela primeira vez um modelo base de proteínas usando métodos sistemáticos como Scaling Law e Emergent Ability, alcançando inteligência geral de proteínas. A validação por experimentos em laboratório mostrou que a variante de proteína otimizada aumentou a atividade em 50 vezes, trazendo uma revolução para o design de proteínas. (Fonte: 量子位)

蛋白质基座的GPT时代来了?!

🧰 Ferramentas

Sistema de inferência de rede Buttercup: A Trail of Bits desenvolveu o sistema de inferência de rede Buttercup para o DARPA AIxCC, que utiliza fuzzing assistido por AI/ML para descobrir e corrigir vulnerabilidades em código-fonte aberto. O sistema inclui componentes como coordenador, gerador de sementes, fuzzer, modelo de programa e gerador de patches, suportando bases de código C/Java, e visa automatizar o processo de correção de vulnerabilidades de software. (Fonte: GitHub Trending)

trailofbits/buttercup - GitHub Trending (all/daily)

Plugin de busca de código Claude Context: A Zilliztech lançou o Claude Context como código aberto, um plugin projetado para o Claude Code que visa resolver o problema de limitação de contexto em grandes bases de código. Ele armazena e pesquisa código relevante de forma eficiente através do MCP, suporta busca semântica de código e indexação incremental, melhorando significativamente a capacidade da IA na compreensão e depuração de código. (Fonte: Reddit r/ClaudeAI)

Use entire codebase as Claude's context

Construtor visual de orquestração de LLM multi-Agent (TFrameX + Agent Builder): A TesslateAI lançou o TFrameX e o Agent Builder como código aberto, um construtor visual de arrastar e soltar para orquestração de sistemas LLM multi-Agent. A ferramenta suporta hierarquia de Agent, aninhamento de padrões e registro dinâmico de código, oferecendo uma solução totalmente local e com licença MIT, visando simplificar o desenvolvimento e gerenciamento de sistemas de Agent complexos. (Fonte: Reddit r/LocalLLaMA)

Plugin Ollama Excel e aceleração de GPU VulkanIlm: Um usuário desenvolveu um plugin para Excel que conecta o Ollama ao Microsoft Excel, permitindo o processamento de dados dentro do Excel e suportando instruções de sistema e parâmetros de modelo personalizados. Simultaneamente, o projeto VulkanIlm acelera a inferência local de LLM em GPUs antigas usando Vulkan (sem necessidade de CUDA), aumentando significativamente a velocidade de inferência e reduzindo a barreira de hardware para executar LLMs localmente. (Fonte: Reddit r/LocalLLaMA, Reddit r/MachineLearning)

I built Excel Add-in for Ollama

Detectores de zero-shot LLMDet e MM GroundingDINO: A Hugging Face integrou dois novos detectores de zero-shot, LLMDet e MM GroundingDINO. Esses modelos são capazes de realizar detecção de zero-shot, ou seja, detectar qualquer objeto sem treinamento específico, expandindo enormemente o escopo de aplicação da IA em reconhecimento e compreensão de imagens, e oferecem um aplicativo para comparar a inferência e a latência do modelo. (Fonte: mervenoyann)

mervenoyann

Damo Academy lança “três grandes” de IA incorporada como código aberto: A Damo Academy da Alibaba lançou como código aberto o modelo VLA RynnVLA-001-7B, o modelo de compreensão de mundo RynnEC e o protocolo de contexto de robô RynnRCP, visando promover a compatibilidade e adaptação de todo o processo de desenvolvimento de IA incorporada. Esses “três grandes” podem conectar o fluxo de trabalho completo, desde a coleta de dados do sensor, inferência do modelo até a execução de ações do robô, ajudando os usuários a se adaptarem facilmente aos seus próprios cenários. (Fonte: 量子位)

达摩院开源具身智能“三大件”,机器人上下文协议首次开源

Aplicações de Qwen-Image e Qwen3-Coder em geração de imagens e codificação: O Qwen-Image se destaca em seguir instruções complexas (como gerar “ovo frito com gema azul”) e na geração de imagens SVG. Simultaneamente, o Qwen3-Coder também demonstra forte capacidade em geração de código e comportamento de Agent, mas o feedback dos usuários indica que sua interatividade ainda precisa ser aprimorada, sugerindo que ele ainda requer otimização em cenários específicos. (Fonte: multimodalart, Alibaba_Qwen, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA)

multimodalart

📚 Aprendizagem

Aplicação de Aprendizagem por Reforço na otimização de AI Agent e LLM: A OpenPipe lançou o framework de aprendizagem por reforço de código aberto MCP·RL, permitindo que Agents descubram ferramentas automaticamente, gerem tarefas e aprendam estratégias de chamada ótimas através de feedback em loop fechado. Simultaneamente, a ByteDance e a equipe MAP propuseram o framework FR3E, que melhora o desempenho de LLMs na aprendizagem por reforço através de um mecanismo de exploração estruturada, resolvendo o problema de “exploração insuficiente” e alcançando melhorias de desempenho em tarefas de raciocínio complexas. (Fonte: 量子位, 量子位)

强化学习+MCP=王炸?开源框架教AI在MCP中玩转工具解决任务,实测效果超越GPT!

Método de adaptação sem rótulos para modelos Visão-Linguagem (VLM): O artigo “Adapting Vision-Language Models Without Labels” (Adaptando Modelos Visão-Linguagem Sem Rótulos) revisa métodos de adaptação de VLM sem rótulos, propondo uma taxonomia baseada na disponibilidade de dados visuais sem rótulos. Ele analisa paradigmas como dados independentes, transferência de domínio não supervisionada, adaptação em tempo de teste contextual e adaptação em tempo de teste online, fornecendo orientação sistemática para a otimização do desempenho de VLM em cenários específicos. (Fonte: HuggingFace Daily Papers)

Framework MeshLLM para compreensão e geração de malhas 3D: MeshLLM é um framework inovador que utiliza Large Language Models (LLM) para compreender e gerar gradualmente malhas 3D serializadas em texto. Este método cria um conjunto de dados em larga escala através de uma estratégia de decomposição Primitive-Mesh e aprimora a capacidade do LLM de capturar a topologia e a estrutura espacial da malha, superando o SOTA existente em qualidade de geração de malha e compreensão de forma. (Fonte: HuggingFace Daily Papers)

Otimização de Aprendizagem por Reforço e Inferência de GUI Agent: O framework UI-AGILE melhora significativamente o desempenho de Agents de Interface Gráfica do Usuário (GUI) nas fases de treinamento e inferência, através de um processo aprimorado de fine-tuning supervisionado (SFT) e da proposta do método Decomposed Grounding with Selection. Este método, em particular, aumenta a precisão do grounding em monitores de alta resolução, alcançando desempenho SOTA. (Fonte: HuggingFace Daily Papers)

Modelo GENIE para edição interativa de campos de radiação neural: GENIE é um modelo híbrido que combina a qualidade de renderização fotorrealista de campos de radiação neural (NeRF) com a representação estruturada editável de Gaussian Splatting (GS). Este modelo, através de embeddings de características treináveis e Ray-Traced Gaussian Proximity Search, permite edição em tempo real e localmente consciente, suportando manipulação de cena intuitiva e interação dinâmica. (Fonte: HuggingFace Daily Papers)

Exploração da memória de programa do Agent Memp: A pesquisa Memp visa dotar os Agents de estratégias de memória de programa vitalícias, aprendíveis e atualizáveis. Ao destilar trajetórias de Agent em instruções granulares e abstrações de script de alto nível, e atualizar dinamicamente o conteúdo, Memp melhora a taxa de sucesso e a eficiência do Agent em tarefas semelhantes, oferecendo novas ideias para a construção de Agents mais inteligentes. (Fonte: HuggingFace Daily Papers)

Recursos de aprendizagem de IA e insights da indústria: Foram recomendados 6 livros essenciais sobre IA e Machine Learning, cobrindo tópicos como sistemas, difusão generativa, explicabilidade e deep learning. Simultaneamente, o Qbitai Think Tank publicou um relatório que resume as principais tendências e progressos da IA no primeiro semestre de 2025 em aplicações, modelos, tecnologia e indústria, fornecendo insights abrangentes para estudantes e profissionais de IA. (Fonte: TheTuringPost, 量子位)

TheTuringPost

Treinamento distribuído de LLM e otimização de baixa precisão: DiLoCo é um método de otimização distribuída para treinar LLMs em redes lentas ou geograficamente separadas, reduzindo significativamente o volume de comunicação através de um design de sincronização infrequente. Simultaneamente, a OpenAI adotou o tipo de dado MXFP4 em seus modelos gpt-oss, o que reduziu o custo de inferência em 75%, diminuiu o uso de memória em três quartos e aumentou a velocidade de geração de tokens em 4 vezes, diminuindo drasticamente a barreira de hardware para a execução de modelos grandes. (Fonte: Ar_Douillard, 量子位)

💼 Negócios

WRC 2025 foca no desenvolvimento da indústria e oportunidades de investimento: A WRC 2025 foi inaugurada em Pequim, reunindo mais de 200 empresas e mais de 1500 exposições, com um número recorde de empresas de robôs humanoides. A conferência discutiu aprofundadamente seis grandes temas de investimento, incluindo IA incorporada, hardware principal, percepção multimodal e atualização inteligente de robôs industriais, e demonstrou a ascensão da China no campo da robótica e o apoio político, incluindo os resultados do “Projeto Duplo Cem” de Pequim. (Fonte: 36氪, 量子位, 量子位)

WRC 2025深度观察:我们为你梳理了最值得关注的六大机器人投资主题和潜力公司

Unicórnios de programação de IA enfrentam altos custos e dilemas de lucratividade: Empresas de programação de IA como Windsurf e Cursor, embora com rápido crescimento de receita, geralmente enfrentam margens brutas negativas e custos operacionais extremamente altos, principalmente devido aos altos custos de chamada de Large Language Models. Isso faz com que quanto mais usuários, maiores as perdas, levando as empresas a explorar modelos de desenvolvimento próprio ou serem adquiridas para buscar a reversão do prejuízo, mas a redução de custos e a sensibilidade do usuário ainda são desafios. (Fonte: 量子位)

亏到发疯!AI编程独角兽年入2亿8,结果用户越多亏得越狠

IA incorporada impulsiona crescimento explosivo do mercado de LiDAR: Com a expansão dos cenários de aplicação de robôs de IA incorporada, a demanda por LiDAR como seus “olhos” aumentou drasticamente. A Hesai Technology demonstra forte desempenho no campo de LiDAR para robôs, com um aumento de 649,1% no volume de remessas no primeiro trimestre de 2025 em comparação com o ano anterior, tornando-se um novo motor de crescimento para a empresa. Isso mostra o enorme potencial de mercado do LiDAR no campo da robótica, atraindo um grande número de empresas da cadeia de suprimentos de veículos inteligentes. (Fonte: 量子位)

具身智能汹涌,激光雷达爆单:头部玩家600%年增长,出货超20万台

🌟 Comunidade

Experiência do usuário do GPT-5 gera forte controvérsia: Grande número de usuários expressa decepção com o GPT-5, acreditando que ele é inferior ao GPT-4o em escrita criativa, diálogo multi-turno, empatia emocional, compreensão de contexto e estabilidade, chegando a apresentar alucinações e comportamento “infantil”. Usuários pedem que a OpenAI restaure o 4o ou ofereça escolha de modelo, e enfatizam a importância da IA como um “ambiente cognitivo” em vez de uma ferramenta simples, provocando profunda reflexão sobre o equilíbrio entre a personalização e a praticidade dos modelos de IA. (Fonte: cto_junior, jachiam0, crystalsssup, qtnx_, fabianstelzer, madiator, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ChatGPT, Reddit r/ClaudeAI)

重新体验 GPT-5 后,我想它比 GPT-4o 更需要一场葬礼

Popularização de entrevistas com IA gera insatisfação em candidatos: Com a taxa de desemprego na indústria de TI dos EUA atingindo um novo recorde, a popularização de ferramentas de entrevista com IA provocou forte reação dos candidatos. Eles consideram as entrevistas com IA frias, desumanas, e até envolvem riscos de vazamento de informações pessoais e “marcação oculta”. Alguns candidatos preferem o desemprego a aceitar entrevistas com IA, destacando os desafios éticos e emocionais que a IA traz para o recrutamento. (Fonte: 36氪)

编程“学废”了?普渡毕业却只获烤肉店面试,美国IT失业创新高:AI面试成最大屈辱,网友怒称宁愿失业

Futuro desenvolvimento de AI Agent e o fim do mito do “engenheiro 10x”: A comunidade discute o potencial de AI Agents no desenvolvimento web e na resolução de tarefas complexas, enfatizando a importância da experiência do Agent. Ao mesmo tempo, há quem argumente que, embora as ferramentas de programação de IA possam aumentar a eficiência, elas não resolvem problemas como a compreensão de contexto em grandes bases de código e a falta de padronização, indicando que o “engenheiro 10x de IA” é um mito, e que o valor central do engenheiro ainda reside na leitura e no pensamento. (Fonte: _akhaliq, fabianstelzer, TheTuringPost, 量子位)

AI不会让你成为10倍工程师

Viés de modelos de IA e preocupações com a confiabilidade da informação: O chatbot de IA do Truth Social foi acusado de ter um forte viés em relação à mídia conservadora, levantando preocupações sobre a confiabilidade das fontes de informação e o potencial viés dos modelos de IA. Além disso, a comunidade também discutiu o fenômeno dos “GPTisms” em conteúdo gerado por IA, onde o conteúdo tende a ser formulado e carece de originalidade. (Fonte: Reddit r/artificial, qtnx_)

Truth Social’s New AI Chatbot Is Donald Trump’s Media Diet Incarnate

Discussão sobre IA, emoções humanas e consciência: Sam Altman e membros da comunidade discutem profundamente o forte apego dos usuários aos modelos de IA, considerando-os como “terapeutas” ou “coaches de vida”, e exploram o papel da IA na saúde mental. Ao mesmo tempo, discussões filosóficas sobre o Teste de Turing para a consciência da IA e se a IA precisa de consciência para superar o desempenho humano continuam. (Fonte: jachiam0, Plinz)

Plinz

Desenvolvimento de carreira e ansiedade de engenheiros na era da IA: Diante do rápido desenvolvimento da IA, engenheiros discutem como lidar com a ansiedade profissional e o impacto das ferramentas de IA no fluxo de trabalho de programação. Alguns acreditam que a IA é uma ferramenta para aumentar a produtividade, enquanto outros enfatizam suas limitações e pedem que os engenheiros se concentrem em guiar a IA em vez de serem substituídos por ela. (Fonte: pmddomingos, finbarrtimbers, Reddit r/LocalLLaMA, Reddit r/LocalLLaMA, Reddit r/artificial)

💡 Outros

Ajustes nos projetos FSD e Dojo da Tesla: Elon Musk anunciou que o FSD 14 será lançado em 6 semanas, com um aumento de 10 vezes no número de parâmetros, e admitiu que o projeto de supercomputador Dojo chegou a um beco sem saída. No futuro, o Dojo 3 poderá existir na forma de uma placa-mãe integrada com o chip AI6, com o foco mudando para a plataforma AI6, indicando um ajuste significativo na estratégia de hardware de IA e direção autônoma da Tesla. (Fonte: 36氪)

马斯克的大招来了,智驾智舱全部升级,承认超算芯片走进死胡同

Potencial de aplicação de modelos de IA na área da saúde: Modelos de IA estão sendo explorados para monitorar dados de eletroencefalograma (EEG) em Unidades de Terapia Intensiva (UTI) para ajudar os médicos a entender melhor o estado dos pacientes. Além disso, ferramentas como Elicit AI também são recomendadas para auxiliar pesquisadores clínicos, indicando um vasto potencial de aplicação da IA na área da saúde. (Fonte: Reddit r/artificial, elicitorg)

An AI Model for the Brain Is Coming to the ICU

Impacto da IA na socioeconomia: A IA está criando novos bilionários em um ritmo recorde, destacando seu enorme potencial na criação de riqueza. Ao mesmo tempo, há discussões que apontam que o valor dos serviços de assinatura de IA deve ser avaliado pela economia de tempo e aumento de eficiência, e não apenas pelo custo, refletindo o profundo impacto da IA na estrutura econômica e nas concepções de consumo individual. (Fonte: Reddit r/artificial, dotey)