Palavras-chave:Infraestrutura de IA, IA soberana, Agente, Modelo de bolo de cinco camadas, Arquitetura Engram, Compressor cognitivo de Agente
🔥 Destaque
Teoria do “Bolo de Cinco Camadas” da Infraestrutura de IA por Jensen Huang da NVIDIA no Fórum de Davos: O CEO da NVIDIA, Jensen Huang, apresentou no Fórum Econômico Mundial de 2026 o modelo de “Bolo de Cinco Camadas” para a indústria de IA: energia, chips, serviços em nuvem, modelos e aplicações. Ele destacou que os atuais investimentos de centenas de bilhões de dólares são apenas o início, prevendo uma onda de infraestrutura na casa dos trilhões no futuro. Huang enfatizou que a IA deve ser tratada como infraestrutura nacional (IA soberana) e usou o exemplo do aumento no número de radiologistas para argumentar que a IA automatiza “tarefas” em vez de substituir “propósitos”, criando novas demandas ao aumentar a eficiência. Essa perspectiva oferece uma nova visão sobre a ansiedade global em relação ao desemprego causado pela IA, posicionando-a como um amplificador de produtividade, não um adversário humano (Fonte: NVIDIA)

Anthropic lança a “Constituição Claude”: Definindo Personalidade e Valores Independentes para IA: A Anthropic divulgou oficialmente a nova Constituição do Claude, detalhando sua visão comportamental e valores centrais. O documento não apenas orienta o processo de treinamento, mas também busca moldar o Claude como uma “entidade mundial” distinta das concepções tradicionais de ficção científica. A constituição enfatiza a independência do Claude além dos dados de treinamento, incluindo até obrigações que a Anthropic deve cumprir em relação à IA. A comunidade reagiu intensamente, interpretando isso como uma transição da IA de ferramenta para entidade com “personalidade digital”, enquanto levanta debates profundos sobre como equilibrar restrições e autonomia da IA (Fonte: Anthropic)

DeepSeek apresenta a arquitetura Engram: Superando Limitações de Computação com DRAM em vez de HBM: Um relatório da Morgan Stanley elogiou o módulo Engram (Engrama) proposto em um artigo recente da DeepSeek. A arquitetura separa padrões estáticos de inferência dinâmica através de um mecanismo de “memória condicional”, permitindo que o modelo descarregue grande parte do conhecimento na memória de sistema (DRAM) de baixo custo, consultando apenas quando necessário. Esse avanço alivia o gargalo da cara memória de alta largura de banda (HBM), provando que, em ambientes com limitação de computação, a inovação algorítmica pode alcançar “mais com menos”. A Morgan Stanley prevê que o DeepSeek V4, utilizando essa arquitetura, poderá ser executado em GPUs de consumo (como a RTX 5090), reescrevendo as regras de escalabilidade da IA (Fonte: Morgan Stanley)

Projeto “Macrohard” da xAI revelado: Computadores de bordo da Tesla podem se tornar base para milhões de Agents: O ex-engenheiro da xAI Sulaiman Ghori revelou em um podcast detalhes do projeto interno codinome “Macrohard”, que visa construir um “simulador humano” para automatizar tarefas de colarinho branco, operando em velocidade 8x maior que a humana. A revelação mais impactante foi o plano da xAI de utilizar a capacidade de computação de milhões de carros Tesla ociosos (plataforma HW4) para implantar esses Agents, evitando ciclos tradicionais de construção de data centers. Ghori foi demitido por violar políticas de confidencialidade, mas a cultura agressiva e cronogramas radicais que ele descreveu levaram a indústria a reavaliar o potencial competitivo da xAI (Fonte: The Information)

Google e Shopify entram no comércio eletrônico com IA: Transição de busca para transação direta: O Google anunciou o Protocolo de Comércio Universal (UCP), em parceria com Shopify, Walmart e outros, transformando o Gemini em uma plataforma completa de compras. Os usuários podem realizar desde comparação de preços até checkout instantâneo dentro do diálogo, sem precisar sair do app. O Gemini até consegue ligar para lojas físicas para confirmar estoques. A medida é vista como uma resposta contundente ao recurso “checkout instantâneo” do ChatGPT, marcando uma mudança do modelo de anúncios em busca para o “comércio por agentes inteligentes”, com grandes modelos redefinindo o panorama global do varejo (Fonte: Google)

🎯 Tendências
Planos de hardware de IA e atualização “Campos” da Siri da Apple vazados: Fontes revelam que a Apple está desenvolvendo em segredo um dispositivo vestível de IA no formato semelhante ao AirTag, com múltiplas câmeras e sensores, previsto para 2027. Simultaneamente, uma nova Siri, codinome “Campos”, será lançada em setembro, integrando profundamente o modelo Gemini 3 da Google, com capacidade de “percepção de tela” para manipular arquivos e apps diretamente. A Apple busca contra-atacar a OpenAI e a Meta no campo de IA local, com uma meta inicial de produção de 20 milhões de unidades (Fonte: The Information)

Microsoft lança VibeVoice-ASR: Processamento de áudio de uma hora em uma única passagem: A Microsoft disponibilizou no Hugging Face o modelo de reconhecimento de voz VibeVoice-ASR de 9B de parâmetros. O modelo elimina a prática tradicional de dividir o áudio em partes, suportando janelas de 64K tokens para processar 60 minutos de áudio de uma vez, evitando perda de contexto global e confusão na identificação de falantes. Testes mostram desempenho robusto em ambientes complexos (como voz em música) e textos longos (como audiolivros), com precisão média de 91.9%, suportando configuração de palavras-chave para corrigir nomes próprios (Fonte: Microsoft)

Meta apresenta estrutura Dr. Zero: Auto-evolução de Agents sem dados: O Laboratório de Superinteligência da Meta propôs a estrutura Dr. Zero, permitindo que Agents evoluam eficientemente sem dados anotados. O mecanismo “propositor-resolvedor” utiliza motores de busca para explorar e gerar problemas complexos. A técnica HRPO (Otimização de Política Relacional em Grupos com Saltos) agrupa problemas similares para criar benchmarks, evitando amostragem aninhada cara, superando modelos totalmente supervisionados em 14.1% em tarefas complexas de Q&A, oferecendo um novo caminho para a escassez de dados de treinamento (Fonte: Meta)

Indústria adota avaliação de tarefas de longo prazo: Novos benchmarks de cenários reais: O foco de avaliação de IA está mudando de matemática/código para tarefas prolongadas. O APEX-Agents testa a colaboração profissional no Google Workspace; o DSAEval cobre 641 problemas reais de ciência de dados. Testes mostram o GPT-5.2 liderando em eficiência, enquanto o Claude-Sonnet-4.5 tem o melhor desempenho geral. Esses benchmarks refletem um consenso: o que limita os Agents não é mais capacidade de raciocínio, mas consistência lógica e controle de memória em ciclos longos (Fonte: Mercor, DSAEval)
Compressor Cognitivo para Agents (ACC): Controle de memória inspirado na biologia: Pesquisadores propuseram o ACC para resolver o problema de “degradação de contexto” em diálogos multi-turno. O ACC não repete o histórico, mas mantém um “estado cognitivo comprimido” com variáveis-chave como objetivos e relações. Experimentos mostram que o ACC alcança taxas quase zero de alucinação e deriva em fluxos complexos com 50+ turnos, superando o modelo tradicional RAG (Fonte: DAIR.AI)

🧰 Ferramentas
Prefect Horizon: Plataforma de governança para servidores MCP: A Prefect lançou o Horizon para o Model Context Protocol (MCP), resolvendo desafios de implantação corporativa com controle de acesso baseado em funções (RBAC), logs de auditoria e descoberta de ferramentas. O Horizon permite que empresas exponham dados e fluxos de trabalho para Agents de IA com segurança, elevando o MCP de protocolo simples para plataforma de produtividade em escala (Fonte: Prefect)

CopilotKit + LangChain: Solução frontend para Agents profundos: O CopilotKit agora suporta a arquitetura Deep Agents da LangChain, permitindo que desenvolvedores criem UIs interativas para Agents com planejamento avançado em poucas linhas de código. A ferramenta oferece saída em fluxo, personalização de Skills e orquestração de sub-Agents, resolvendo gargalos de UI/UX na construção de apps complexos, acelerando a transformação de Agents como Manus e Claude Code em produtos finais (Fonte: CopilotKit)

Devin Review: Ferramenta de IA para revisão de código: A Cognition lançou o Devin Review para resolver o gargalo humano na revisão de código gerado por IA. A ferramenta vai além de buscar bugs, ajudando a entender a lógica complexa de PRs através de uma interface redesenhada. Funciona diretamente no GitHub e identifica erros relacionados fora do Diff. A lógica central é: código gerado por IA deve ser revisado por ferramentas de IA mais eficientes, não por programadores em “lixo de código” (Fonte: Cognition)

Otimização local do GLM-4.7 Flash: 200K de contexto em uma GPU: A comunidade corrigiu o suporte do vLLM para cache KV do GLM-4.7-Flash com uma linha de código, ativando o MLA (atenção latente multi-head). Isso reduziu o uso de VRAM para contexto de 200K de 180GB para 10GB. Agora, uma RTX 5090 (32GB VRAM) roda este modelo de 30B com capacidade avançada de raciocínio, marcando o início da era de Agents locais de alto desempenho (Fonte: Zai_org)

📚 Aprendizado
Curso prático de Gemini CLI: Construindo fluxos de automação multi-etapa: A DeepLearning.AI e o Google lançaram um curso gratuito sobre como usar o Gemini CLI para construir Agents open-source. O curso cobre desde operações locais até integração com ferramentas e serviços em nuvem, mostrando como usar Agents para automação de código, criação de dashboards e planejamento de tarefas complexas. Ideal para desenvolvedores que querem ir além de chamadas de API e criar ferramentas produtivas (Fonte: DeepLearningAI)
Otimizador Hyperball: Aceleração de treinamento em 33% com normalização: Pesquisadores de Stanford criaram o wrapper Hyperball para otimizadores, mantendo normas de pesos e atualizações constantes para controlar diretamente o tamanho do passo, substituindo o decaimento de peso tradicional. Testes mostraram aceleração de 33% no treinamento com otimizadores como Muon, além de melhor transferência de hiperparâmetros, oferecendo um framework matemático mais estável para treino em larga escala (Fonte: Kaiyue Wen)

NVIDIA Motive: Método de atribuição para geração de vídeo: Pesquisadores da NVIDIA desenvolveram o Motive, uma abordagem baseada em gradientes para atribuição de dados centrada em movimento. Ao isolar dinâmicas temporais de aparência estática, o Motive identifica quais vídeos de treinamento impactam positivamente ou negativamente o movimento gerado. Isso é valioso para otimizar qualidade de treino e entender degradação em modelos de geração de vídeo (Fonte: NVIDIA Research)
InT (Treino de Intervenção): Resolvendo atribuição de crédito em raciocínio: Um artigo propõe o InT, que faz modelos localizarem o primeiro erro em seu próprio raciocínio e sugerir intervenções de passo único, melhorando a inicialização do RL. Diferente do RL padrão que recompensa apenas respostas finais, o InT corrige passos intermediários. No benchmark IMO-AnswerBench, o método aumentou a precisão de um modelo de 4B em 14%, superando até modelos de 20B (Fonte: HuggingFace)
💼 Negócios
OpenAI planeja captar US$ 50 bi com avaliação de US$ 830 bi: Sam Altman estaria se reunindo com investidores nos Emirados Árabes para uma rodada de US$ 50 bi, com valuation entre US$ 750-830 bi. Os recursos cobririam custos projetados de US$ 200 bi em computação até 2030. Paralelamente, a OpenAI enfrenta uma ação judicial de Musk por supostamente desviar-se do propósito sem fins lucrativos (Fonte: Bloomberg)

Alibaba impulsiona IPO da T-Head: Completando o ecossistema de chips de IA: A Alibaba decidiu apoiar a abertura de capital da T-Head, sua fabricante de chips. Em 8 anos, a T-Head lançou chips líderes em computação, armazenamento e rede, com sua GPU auto-desenvolvida rivalizando com a H20 da NVIDIA, tornando-se peça-chave na expansão de capacidade de IA na China. A IPO deve redefinir a avaliação