Diário de IA – 2026-01-24(Edição da manhã)

Palavras-chave:IA, Claude Code, OpenAI, colaboração multiagente, precificação orientada a resultados, comercialização vLLM

🔥 Foco

Grande upgrade do Claude Code: Task substitui oficialmente o Todo, iniciando uma nova era de colaboração Multi-Agent : O Claude Code da Anthropic recebeu uma atualização central, introduzindo a função “Tasks” projetada especificamente para engenharia complexa de longo prazo, removendo completamente a antiga ferramenta Todo. Por trás dessa mudança está o suporte das poderosas capacidades de memória de contexto e autonomia do Opus 4.5, tornando-o independente de ferramentas de registro triviais. O Tasks suporta a transmissão em tempo real do status das tarefas entre múltiplos Agents e sessões, introduzindo a gestão de “dependências”, com dados armazenados nativamente no sistema de arquivos local (~/.claude/tasks). Isso marca a evolução da AI de uma simples ferramenta de auxílio de código para um “engenheiro digital” capaz de gerenciar projetos massivos e com capacidade de colaboração autônoma, elevando significativamente o teto da automação em engenharia de software complexa. (Fonte: dotey, yoheinakajima, dejavucoder)

Mudança drástica no modelo de negócios da OpenAI: Proposta de “Outcome-Based Pricing” causa abalo na indústria : A CFO da OpenAI, Sarah Friar, sugeriu recentemente uma mudança para o “Outcome-Based Pricing” (precificação baseada em resultados), ou seja, cobrar uma comissão baseada no valor criado pela AI (como descoberta de medicamentos ou lucros comerciais), em vez de apenas tarifar por Token. Este sinal gerou uma forte reação negativa na comunidade, sendo comparado a um “imposto sobre a produção da fábrica”. Simultaneamente, Sam Altman revelou que seu negócio de API teve um salto de US$ 1 bilhão em ARR (Receita Recorrente Anual) no último mês, demonstrando a alta dependência do mercado corporativo em modelos fechados. Essa mudança na lógica de precificação pode levar mais empresas a optarem por implantações locais para evitar riscos potenciais de divisão de lucros. (Fonte: Reddit, nickaturley)

Equipe principal do vLLM funda a Inferact: A investida comercial do motor de inferência open-source : Membros fundadores do projeto vLLM anunciaram oficialmente a criação da startup Inferact, com o objetivo de comercializar o motor de inferência open-source mais popular do mundo. A missão da Inferact é reduzir ainda mais os custos de uso de AI através da otimização da eficiência de inferência. Embora existam preocupações na comunidade sobre a “comercialização do open-source”, este movimento indica que a competição no lado da inferência entrou em uma fase profunda, e a entrada da equipe principal acelerará avanços de desempenho e estabilidade do vLLM em cenários corporativos. (Fonte: QuixiAI)

vLLM going commercial

Mudança no paradigma de treinamento de AI: Do simples empilhamento de poder computacional para a curadoria refinada de dados : Pesquisadores da OpenAI, Thinking Machines e Amazon estão impulsionando uma reavaliação da forma como LLMs são treinados, com foco no aumento da eficiência de utilização e na qualidade da curadoria de dados. A startup DatologyAI está no centro desta onda, visando resolver limitações centrais de raciocínio e confiabilidade, lidando com problemas de escassez de dados e ruído no treinamento de modelos atuais. Essa tendência indica que a segunda metade da corrida de AI não será apenas uma corrida armamentista de poder computacional, mas um jogo intelectual sobre quem consegue extrair “sinais de alta qualidade” de forma mais eficiente a partir de volumes massivos de dados. (Fonte: code_star)

🎯 Tendências

World Labs de Fei-Fei Li busca financiamento com avaliação de US$ 5 bilhões : A startup de inteligência espacial World Labs planeja captar US$ 500 milhões, visando uma avaliação de até US$ 5 bilhões. A pesquisa da equipe de Li Fei-Fei foca em “World Models”, com o objetivo de dar à AI a capacidade de entender o espaço físico tridimensional como os humanos. No contexto em que os LLMs enfrentam gargalos de crescimento, a inteligência espacial é vista como um caminho crucial para a AGI, atraindo investimentos contínuos do topo do capital de risco. (Fonte: Dorialexander)

Sakana AI e Google estabelecem parceria estratégica : A unicórnio japonesa Sakana AI anunciou uma vinculação profunda com o Google. Além de receber investimento adicional, combinará a infraestrutura do Google com o “AI Scientist” e a tecnologia de Agent da Sakana para acelerar descobertas científicas. A colaboração enfatiza especialmente o fornecimento de soluções em setores como finanças e governo, que possuem exigências extremas de soberania de dados, demonstrando a ambição do Google no ecossistema regional de AI. (Fonte: hardmaru)

Custos de inferência da Anthropic excedem o orçamento em 23%, gerando especulações técnicas : Vazamentos indicam que os custos de inferência da Anthropic nos servidores do Google e Amazon foram 23% superiores ao esperado. Analistas do setor sugerem que isso pode indicar que as estratégias de Quantization não alcançaram a redução de custos esperada, ou que o consumo real do modelo em processamento de contexto longo superou as intenções de design. Isso reflete que, mesmo para os principais fabricantes de AI, equilibrar o desempenho do modelo com os custos operacionais comerciais continua sendo um desafio enorme. (Fonte: code_star)

Anthropic costs

Onda de demissões de pesquisadores de AI da Samsung revela dilemas na cultura corporativa : A renomada pesquisadora Alexia Jolicoeur-Martineau anunciou sua saída da Samsung, afirmando que, após criar um enorme valor comercial, sua vida tornou-se “um inferno” devido a problemas de gestão. O incidente gerou discussões na comunidade, expondo o sério descompasso entre a cultura de gestão obsoleta e os mecanismos de incentivo à inovação em gigantes tecnológicas tradicionais ao tentar atrair e reter talentos de elite em AI. (Fonte: cloneofsimo, QuixiAI)

🧰 Ferramentas

Plano 0.4.3: Introdução de Filter Chains para otimizar workflows de Agent : A versão mais recente do Plano introduz “Filter Chains”, permitindo que desenvolvedores capturem etapas de workflow reutilizáveis no plano de dados, sem a necessidade de repetir a lógica no código da aplicação. Esta função suporta a inspeção de prompts, modificação de requisições ou interrupção antecipada do fluxo em caso de falha de conformidade. Além disso, a nova função de autenticação pass-through suporta serviços de proxy como o OpenRouter, facilitando enormemente a gestão de API em cenários multi-tenant. (Fonte: Reddit)

Plano

File Brain: Motor de busca semântica local open-source : Esta é uma ferramenta de desktop que roda 100% localmente, combinando OCR com modelos de embedding multilíngues. Ela indexa automaticamente PDFs, imagens e documentos do Office, permitindo que os usuários pesquisem usando linguagem natural (ex: “encontrar a passagem aérea do ano passado”), localizando o conteúdo com precisão mesmo que o nome do arquivo seja aleatório. A ferramenta resolve o problema da busca tradicional por palavras-chave que não entende o conteúdo de arquivos escaneados ou capturas de tela, protegendo totalmente a privacidade do usuário. (Fonte: Reddit)

File Brain

Todoist Ramble: Gestão de tarefas baseada em voz : O novo recurso Ramble do Todoist permite que os usuários descrevam tarefas por voz, e a AI as analisa e organiza automaticamente em listas de prioridade. Discussões na comunidade apontam que é possível replicar processos similares combinando Whisper e n8n, mas a integração nativa do Todoist e o suporte ao servidor MCP oferecem vantagens significativas em facilidade de uso, sendo um caso típico de AI otimizando a produtividade pessoal. (Fonte: Reddit)

Step3-VL-10B: Modelo de visão poderoso com suporte para resolução de problemas geométricos : O modelo de visão Step3-VL-10B agora suporta chatllm.cpp e apresenta desempenho excepcional em tarefas de raciocínio visual complexas, como resolução de problemas de geometria, comparável a modelos Qwen de escala 200B. Seu potencial de execução em dispositivos de borda oferece novas opções para aplicações locais de AI visual. (Fonte: Reddit)

Step3-VL

📚 Aprendizado

SAMTok: Mask Tokenization concede capacidades de nível de pixel aos MLLM : Um artigo propõe o SAMTok, um discrete mask tokenizer capaz de converter qualquer máscara de região em dois Tokens especiais. Ao tratar máscaras como Tokens de linguagem, modelos multimodais base (como QwenVL) podem aprender capacidades de nível de pixel sem modificações na arquitetura. Após o treinamento em 209 milhões de máscaras diversificadas, o modelo alcançou o nível SOTA em tarefas como descrição de região e segmentação referenciada, fornecendo um paradigma conciso para a escala de tarefas de nível de pixel em MLLM. (Fonte: HuggingFace)

HERMES: KV Cache como memória hierárquica para compreensão de vídeo : Esta pesquisa propõe o HERMES, uma arquitetura que dispensa treinamento e trata o KV Cache como uma estrutura de memória hierárquica, encapsulando informações de vídeo em diferentes granularidades. Durante a inferência, ele pode reutilizar um KV Cache compacto, mantendo alta precisão com uma redução de 68% nos Tokens de vídeo, com um TTFT (Time To First Token) 10 vezes mais rápido que o SOTA atual, resolvendo gargalos de memória e latência na compreensão de vídeo em streaming. (Fonte: HuggingFace)

DLCM: Rumo a um Dynamic Large Concept Model para raciocínio semântico adaptativo : O estudo desafia o modo tradicional de computação em nível de Token dos LLMs, propondo a introdução de uma granularidade de “conceito” aprendível entre Tokens e sentenças. O modelo DLCM pode alocar recursos computacionais de forma adaptativa com base na densidade de informação, simulando o raciocínio conceitual lógico humano. Experimentos mostram que, sob o mesmo custo de inferência, esta arquitetura apresenta uma melhoria significativa de desempenho em benchmarks intensivos em raciocínio. (Fonte: GeZhang86038849)

DLCM

Review de Agentic Reasoning: A evolução do “pensar” para o “agir” : Uma revisão publicada conjuntamente pela Meta, Google DeepMind e outras instituições explora sistematicamente como o raciocínio de LLM está mudando de puro Chain of Thought (CoT) para ações em ambientes reais. Abrange tópicos centrais como agentes únicos, colaboração multi-agente, feedback ambiental e memória de longo prazo, apontando os desafios críticos atuais dos Agents em planejamento de longo alcance e construção de World Models. (Fonte: TheTuringPost)

Agentic Reasoning

💼 Negócios

World Labs de Fei-Fei Li busca financiamento com avaliação de US$ 5 bilhões : A startup de inteligência espacial World Labs planeja captar US$ 500 milhões, visando uma avaliação de até US$ 5 bilhões. A pesquisa da equipe de Li foca em “World Models”, visando dar à AI a capacidade de entender o espaço físico tridimensional. No contexto de gargalos de crescimento dos LLMs, a inteligência espacial é vista como o caminho chave para a AGI. (Fonte: Dorialexander)

Sakana AI e Google estabelecem parceria estratégica : A unicórnio japonesa Sakana AI anunciou uma vinculação profunda com o Google. Além de investimento adicional, combinará a infraestrutura do Google com as tecnologias de “AI Scientist” e Agent da Sakana para acelerar descobertas científicas. (Fonte: hardmaru)

Negócio de API da OpenAI cresce US$ 1 bilhão em ARR em um único mês : Sam Altman revelou que, embora o público foque no ChatGPT, seu negócio de API adicionou mais de US$ 1 bilhão em ARR no último mês, demonstrando a altíssima fidelidade de desenvolvedores e empresas à infraestrutura da OpenAI. (Fonte: nickaturley)

🌟 Comunidade

Grande discussão sobre a bolha de AI: O abismo entre avaliação e realidade : A comunidade discute se as altas avaliações de startups como a Thinking Machines indicam uma bolha de AI. Elon Musk prevê que 2026 será o ano da singularidade, mas na realidade a AI ainda apresenta a coexistência embaraçosa de um “QI de doutorado em matemática com o senso comum de um estagiário”. Shane Gu aponta que a avaliação tornou-se o indicador mais confiável da bolha, enquanto o fornecimento de energia e chips continua sendo um gargalo físico inevitável no caminho para a AGI. (Fonte: shaneguML, Yuchenj_UW)

AI Bubble

Despertar da consciência de implantação local: Enfrentando o risco de “taxação” das APIs na nuvem : Em resposta aos potenciais planos de precificação baseada em resultados da OpenAI, a comunidade LocalLLaMA iniciou uma onda de “estocagem de GPUs”. Usuários acreditam que depender de APIs na nuvem é como depender da rede elétrica: conveniente, mas sem controle; enquanto a implantação local é como instalar energia solar: alto investimento inicial, mas garante que os lucros do projeto não sejam fatiados compulsoriamente pelo fornecedor do modelo. Essa consciência de “Sovereign AI” está se espalhando rapidamente entre desenvolvedores. (Fonte: Reddit)

Alerta sobre conta hackeada de pesquisador da Kimi : Foi revelado na comunidade que a conta no X de Crystal, pesquisadora da Kimi, foi hackeada e usada para enviar mensagens diretas fraudulentas. O incidente serve como um lembrete para profissionais de AI que, além de focar em avanços técnicos, é necessário fortalecer a segurança de contas pessoais e dados sensíveis para evitar ataques direcionados. (Fonte: Kimi_Moonshot, iScienceLuvr)

Hacked Account

💡 Outros

Voz é a próxima fronteira da AI : Especialistas do setor como Elad Gil apontam que a interação por voz será o próximo ponto de explosão no desenvolvimento da AI. Com o amadurecimento de modelos de baixa latência e tecnologias de síntese emocional, a voz evoluirá de simples comandos para uma interface de interação com profunda capacidade de compreensão. (Fonte: glennko)

Voice AI

Devin Review: Revisão 100% humana sob alavancagem de AI : Visando o estado atual das ferramentas de revisão de código por AI que usam “bobagens para combater bobagens”, a Cognition lançou o Devin Review, enfatizando a colaboração 100% homem-máquina. A ferramenta visa usar a AI para ajudar humanos a realmente entenderem a lógica do código, em vez de simples “merges por conveniência”, tentando encontrar um equilíbrio entre automação e rigor. (Fonte: russelljkaplan)