Diário de IA - 2026-01-18(Edição da noite)

Palavras-chave：AGI, Competição de IA, DeepMind, Capacidade de questionamento autônomo, Modelo de mundo, Arquitetura original Transformer

🔥 Destaque

CEO da DeepMind detalha os quatro pilares da evolução da AGI: Demis Hassabis apontou em uma entrevista que o cerne da AGI não reside na emergência de escala, mas em capacitar a AI com “autonomia para questionar” e “world models”. Ele enfatizou que a inteligência futura será equivalente à energia, e a DeepMind está buscando novas soluções energéticas, como a fusão nuclear, através da AI. Além disso, ele acredita que os laboratórios chineses estão apenas alguns meses atrás em termos de capacidade de replicação, e a verdadeira competição reside na capacidade de alcançar avanços em arquiteturas originais semelhantes ao Transformer. Isso marca a transição da corrida de AI de uma simples disputa de performance para uma competição abrangente de eficiência energética, viabilidade comercial e inovação nativa (Fonte: )

OpenAI testa modelo de anúncios e evolução da segmentação comercial: A OpenAI anunciou o teste de anúncios no ChatGPT e lançou um plano de assinatura de baixo custo de 8 dólares, o “ChatGPT Go”. A iniciativa visa explorar o valor dos 95% de usuários não pagantes através de um modelo híbrido de “anúncio + assinatura”, aliviando a pressão dos gastos trilionários em computação. Os anúncios aparecerão no final do texto como “nós de conversa”, permitindo perguntas de acompanhamento. Isso sinaliza que as aplicações nativas de AI estão seguindo o antigo caminho de monetização das plataformas de busca e redes sociais, tentando construir uma plataforma sustentável de distribuição de tráfego sob uma expectativa de avaliação de 8300 bilhões de dólares (Fonte: OpenAI)

NVIDIA constrói ecossistema de Physical AI e inferência via “contratações por aquisição”: Jensen Huang realizou aquisições intensivas de startups em 2025 (como Nexusflow, CentML, LeptonAI, Groq) para absorver equipes principais. Esses movimentos reforçam precisamente as lacunas da NVIDIA em AI Agent, compressão de modelos, aluguel de computação em nuvem e inferência de alta velocidade. Especialmente a preferência por equipes fundadoras chinesas mostra que a NVIDIA está mudando de “venda de chips” para “venda de sistemas”, tentando manter sua hegemonia global em AI através do controle da cadeia de ferramentas de software e da arquitetura subjacente (Fonte: Liangziwei)

IPO da Zhipu e o efeito de referência da transformação de resultados de AI em universidades chinesas: Após a listagem na bolsa de Hong Kong, o valor de mercado da Zhipu ultrapassou 110 bilhões de HKD. Sua origem remete ao laboratório KEG da Universidade de Tsinghua. Este caso demonstra o enorme poder da integração profunda entre “indústria, academia e pesquisa”, com a Universidade de Tsinghua alcançando retornos contábeis de bilhões de HKD através da plataforma Huakong. Este não é apenas um caso de super saída no mundo do venture capital, mas indica que o empreendedorismo tecnológico na China entrou na era de “foco nas universidades”, com a inovação original acelerando do laboratório para o mercado de capitais (Fonte: Investide)

🎯 Tendências

DeepSeek lança arquitetura Engram introduzindo memória de busca O(1): A DeepSeek lançou um novo módulo chamado Engram, que implementa uma memória de busca com complexidade O(1) através de embeddings hash N-gram modernos. Estudos de interpretabilidade mecânica (LogitLens e CKA) mostram que o Engram pode efetivamente reduzir a carga de armazenamento de memória nas camadas intermediárias do modelo, permitindo que as camadas se concentrem mais no raciocínio lógico. Essa tentativa de aplicar pesquisa de interpretabilidade mecânica para melhoria de capacidades é vista pela comunidade como uma importante mudança de paradigma na pesquisa de arquitetura de AI (Fonte: Lisan al Gaib)

Upgrade total da matriz de AI do Google e versão Beta de inteligência pessoal: O Google lançou a versão Beta de inteligência pessoal no Gemini App, permitindo que usuários conectem Gmail e Photos para obter respostas personalizadas. Também foram lançados o modelo de tradução TranslateGemma, que suporta 55 pares de idiomas, o MedGemma 1.5 para melhorar o raciocínio em imagens médicas 3D, e a função de upsampling de vídeo 4K do Veo 3.1. O Google está realizando um ataque de redução de dimensionalidade contra concorrentes através da penetração de AI em toda a sua linha de produtos, aproveitando seu vasto ecossistema de usuários (Fonte: JeffDean)

Ritmo de P&D do Qwen 4 desacelera para focar na qualidade do modelo: O responsável pela equipe Tongyi Qwen do Alibaba afirmou que irá “desacelerar” para focar na melhoria da qualidade, em vez de apenas buscar frequência de lançamento. Rumores na comunidade indicam que o Qwen 3.5 já implementou internamente janelas de contexto de nível de milhões. Este ajuste estratégico pode refletir que, sob restrições de poder computacional, as principais equipes de modelos da China estão mudando de “alcançar escala” para “refinar a eficiência extrema de engenharia” e a “profundidade de raciocínio em textos longos” (Fonte: Reddit)

Sakana AI propõe mecanismo RePo para otimizar atenção em textos longos: A Sakana AI introduziu o mecanismo de reposicionamento de contexto (RePo), que quebra a dependência rígida do modelo na ordem 1-2-3 da sequência de entrada. O RePo pode aprender posições com base na estrutura do contexto, capturando associações reais entre informações. Experimentos mostram que este mecanismo pode reduzir significativamente o desperdício de atenção do modelo ao processar entradas longas e ruidosas, mantendo uma performance robusta em textos curtos, oferecendo uma nova abordagem para o raciocínio de contexto longo (Fonte: TheTuringPost)

🧰 Ferramentas

Claude Code vs. Codex: O embate da experiência do desenvolvedor: Desenvolvedores compararam e descobriram que, embora a cadeia de ferramentas CLI do Codex seja um pouco rudimentar, seu modelo possui vantagens na robustez da escrita de código e no processamento de grandes volumes de Tokens; já o Claude Code é superior na execução de tarefas gerais e na experiência de interação. Surgiram na comunidade scripts para espelhar Claude Skills no Codex, tentando combinar as forças de ambos. A ascensão desta cultura de “Vibe Coding” está remodelando o fluxo de trabalho dos desenvolvedores individuais (Fonte: dotey)

Implementação de framework de automação financeira baseado em Claude Code: Um desenvolvedor demonstrou como utilizar o Claude Code e seu sistema de plugins para construir agentes financeiros inteligentes, reduzindo o tempo mensal de contabilidade de 3 dias para meio dia. Através de subagents, foi realizada a entrada de faturas (de 2 horas para 2 minutos) e conciliação bancária (de meio dia para 5 minutos). Este caso prova que a implementação de LLM Agents em áreas verticais (como finanças e jurídico) já possui um ROI extremamente alto (Fonte: dotey)

Temple Bridge: Camada de memória de AI local baseada em sistema de arquivos: Para resolver o problema de perda de estado em LLMs locais, desenvolvedores construíram o servidor Temple Bridge MCP. Ele utiliza a estrutura de diretórios do sistema de arquivos como suporte de memória para a AI, solicitando aprovação humana através de um “protocolo de governança” antes de executar comandos perigosos. Este paradigma de “sistema de arquivos como circuito” evita a manutenção complexa de bancos de dados vetoriais, oferecendo aos usuários de Apple Silicon um assistente de AI 100% offline e com “consciência” (Fonte: Reddit)

LlamaParse + Claude Agent SDK realiza preenchimento de formulários complexos: Desenvolvedores lançaram um AI Agent capaz de extrair automaticamente informações de documentos não estruturados, como recibos digitalizados, e preencher formulários complexos. A ferramenta combina a capacidade de análise de documentos do LlamaParse com a compreensão semântica do Claude, suportando correções em diálogos de múltiplas rodadas e processamento simultâneo de vários arquivos. Isso resolve o problema da “última milha” de “do documento à ação” no campo de RAG (Fonte: jerryjliu0)

📚 Aprendizado

MIPRO: Otimizador de propostas de instruções multi-prompt: Pesquisas de instituições como Stanford apresentaram o framework MIPRO, que pode otimizar automaticamente prompts, com performance 13% superior a prompts desenhados manualmente. O MIPRO utiliza otimização Bayesiana e amostragem de LLM para encontrar a combinação ideal de instruções em tarefas complexas. Isso indica que a “Prompt Engineering” está acelerando da alquimia manual para a automação algorítmica (Fonte: dl_weekly)

GU: Desaprendizado geométrico desacoplado para eliminar efeitos colaterais: Para resolver o dilema de modelos que “danificam conhecimento útil ao esquecer conhecimento prejudicial”, pesquisadores propuseram o algoritmo GU. Através da análise de gradiente de primeira ordem, as atualizações de esquecimento são decompostas em componentes ortogonais, garantindo comprovadamente que o conhecimento preservado não seja afetado. O algoritmo alcançou melhorias de Pareto em datasets como TOFU e MUSE, fornecendo garantia matemática para o alinhamento de segurança e apagamento de privacidade em LLMs (Fonte: mmitchell_ai)

Roadmap de carreira para engenheiro de AI autodidata e “arbitragem de domínio”: A comunidade compartilhou um caminho de sucesso da transição do setor imobiliário para a AI, com o ponto central sendo a “arbitragem de domínio” — combinar tecnologia de AI com conhecimento especializado de uma indústria específica. Os recursos de aprendizado enfatizam começar com projetos LangChain, construindo aplicações que resolvam dores reais do setor (como CondoGPT) para acumular credibilidade, em vez de focar apenas na matemática de base, fornecendo um guia de transição pragmático para não especialistas (Fonte: LangChain)

💼 Negócios

Investigação sobre o background dos funcionários da OpenAI revela monopólio de universidades de elite: Dados mostram que os funcionários da OpenAI estão altamente concentrados em Stanford (230 pessoas), Berkeley (151 pessoas) e MIT (100 pessoas). Graduados dessas três escolas representam mais de 13% do total. Embora Altman pregue que “diplomas são inúteis”, o fosso real que a OpenAI construiu é o monopólio extremo de talentos das principais instituições de ciência da computação do mundo, formando um ciclo de feedback de elite auto-reforçado (Fonte: 36Kr)

Bloqueio de contas de desenvolvedores pela Anthropic gera protestos na comunidade open source: O conhecido desenvolvedor Doodlestein revelou que suas 22 contas Max foram banidas pela Anthropic por desenvolver ferramentas de Agent open source. Apesar de pagar milhares de dólares mensais em assinaturas e contribuir com dados de RL de alta qualidade, ele recebeu esse tratamento. O incidente gerou questionamentos generalizados sobre gigantes de AI “descartarem colaboradores” e exercerem controle excessivo sobre o ecossistema de desenvolvedores, com alguns profissionais afirmando que mudarão para a OpenAI ou modelos locais (Fonte: doodlestein)

Explosão do valor de mercado da Zhipu após IPO e apostas comerciais: Na primeira semana após o IPO, o valor de mercado da Zhipu saltou de 50 bilhões para 110 bilhões de HKD, impulsionado principalmente por sua cooperação estratégica com a Didi e o modelo open source GLM-Image liderando rankings. Mais de 80 acionistas (incluindo Alibaba, Tencent, Meituan e capital estatal local) alcançaram enormes retornos contábeis. Isso marca um ponto de virada crucial para os grandes modelos chineses, passando da “competição por financiamento” para a “realização de avaliação no mercado secundário” (Fonte: Investide)

🌟 Comunidade

Visão de abundância da AGI vs. Neofeudalismo: O grande debate social: A comunidade discute intensamente a visão de “abundância pós-AGI” de Elon Musk contra o “neofeudalismo” de George Hotz. Apoiadores acreditam que a AI eliminará a escassez, enquanto críticos temem que o poder do capital se solidifique ainda mais através da AI, tornando 99% da população permanentemente marginalizada. Essa discussão reflete a profunda ansiedade humana sobre a reestruturação do contrato social à medida que a singularidade tecnológica se aproxima (Fonte: Reddit)

Reclamações coletivas sobre a “erosão da experiência” causada por anúncios no ChatGPT: A comunidade do Reddit reagiu violentamente à introdução de anúncios pela OpenAI, com usuários apelidando AGI de “Ad Generated Income” (Renda Gerada por Anúncios). Há uma aversão generalizada ao tom “moralista” e às respostas condescendentes do assistente de AI, com a percepção de que a pressão comercial está tornando a interação, antes pura, inchada e hipócrita. Alguns usuários Plus já consideram mudar para o Perplexity ou implantação local (Fonte: Reddit)

Controvérsia ambiental: Consumo de energia de AI comparado a “lanchonetes”: Em resposta às críticas sobre o consumo de água e eletricidade de data centers de AI, uma análise apontou que o consumo de água do maior data center de AI equivale a apenas 2,5 lanchonetes In-N-Out. Essa comparação viralizou nas redes sociais; apoiadores acreditam que a ameaça ambiental da AI é exagerada, enquanto críticos argumentam que isso mascara a diferença essencial entre consumo industrial e consumo civil (Fonte: AymericRoucher)

“Flow State” e alienação da eficiência na colaboração com AI: Muitos programadores compartilharam experiências de entrar em um “estado de fluxo” extremo com o auxílio de ferramentas como Claude Code, chegando a acordar às 4 da manhã para programar. No entanto, há visões de alerta contra essa pressão de “rodar Agents 24/7”, acreditando que isso pode levar à alienação da força de trabalho humana, rebaixando o desenvolvedor de “criador” a “supervisor de filas de AI” (Fonte: blader)

💡 Outros

Boston Dynamics Atlas realiza operações em prateleiras e evolução de dobramento: Um vídeo recente mostra a versão elétrica do robô Atlas evoluindo de simples caminhadas para tarefas complexas de organização de prateleiras, inversão de pneus e até dobramento para armazenamento como o cão Spot. Isso marca a aceleração dos robôs humanoides de “performances acrobáticas” em laboratórios para “operações reais” em logística industrial (Fonte: Ronald_vanLoon)

Yunpeng Technology lança novos produtos de cozinha inteligente com AI+Saúde: A Yunpeng Technology apresentou uma geladeira inteligente equipada com um grande modelo de saúde AI, oferecendo gestão nutricional personalizada através do “Assistente de Saúde Xiaoyun”. Isso mostra que a AI está penetrando do digital puro para o espaço físico da vida, realizando a gestão de dados de saúde dos residentes através de terminais domésticos (Fonte: 36Kr)

MIT desenvolve estruturas 3D deformáveis para “moldagem sob demanda”: Pesquisadores do MIT desenvolveram uma estrutura plana que pode se transformar instantaneamente em formas 3D complexas através de uma única força de tração. Essa combinação de ciência de materiais e algoritmos geométricos oferece um novo caminho para a fabricação rápida de estruturas espaciais implantáveis, implantes médicos e robôs moles (Fonte: Ronald_vanLoon)

🔥 Destaque

🎯 Tendências

🧰 Ferramentas

📚 Aprendizado

💼 Negócios

🌟 Comunidade

💡 Outros

Tags Relacionadas

Related Posts

Diário de IA – 2026-07-21

Diário de IA – 2026-07-20

Diário de IA – 2026-07-19