Diário de IA - 2025-06-15(Edição da noite)

Palavras-chave：VGGT, Visão 3D, Transformer, CVPR 2025, Meta, Universidade de Oxford, Condução autónoma, Segurança em IA, Transformer de Geometria Visual, Previsão 3D em única passagem, Framework SafeKey, Pesquisa em Condução Autónoma Waymo, Modelo Doubao 1.6, Visão 3D com Transformer, Condução autónoma com IA, Segurança em sistemas de visão computacional, Pesquisa em geometria visual, Previsão 3D em tempo real, Framework de segurança para IA, Desenvolvimentos em condução autónoma, Modelos de linguagem avançados

🔥 Foco

VGGT: Meta e Universidade de Oxford propõem o Visual Geometry Transformer, que prevê informações completas de cenas 3D numa única passagem forward, ganhando o prémio de Melhor Artigo na CVPR 2025: O VGGT (Visual Geometry Grounded Transformer), proposto conjuntamente pela Meta e pela Universidade de Oxford, tornou-se o único Melhor Artigo da CVPR 2025. Este modelo, baseado no Vision Transformer, utiliza um mecanismo de auto-atenção alternado “global-intra-frame” e consegue prever, de ponta a ponta e numa única passagem forward, informações completas da cena 3D, incluindo parâmetros intrínsecos e extrínsecos da câmara, mapas de profundidade, nuvens de pontos e trajetórias 3D. O VGGT aprende autonomamente apenas através de grandes quantidades de dados anotados em 3D, sem necessidade de vieses indutivos geométricos, apresentando um desempenho excelente ao processar de 1 a 200 imagens de entrada. O seu desempenho supera vários métodos existentes de geometria ou deep learning, demonstrando um vasto potencial de aplicação no campo da visão 3D (Fonte: 量子位)

CEO da Nvidia, Jensen Huang, e CEO da Anthropic entram em conflito sobre o desenvolvimento da IA: O CEO da Nvidia, Jensen Huang, afirmou numa conferência de imprensa em Paris que discorda de quase todas as opiniões do CEO da Anthropic, Dario Amodei, sobre IA. Huang salientou que Amodei considera a IA demasiado perigosa e que deveria ser controlada por poucas empresas; que os custos da IA são elevados e outras empresas não se deveriam envolver; e que a IA levará a desemprego em massa. Huang contrapôs, afirmando que a IA é uma tecnologia importante que deve ser desenvolvida de forma aberta, segura e responsável, e não em ambientes fechados, enfatizando a importância da abertura para a segurança (Fonte: hardmaru)

Framework SafeKey melhora a segurança de grandes modelos de inferência, reduzindo a taxa de risco em 9,6%: Equipas de investigação da Universidade da Califórnia em Santa Cruz, Berkeley, Cisco Research e Universidade de Yale propuseram o framework SafeKey, que visa aumentar a segurança de grandes modelos de inferência (LRMs). A investigação descobriu que o “jailbreak” de modelos está relacionado com a incapacidade de utilizar eficazmente os sinais de segurança das “frases-chave” iniciais. O SafeKey amplifica os sinais de segurança através de um “cabeçalho de segurança de via dupla” e força o modelo a depender da sua própria compreensão para tomar decisões de segurança através da “modelação de ocultação de consulta”. Experiências demonstram que o SafeKey, sem afetar significativamente as capacidades centrais do modelo (até mesmo melhorando-as ligeiramente), consegue reduzir a taxa de respostas perigosas em 9,6%, apresentando um desempenho ainda melhor face a ataques desconhecidos (Fonte: 量子位)

Estudo da Waymo revela que o desempenho do sistema de condução autónoma cresce segundo uma lei de potência com a escala de dados e computação: A Waymo publicou um estudo abrangente baseado em 500.000 horas de dados de condução, revelando uma relação de lei de potência entre a qualidade da previsão de movimento no seu sistema de condução autónoma e a quantidade de computação de treino, semelhante às leis de escala dos grandes modelos de linguagem (LLM). O estudo enfatiza que a escala dos dados é crucial para melhorar o desempenho do modelo, e aumentar a quantidade de computação de inferência também pode melhorar a capacidade do modelo de lidar com cenários de condução complexos. Este estudo demonstra pela primeira vez que aumentar os dados de treino e os recursos computacionais pode melhorar o desempenho da condução autónoma no mundo real (Fonte: zacharynado)

🎯 Tendências

ByteDance lança Doubao Large Model 1.6 e várias aplicações de IA, enfatizando capacidades combinadas e implementação de produtos: A ByteDance lançou recentemente uma série de produtos de IA, incluindo o Doubao Large Model 1.6, o modelo de geração de vídeo Seedance 1.0 Pro, e modelos de podcast de voz e voz em tempo real. O Doubao 1.6 melhorou as suas capacidades de processamento multimodal e operacional, suporta pesquisa enquanto pensa e DeepResearch, e pode realizar operações de interface gráfica. O Seedance 1.0 Pro destaca-se pela coerência e estabilidade na geração de vídeo, suportando a geração de vídeos de 10 segundos a 1080p. A estratégia da ByteDance foca-se mais na integração de capacidades de IA em aplicações prontas a usar e na sua incorporação em produtos existentes (como a app Doubao, Huoshan Fangzhou), enfatizando capacidades combinadas e rápida implementação de produtos, em vez de perseguir apenas a liderança em parâmetros de modelos únicos. A sua estratégia de preços também é mais competitiva, visando reduzir a barreira de entrada para o uso de IA (Fonte: 36氪)

Modelo Tencent Hunyuan 3D 2.1 de código aberto, focado em texturas PBR e compatibilidade com placas gráficas de consumo: A Tencent anunciou na conferência CVPR a abertura do código do seu mais recente modelo de geração 3D, o Hunyuan 3D 2.1. Este modelo foi otimizado tanto na precisão geométrica como nos detalhes da textura, introduzindo especialmente a tecnologia de geração de texturas PBR (Physically Based Rendering), capaz de renderizar com alta qualidade materiais complexos como couro, metal e cerâmica, com efeitos visuais realistas. O Hunyuan 3D 2.1 alcançou a abertura de código em toda a cadeia, incluindo pesos do modelo, código de treino e fluxo de processamento de dados, e suporta execução em placas gráficas de consumo, bem como implementação com um clique, visando popularizar a criação de conteúdo 3D (Fonte: 量子位)

Perplexity AI melhora ativamente a funcionalidade Deep Research em resposta ao feedback dos utilizadores: Arav Srinivas, CEO da Perplexity AI, afirmou que a equipa ouviu atentamente o feedback negativo sobre a sua funcionalidade Deep Research e já iniciou melhorias. Algumas melhorias já foram implementadas em produção e os utilizadores deverão sentir uma experiência otimizada. No futuro, as funcionalidades Deep Research e Labs serão integradas no produto Comet, com o objetivo de otimizar o processo de tomada de decisão dos utilizadores através da utilização de contexto e dados pessoais (Fonte: AravSrinivas)

Estudo da Anthropic revela que sistemas multi-agente podem melhorar significativamente o desempenho de tarefas: Um estudo publicado pela Anthropic demonstra que a utilização de sistemas multi-agente (como o Opus como agente principal e o Sonnet como sub-agente) para processar tarefas melhora o desempenho em 90% em comparação com o uso isolado do Opus. Este modelo de trabalho colaborativo é semelhante à forma como a sociedade humana aumenta drasticamente a produtividade através da divisão do trabalho. O estudo detalha como construir sistemas de investigação multi-agente eficazes e partilha os seus métodos de avaliação, incluindo o uso de LLMs como árbitros. No entanto, alguns comentários apontam que o método de investigação do Claude descrito no relatório pode ter problemas de profundidade de pesquisa insuficiente (Fonte: zacharynado, omarsar0, nrehiew_)

Estudo aponta que a capacidade de raciocínio de grandes modelos de linguagem é limitada pela “não familiaridade” em vez da “complexidade”: François Chollet salienta que a capacidade de raciocínio dos grandes modelos de linguagem (LRMs) não colapsa ao atingir um limiar de “complexidade” ou “número de passos”, mas sim quando confrontados com tarefas “não familiares”, e este limiar de não familiaridade é muito baixo. Os modelos conseguem resolver tarefas extremamente complexas abordadas durante a fase de treino/ajuste, mas mesmo tarefas novas e simples (como as tarefas ARC 2) podem falhar. Os limiares de passos/complexidade observados em problemas familiares (como a Torre de Hanói) são, na verdade, o resultado da criação de “novidade” através do aumento das variáveis do problema (Fonte: fchollet, jeremyphoward)

Sakana AI lança modelo de hiper-rede Text-to-LoRA (T2L): A Sakana AI lançou o Text-to-LoRA (T2L), uma nova hiper-rede capaz de gerar rapidamente novos adaptadores LoRA para grandes modelos de linguagem com base na descrição textual da tarefa. O T2L não só consegue comprimir múltiplos LoRAs existentes, como também criar novos LoRAs instantaneamente após o treino, oferecendo um novo caminho para a personalização rápida de modelos específicos para tarefas. Este estudo será apresentado na ICML 2025 (Fonte: TheTuringPost)

Cosmos-Predict2 da Nvidia (modelo 2B) demonstra excelente capacidade de geração de imagens: O Cosmos-Predict2 da Nvidia, um modelo de 2 mil milhões de parâmetros, é posicionado como uma “plataforma de modelo de base mundial para IA física” e demonstrou capacidades impressionantes na geração de imagens artísticas. Embora o seu conjunto de dados base possa não ser o ideal, a estrutura do modelo é boa e a qualidade das imagens geradas não difere muito da versão de 14 mil milhões de parâmetros, sendo apenas ligeiramente inferior em detalhes e no seguimento das instruções (prompts), mostrando o potencial de modelos mais pequenos com otimização específica (Fonte: teortaxesTex)

MIT desenvolve novo algoritmo que permite a drones evitar tempestades autonomamente: O MIT desenvolveu um novo algoritmo que confere aos veículos aéreos não tripulados (UAVs) uma capacidade de decisão semelhante a um “cérebro”, permitindo-lhes analisar as condições meteorológicas em tempo real e planear autonomamente rotas para evitar tempestades. Espera-se que esta tecnologia melhore a segurança de voo e a eficiência da execução de missões por drones em condições meteorológicas complexas (Fonte: Ronald_vanLoon)

Estudo da Meta: Modelos de linguagem estilo GPT memorizam 3,6 bits de informação por parâmetro: Um novo estudo da Meta calculou que os modelos de linguagem estilo GPT conseguem memorizar cerca de 3,6 bits de informação por parâmetro. O estudo avalia a capacidade de memória dos modelos medindo a quantidade total de bits memorizados (com base na teoria de Shannon de 1953) e observa uma relação curvilínea específica entre a memória e a escala dos dados (Fonte: jxmnop)

OpenRouter publica ranking da taxa de violação de LLMs em tarefas de saída estruturada (JSON): O OpenRouter classificou os principais LLMs com base na percentagem de violações JSON detetadas nos principais pedidos de saída estruturada durante a última semana. Os resultados mostram que Qwen, Mistral e GPT-4o-mini tiveram um bom desempenho, com baixas taxas de violação JSON. Por outro lado, DeepSeek v3 e Sonnet 4 tiveram taxas de violação superiores a 20%, indicando que ainda há um espaço considerável para melhorias no seguimento preciso do formato JSON. Atualmente, não são claras as razões específicas para esta disparidade (Fonte: xanderatallah, teortaxesTex)

Ant Group lança modelo multimodal unificado Ming-Omni: O Ant Group lançou a série de modelos Ming-Omni, um modelo multimodal unificado capaz de perceção e geração跨texto, imagem, áudio e vídeo. A sua versão leve, Ming-Lite-Omni, adota uma arquitetura MoE com apenas 2,8 mil milhões de parâmetros ativos, possuindo capacidade de geração de imagens de alta qualidade e síntese de voz natural, e já foi disponibilizada em código aberto no Hugging Face sob a licença MIT (Fonte: teortaxesTex, _akhaliq)

Ferramenta chinesa de chip de IA “QiMeng” conclui design de processador em dias, superando a eficiência de engenheiros: A ferramenta chinesa de design de chips de IA “QiMeng” demonstrou a sua eficiente capacidade de design de processadores, concluindo em poucos dias tarefas de design que tradicionalmente exigiriam muito mais tempo de engenheiros. Isto marca o potencial da IA no campo da automação do design de chips, prometendo acelerar os ciclos de desenvolvimento de chips e reduzir custos (Fonte: Ronald_vanLoon)

Modelo o3-pro do Hao AI Lab apresenta excelente desempenho em benchmark de jogos para LLM: O modelo o3-pro do Hao AI Lab alcançou progressos significativos no Lmgame Bench (um benchmark para avaliar as capacidades de jogo de grandes modelos de linguagem). Nos jogos Tetris e Sokoban, o o3-pro atingiu o nível SOTA (state-of-the-art) e superou largamente o seu antecessor, o modelo o3. Especialmente no Tetris, o o3-pro conseguiu limpar mais de 8 linhas, demonstrando capacidade de planeamento, enquanto outros modelos ficaram presos após poucas linhas (Fonte: clefourrier)

Estudo descobre que os 40 anos são um período crítico para prevenir o envelhecimento cerebral, com intervenção de corpos cetónicos a mostrar efeitos significativos: Um estudo publicado na PNAS, através da análise de dados de exames cerebrais de quase 20.000 pessoas, descobriu que o envelhecimento cerebral não é um processo linear, mas segue uma curva em forma de S, associada ao aumento da resistência à insulina. O estudo aponta que por volta dos 40 anos é o período em que a instabilidade da rede cerebral começa a acelerar, e a velocidade de envelhecimento é mais rápida por volta dos 60 anos. Experiências demonstraram que os corpos cetónicos (D-βHB) conseguem contornar a resistência à insulina para fornecer energia aos neurónios, tendo um efeito significativo na estabilização da rede cerebral, especialmente com intervenção na faixa etária dos 40-59 anos, oferecendo novas perspetivas para os cuidados cerebrais na meia-idade (Fonte: 量子位)

🧰 Ferramentas

The Browser Company lança versão beta do navegador nativo de IA Dia: A The Browser Company, desenvolvedora do navegador Arc, lançou a versão de teste interno do seu primeiro navegador nativo de IA, o Dia. O maior destaque do Dia é permitir que os utilizadores interajam diretamente por chat com qualquer conteúdo da página web (incluindo vídeos do YouTube, FigJam, Google Calendar, etc.), sem necessidade de abrir ferramentas de IA externas como o ChatGPT. Ele consegue obter automaticamente o contexto das abas, suporta a integração e comparação de informações de múltiplas páginas web, planeamento, criação de conteúdo, entre outras funções. Atualmente, suporta apenas MacOS e visa oferecer uma experiência de navegação mais concisa e prioritária para IA (Fonte: 36氪)

LangChain lança gerador local de podcasts com IA: A LangChain lançou um gerador local de podcasts com IA. Este sistema, construído com LangChain e Ollama, é capaz de converter texto em podcasts multilingues. Combina tecnologias de resumo de texto e geração de voz, permitindo um fluxo de criação de podcasts contínuo. Os utilizadores podem consultar o tutorial fornecido para aprender a usar esta ferramenta (Fonte: LangChainAI, hwchase17)

Davia: Converte rapidamente aplicações Python e agentes LangGraph em aplicações Web: Davia é uma ferramenta que consegue converter instantaneamente aplicações Python e agentes LangGraph em aplicações Web elegantes, sem necessidade de escrever qualquer código frontend. Construída sobre FastAPI, gera automaticamente interfaces de utilizador interativas, permitindo que os programadores se concentrem na lógica Python (Fonte: LangChainAI, Hacubu)

Tensorlake integra-se com LangChain para processamento estruturado de documentos: A Tensorlake anunciou a sua integração com LangChain, permitindo que os agentes LangGraph utilizem o poderoso sistema de processamento multimodal da Tensorlake para converter documentos não estruturados em dados estruturados. Esta integração oferece novas soluções para o processamento de documentos complexos (Fonte: LangChainAI, hwchase17)

Quark lança o primeiro grande modelo da China para escolha de cursos universitários e funcionalidade gratuita de relatório de candidatura: A Quark lançou o primeiro grande modelo da China para escolha de cursos universitários e disponibilizou a funcionalidade gratuita de “Relatório de Candidatura”. Este modelo, baseado no modo de execução Agent, simula o processo de decisão de especialistas e, combinado com uma “Base de Conhecimento do Ensino Superior” atualizada em tempo real (cobrindo mais de 2900 universidades, quase 1600 cursos de licenciatura e informações de emprego), gera para os candidatos planos de candidatura personalizados com três níveis: “arriscar, estável, seguro”. Esta iniciativa visa utilizar a tecnologia de IA para reduzir a barreira e os custos da escolha de cursos universitários, alterando o panorama tradicional de consultoria dispendiosa (Fonte: 量子位)

Task Orchestrator: Ferramenta de gestão de projetos MCP para Claude Code: O programador jpicklyk criou uma ferramenta MCP (Machine-Level Code Programming) chamada Task Orchestrator, destinada a resolver o problema de o Claude Code se “distrair” facilmente e esquecer o contexto ao lidar com projetos complexos. A ferramenta dota o Claude de memória persistente, gestão estruturada de projetos (projeto → funcionalidade → tarefa), modelos nativos de IA, relações de dependência inteligentes e capacidade de acompanhamento do progresso, tornando-o mais parecido com um parceiro de engenharia organizado. O projeto está disponível em código aberto no GitHub (Fonte: Reddit r/ClaudeAI)

ATLAS: Parceiro de IA para engenharia de software que dota o Claude Code de autoconsciência: O programador syahiidkamil criou o projeto ATLAS, que visa transformar o Claude Code num parceiro de IA para engenharia de software com uma autoconsciência rudimentar, memória, identidade e padrões profissionais. O ATLAS consegue manter o contexto do projeto, gerir autonomamente o seu conhecimento, evoluir com os commits de código e solicitar ativamente revisões de código, promovendo assim um fluxo de colaboração e revisão mais natural entre o utilizador e a IA. O projeto está disponível em código aberto no GitHub, com o objetivo de ajudar utilizadores e IA a manterem conjuntamente um código de maior qualidade (Fonte: Reddit r/ClaudeAI)

Observer: Assistente de IA para monitorização de ecrã executado localmente: Observer é uma ferramenta de IA que pode ser executada localmente e monitorizar a atividade do ecrã do utilizador. Através de um tutorial, é possível aprender a auto-hospedar o Observer num servidor doméstico, permitindo a análise ou interação assistida por IA com o conteúdo do ecrã (Fonte: Reddit r/LocalLLaMA)

VantaAI: Partilha de projeto de assistente de IA local com memória e lógica emocional: Um programador partilhou o seu projeto pessoal VantaAI, um assistente de IA local concebido para funcionar totalmente offline. O VantaAI simula características como memória emocional, flutuações de humor e identidade pessoal, possuindo memória de longo prazo que evolui com base no contexto da conversa, um “mapa emocional” que acompanha as mudanças de humor e um agrupamento de memórias impulsionado por uma narrativa que se considera protagonista de uma história. O projeto utiliza um backend Vulkan personalizado para inferência e treino de modelos, e suporta respostas baseadas na personalidade e recarregamento dinâmico de plugins (Fonte: Reddit r/LocalLLaMA)

📚 Aprendizagem

Hamel Husain e Shreya Shankar são coautores de um livro sobre AI Evals e lançam curso: Hamel Husain e Shreya Shankar colaboraram na escrita de um livro sobre avaliação de IA (Evals) e lançaram um curso relacionado. O primeiro capítulo do livro e o índice completo já estão disponíveis para visualização, cobrindo métodos de avaliação de IA da teoria à prática. O curso também conta com vários especialistas da indústria como palestrantes convidados, com o objetivo de ajudar os alunos a melhorar as suas capacidades de avaliação de sistemas de IA. O curso tem sido amplamente elogiado e é considerado um dos recursos mais abrangentes sobre avaliação de IA atualmente disponíveis (Fonte: HamelHusain, HamelHusain)

Framework DSPy: Fornece abstração de programação de alto nível para programas complexos de modelos de linguagem: A equipa de NLP de Stanford enfatiza que o framework DSPy visa ser uma linguagem de alta largura de banda para interação precisa com computadores. O DSPy permite que os programadores construam e otimizem programas complexos de modelos de linguagem multifásicos (Compound AI Systems), suportando estruturas de programa arbitrárias como recursão, tratamento de exceções, fluxos de controlo aninhados, e não apenas simples “cadeias” ou “fluxos”. Os seus otimizadores dedicam-se a ajustar instruções, demonstrações e pesos em programas de computador arbitrários que podem invocar um ou mais LLMs de forma arbitrária (Fonte: stanfordnlp)

Terence Tao no podcast de Lex Fridman, discute problemas de matemática, física e o futuro da IA: O renomado matemático Terence Tao foi entrevistado por Lex Fridman, discutindo aprofundadamente os problemas mais desafiadores da matemática e da física, como as equações de Navier-Stokes, o problema P vs NP, e perspetivando o potencial da inteligência artificial para auxiliar na resolução desses enigmas. O conteúdo do podcast também aborda a prova de teoremas assistida por IA, a linguagem de programação Lean, o AlphaProof da DeepMind e a possibilidade de a IA ganhar uma Medalha Fields, entre outros tópicos (Fonte: , arohan)

Equipa de Phillip Isola lança material didático online gratuito sobre visão computacional: Phillip Isola e a sua equipa publicaram gratuitamente online o seu material didático sobre visão computacional. O site do material (visionbook.mit.edu) está a desenvolver componentes interativos, como uma função de pesquisa e integração com LLMs (versão beta), com o objetivo de fornecer aos estudantes recursos de aprendizagem mais convenientes e incentivar os utilizadores a ajudar a melhorar o conteúdo do material através de issues no GitHub (Fonte: jeremyphoward, natolambert)

Hugging Face lança curso introdutório de MCP: O Hugging Face, em colaboração com Theodora Chu, lançou um novo curso introdutório de MCP (Master Control Program, possivelmente referindo-se a AI Agents ou sistemas multi-agente). O curso visa ajudar os formandos a compreender e dominar conhecimentos e competências relacionados com MCP (Fonte: huggingface, ClementDelangue)

Estudo de alinhamento de DINOv2 com texto (dino.txt) apresentado na CVPR 2025: Um estudo intitulado dino.txt foi apresentado na CVPR 2025. Esta investigação dedica-se a alinhar as características congeladas do DINOv2 com legendas de texto, de modo a alcançar um alinhamento visual-linguístico ao nível da imagem e do patch a baixo custo. Isto permite que o modelo utilize simultaneamente as características visuais de alta qualidade do DINOv2 e as capacidades de alinhamento visual-linguístico ao estilo do CLIP (Fonte: TimDarcet, andersonbcdefg)

💼 Negócios

Unicórnio de IA Minglue Technology, apoiado pela Tencent, prepara IPO em Hong Kong com avaliação de 12 mil milhões: A empresa de software de aplicações de inteligência de dados Minglue Technology (anteriormente “Huizhi Holdings”) submeteu o seu prospeto à Bolsa de Valores de Hong Kong. A empresa foi fundada em 2005 por Wu Minghui, ex-aluno da Escola de Matemática da Universidade de Pequim, e foca-se na utilização de grandes modelos, conhecimento da indústria e dados multimodais para fornecer suporte à decisão de marketing e operações para empresas. Os seus principais produtos incluem o Miaozhen Systems, Jinshuju, entre outros, servindo clientes como Procter & Gamble, McDonald’s e 135 outras empresas da Fortune 500. A Tencent é o seu maior acionista, com 27,33%. Após concluir a sua última ronda de financiamento pré-IPO em janeiro de 2024, a empresa foi avaliada em aproximadamente 12 mil milhões de RMB (Fonte: 量子位)

OpenAI e fabricante de brinquedos Mattel estabelecem parceria estratégica para desenvolver brinquedos inteligentes com IA: A OpenAI anunciou uma parceria com a Mattel, fabricante de brinquedos de renome mundial, para desenvolverem em conjunto brinquedos inteligentes equipados com tecnologia de inteligência artificial. Esta colaboração visa aplicar a tecnologia de IA da OpenAI a experiências de brinquedo adequadas à idade, revolucionando as formas tradicionais de brincar. A Mattel detém IPs famosas como a Barbie e os Hot Wheels. Ambas as partes comprometeram-se a garantir rigorosamente a segurança e privacidade das crianças na colaboração. A Mattel também integrará as ferramentas de IA da OpenAI (como o ChatGPT Enterprise) nas suas operações comerciais para reforçar o desenvolvimento e inovação de produtos (Fonte: 36氪)

Startup de pesquisa empresarial Glean conclui ronda de financiamento de fase tardia de 150 milhões de dólares: A startup de pesquisa empresarial Glean anunciou a obtenção de 150 milhões de dólares numa ronda de financiamento de fase tardia, elevando a sua avaliação para 7,2 mil milhões de dólares. A Glean utiliza tecnologia de IA para ajudar os funcionários das empresas a encontrar informações de forma mais eficiente entre as complexas aplicações SaaS e fontes de dados internas da empresa (Fonte: dl_weekly)

🌟 Comunidade

Hugging Face organiza hackathon global de robótica LeRobot para promover tecnologia robótica de código aberto: O Hugging Face organizou o hackathon de robótica LeRobot em várias cidades do mundo (incluindo Miami, Aachen, Lyon, Munique, Bangalore, Londres, Paris, Los Angeles, Baía de São Francisco, etc.). O evento teve como objetivo promover a tecnologia robótica de código aberto e a aplicação de IA no campo da robótica, com os participantes a utilizarem a plataforma LeRobot e o hardware fornecido (como braços mecânicos, câmaras de profundidade) para desenvolvimento. O evento atraiu um grande número de programadores, que exploraram conjuntamente tecnologias de ponta como aprendizagem robótica, treino de modelos de linguagem visual (VLA), e resultou em projetos criativos como um mini glambot, um assistente de laboratório biológico automatizado e um robô de cerimónia do chá (Fonte: ClementDelangue, huggingface, ClementDelangue)

Discussão sobre as capacidades e métodos de utilização do Claude Code: Surgiram discussões nas redes sociais sobre as capacidades do Claude Code. Alguns utilizadores consideram que, embora o Claude Code afirme que parte do seu código é gerado por si próprio, isso não equivale a um “bootstrapping” completo, comparando com o facto de o código do VSCode também ser maioritariamente escrito em VSCode. Enfatiza-se que, ao usar ferramentas como o Claude Code, devem ser adotados princípios básicos como iteração em pequenos passos, revisão de código, gestão de versões, e a capacidade de liderar o design do programa e a divisão de tarefas. Quando o código gerado apresenta problemas, deve-se primeiro tentar que ele o corrija; se não for eficaz, deve-se reverter. Outros utilizadores apontam que o Rizo, lançado pela Atlassian, é considerado um concorrente do Claude Code e oferece 20 milhões de tokens gratuitos por dia (Fonte: dotey, dotey, Reddit r/ClaudeAI)

Opiniões sobre o impacto da IA no mercado de trabalho: agrava a divisão, beneficia os melhores talentos: BrivaelLp considera que a tecnologia de IA atual (como ferramentas de geração de código) consegue aumentar a eficiência de programadores medianos em 5 vezes, enquanto os programadores de topo conseguem um aumento de 100 vezes. Isto levará as empresas a preferirem contratar talentos de topo experientes, reduzindo a necessidade de pessoal júnior. A IA poderá agravar o “efeito Mateus” dentro de vários setores, com os 10% de profissionais de topo a experienciarem uma era dourada, enquanto o nível intermédio enfrenta pressão, ecoando a ideia de que “não há mercado para os medíocres” (Fonte: BrivaelLp)

Discussão sobre as vantagens e cenários de aplicação de LLMs locais: A comunidade Reddit discutiu as vantagens de executar grandes modelos de linguagem (LLMs) localmente. Além da proteção da privacidade e da potencial poupança de custos (embora o investimento em hardware possa ser considerável), os utilizadores enfatizaram o controlo total sobre os modelos, a capacidade de personalização (como modificar modelos, integrar RAG), a ausência de limites de API, o uso offline e menos mecanismos de censura. Os LLMs locais também facilitam a aprendizagem e a experimentação, como por exemplo, utilizadores que implementam LLMs visuais localmente para processar fotografias de família ou desenvolvem assistentes de IA com memória e lógica emocional (Fonte: Reddit r/LocalLLaMA)

Debate contínuo sobre se os LLMs possuem verdadeira capacidade de raciocínio: Na comunidade, persiste o debate sobre se os grandes modelos de linguagem (LLMs) possuem verdadeiramente capacidade de raciocínio e onde se situam os limites dessa capacidade. François Chollet considera que a capacidade de raciocínio dos LLMs é limitada pela “não familiaridade” em vez da “complexidade”. Outra perspetiva defende que os LLMs apenas realizam correspondência de padrões e “recordação” com base em grandes volumes de dados de treino, não sendo um verdadeiro pensamento. Estas discussões refletem uma reflexão aprofundada sobre a natureza da tecnologia de IA atual e as suas futuras direções de desenvolvimento (Fonte: fchollet, francoisfleuret, vikhyatk)

IA demonstra potencial no diagnóstico médico, mas utilizadores devem ser cautelosos: No Reddit, um utilizador partilhou um caso em que o ChatGPT ajudou a sua esposa a corrigir um diagnóstico médico errado, o que gerou uma discussão sobre a aplicação da IA na área da saúde. Embora a IA mostre potencial no auxílio ao diagnóstico, especialmente na identificação de doenças raras e na análise de imagens médicas, a comunidade também enfatizou que IAs genéricas como o ChatGPT não são ferramentas médicas profissionais e as suas informações podem ser imprecisas ou desatualizadas. Os utilizadores devem ser extremamente cautelosos ao adotar conselhos médicos fornecidos por IA e devem sempre consultar médicos profissionais. Alguns utilizadores sugeriram verificar as limitações da IA perguntando-lhe se é absolutamente fiável (Fonte: Reddit r/ChatGPT, gdb)

Qualidade do conteúdo gerado por IA e preferências do utilizador geram discussão: Alguns defendem que certas características “indesejáveis” dos grandes modelos de linguagem (LLM), como serem demasiado prolixos ou complacentes com o utilizador, são na verdade resultado das preferências dos utilizadores. De forma análoga à preferência das pessoas por alimentos processados ricos em açúcar, as empresas de IA, para otimizar as classificações em plataformas como a LMArena, podem levar os modelos a produzir resultados que agradam ao utilizador em vez de buscarem a máxima precisão e concisão. HamelHusain também partilhou as suas diretrizes de escrita adicionadas aos prompts para combater o “lixo” no conteúdo gerado por IA, enfatizando a necessidade de eliminar ativamente informações redundantes (Fonte: scaling01, jeremyphoward, HamelHusain)

Valor dos AI Agents na automatização de tarefas específicas torna-se proeminente: Jerry Liu salienta que, embora os assistentes de chat genéricos se destaquem no brainstorming criativo, ainda exigem uma grande quantidade de engenharia de prompts para executar tarefas específicas. Ele acredita que a construção de sistemas de AI Agent automatizados, capazes de realizar excelentemente uma única tarefa específica, tem um valor imenso. Ao codificar processos específicos no fluxo de trabalho do Agent, é possível alcançar uma automatização mais eficiente e controlável. A LlamaIndex está a trabalhar para suportar este tipo de fluxos de trabalho de código especializado, e no futuro poderão surgir mais interfaces UI/UX sem código para construir tais Agents automatizados (Fonte: jerryjliu0)

💡 Outros

Prémio Jovens Investigadores da CVPR 2025 atribuído a Saining Xie e Hao Su: Na conferência CVPR 2025, Saining Xie e Hao Su foram galardoados com o Prémio Jovens Investigadores. Este prémio visa reconhecer as contribuições excecionais no campo da visão computacional de investigadores em início de carreira que obtiveram o doutoramento há não mais de 7 anos. Hao Su (aluno de doutoramento de Fei-Fei Li) participou no projeto ImageNet, enquanto Saining Xie colaborou com Kaiming He no ResNeXt e participou no projeto MAE, ambos trabalhos importantes na área da CV (Fonte: 量子位)

Impressora a laser Nikon SLM NXG poderá impulsionar uma revolução na indústria transformadora: A impressora a laser SLM NXG lançada pela Nikon apresenta uma aparência surpreendentemente semelhante aos equipamentos DUV (litografia ultravioleta profunda). Considera-se que esta impressora tem o potencial de desencadear uma revolução na indústria transformadora generativa, especialmente em áreas específicas. Embora a Nikon tenha perdido a corrida DUV para a ASML, a sua tecnologia de fonte laser continua a desenvolver-se e a ser aplicada em novas áreas de fabrico (Fonte: teortaxesTex)

Progresso significativo na geração de imagens por IA entre 2022 e 2025: Um utilizador do Reddit partilhou uma comparação de imagens geradas por IA em 2022 e 2025 usando o mesmo prompt (tema de “Rick and Morty”). A imagem de 2022 apresentava defeitos óbvios nos detalhes das personagens (como mãos, nariz) e na coerência geral, enquanto a imagem de 2025 melhorou drasticamente, mostrando o rápido desenvolvimento da tecnologia de geração de imagens por IA em apenas alguns anos. Embora alguns utilizadores ainda apontem que os detalhes das mãos das personagens na nova imagem não são perfeitos, o progresso geral é evidente (Fonte: Reddit r/artificial)

🔥 Foco

🎯 Tendências

🧰 Ferramentas

📚 Aprendizagem

💼 Negócios

🌟 Comunidade

💡 Outros

Tags Relacionadas

Related Posts

Diário de IA – 2026-07-20

Diário de IA – 2026-07-19

Diário de IA – 2026-07-18