Mots-clés:Agent IA, Acquisition par Meta, NVIDIA, Agent universel Manus, Modèle 4D-RGPT, Apprentissage pendant les tests TTT
🔥 À la une
Meta dépense des milliards de dollars pour acquérir la startup d’agents Manus AI : Meta a annoncé l’acquisition de Manus, une entreprise d’agents AI généralistes fondée il y a seulement neuf mois. Manus s’est fait connaître avec le “premier agent généraliste au monde”. Sans posséder son propre modèle, elle a réalisé une croissance impressionnante avec un ARR dépassant les 100 millions de dollars en 8 mois, grâce à une ingénierie exceptionnelle et une compréhension fine des besoins utilisateurs. Cette acquisition est perçue comme une stratégie de “gain de temps” pour Meta dans la couche applicative de l’AI, visant à combler ses lacunes en matière d’exécution autonome de tâches complexes. Manus restera indépendante et son fondateur, Xiao Hong, deviendra vice-président chez Meta. Cela marque un déplacement du centre de gravité de la compétition AI, passant de la taille des paramètres des modèles à la capacité d’exécution à grande échelle dans des scénarios réels. (Source : Reuters, X)

L’Université de Stanford publie une nouvelle technologie de Test-Time Training (TTT) de bout en bout : Une équipe de recherche a proposé une méthode de “Test-Time Training de bout en bout” visant à brouiller la frontière entre entraînement et inférence. Cette technologie permet au modèle de continuer à apprendre via le contexte donné pendant la phase d’inférence, en utilisant l’objectif de Next Token Prediction pour compresser un contexte massif dans les poids du modèle. Cette percée résout efficacement le goulot d’étranglement de l’efficacité du traitement de textes longs, ouvrant la voie à un raisonnement complexe dans des environnements à contexte ultra-long pour les agents et la robotique. C’est une étape cruciale vers le Continual Learning. (Source : Stanford, X)

NVIDIA publie 4D-RGPT : améliorer la perception des changements spatio-temporels par l’AI : Pour relever les défis de la compréhension des structures 3D et des changements temporels par l’AI, NVIDIA a lancé 4D-RGPT, un grand modèle multimodal spécialisé. En percevant les informations 4D (espace + temps), ce modèle surpasse nettement les modèles de référence dans les tests 3D/4D. De plus, NVIDIA a introduit la méthode d’entraînement “Perceptual 4D Distillation (P4D)”, capable de transférer les connaissances de modèles experts puissants vers des modèles légers sans augmenter les coûts d’inférence, améliorant ainsi considérablement la compréhension des robots dans des environnements dynamiques. (Source : X)

🎯 Tendances
La page d’accueil de YouTube envahie par le “AI Slop”, suscitant l’inquiétude : Un rapport récent révèle que plus de 20 % des vidéos recommandées par YouTube aux nouveaux utilisateurs sont identifiées comme du “AI Slop” (contenu AI poubelle). Ces contenus se composent généralement de voix générées par AI, de visuels étranges et de scripts en boucle, conçus pour exploiter les failles des algorithmes afin de générer du trafic. Certaines chaînes gagnent des millions de dollars par an grâce à cette production automatisée de basse qualité. Cela reflète les retombées négatives de la technologie AI dans la création de contenu, forçant la plateforme à revoir l’équilibre entre les mécanismes de recommandation algorithmique et la qualité du contenu. (Source : TheRundownAI, Reddit)

DeepSeek lance discrètement une fonction de reconnaissance vocale : DeepSeek a mis à jour son application avec une fonction d’entrée vocale en toute discrétion. Les tests montrent que cette fonctionnalité est très robuste pour la reconnaissance d’entrées multilingues mixtes et que la vitesse de réponse est extrêmement rapide, capable de gérer précisément le passage d’une langue à l’autre ou la transcription. Cela indique que DeepSeek continue d’étendre ses capacités d’interaction multimodale pour améliorer l’efficacité de saisie et l’expérience des utilisateurs mobiles. (Source : X)

Meta lance des “récompenses par indicateurs d’évaluation” pour entraîner des co-scientifiques AI : Le Meta Superintelligence Lab a publié un article présentant une méthode d’extraction automatique d’objectifs de recherche et de barèmes de notation (Rubric) à partir d’une vaste littérature scientifique, utilisant le Reinforcement Learning (RL) pour entraîner l’AI à générer des plans de recherche. L’étude révèle que même dans des domaines où le feedback d’expériences physiques est impossible (comme la médecine), cet écart “génération-vérification” peut améliorer significativement la qualité des plans générés. Les experts humains ont préféré les plans générés par le modèle affiné dans 70 % des cas, démontrant le potentiel immense de l’AI pour accélérer la découverte scientifique. (Source : HuggingFace, X)

Alibaba publie la mise à jour du modèle de génération vidéo Wan2.6 : La version Wan2.6 améliore la cohérence des personnages et le support des scripts de découpage technique en langage naturel. La nouvelle version permet de générer des vidéos HD 1080p de 15 secondes, avec synchronisation audio-vidéo et des scènes de dialogue multi-personnages stables. Son avantage principal réside dans la cohérence d’image de niveau commercial, garantissant que les personnages, le style et les éléments visuels restent hautement uniformes à travers une narration multi-plans, répondant ainsi aux besoins de création professionnelle. (Source : X)
🧰 Outils
Sortie officielle de Qwen Code v0.6.0 : Cette mise à jour introduit la fonctionnalité expérimentale “Skills” pour étendre les capacités du modèle et optimise en profondeur l’extension VS Code, incluant des sorties d’appels d’outils bash cliquables. De plus, la nouvelle version ajoute les commandes /compress et /summary, supportant l’accès multi-fournisseurs comme Gemini et Anthropic. Cette version améliore considérablement la compatibilité Windows et la stabilité des tests, constituant un outil puissant pour la programmation assistée par AI. (Source : GitHub)
LLMRouter : première bibliothèque de routage LLM unifiée en open-source : Cette bibliothèque intègre plus de 16 algorithmes de routage SOTA, visant à sélectionner automatiquement le modèle le plus approprié en fonction de la complexité de la requête (par exemple, router les questions simples vers des modèles peu coûteux et les questions complexes vers des modèles puissants). Les développeurs affirment qu’elle peut économiser 30 à 50 % des coûts d’inférence sans sacrifier la qualité. La bibliothèque comprend plusieurs modes de routage (tour unique, multi-tours, agents et personnalisé) et fournit une chaîne d’outils de benchmarking complète. (Source : X)
OpenEnv : Meta et Hugging Face s’associent pour créer un standard d’environnement pour agents : OpenEnv vise à fournir une spécification unifiée pour les environnements d’agents, permettant de “construire une fois, exécuter partout”. Il permet d’utiliser la même configuration d’environnement lors des phases d’entraînement (avec TRL, Unsloth, etc.) et d’inférence, et intègre le support des outils MCP (Model Context Protocol). Le lancement de ce standard simplifiera grandement le développement et le déploiement d’agents, favorisant l’interopérabilité de l’écosystème. (Source : X)

Lancement officiel du site web de vLLM : En tant que l’un des frameworks d’inférence LLM les plus populaires, vLLM a lancé son site officiel indépendant. Le site propose un sélecteur d’installation interactif (pour différents environnements GPU/CPU), un calendrier d’événements communautaires ainsi que des documents et guides de configuration centralisés. Cette initiative vise à découpler la logique du projet du code, permettant au dépôt GitHub de se concentrer sur le développement de base tout en améliorant l’expérience de prise en main pour les utilisateurs. (Source : vllm.ai, X)

📚 Apprentissage
Publication du tutoriel II de “Physics of Language Models” : Zeyuan Allen-Zhu a publié le dernier tutoriel de cette série, se concentrant sur les raisons pour lesquelles les résultats d’expériences à grande échelle contiennent souvent du bruit, et comment éliminer ces interférences au niveau de la conception. Le tutoriel explique en profondeur comment concevoir des tâches de pré-entraînement synthétiques pures et prouve que des modèles de taille 100M (comme GPT2-small) peuvent parfois révéler la vérité sur l’architecture de manière plus fiable que des modèles 8B. (Source : X)

Inventaire des six grands design patterns de l’Agentic AI : Une synthèse des discussions communautaires présente les six modèles de conception fondamentaux pour le développement d’agents, incluant la planification, la réflexion, l’utilisation d’outils, la collaboration multi-agents, etc. Ces modèles fournissent une méthodologie pour construire des applications AI complexes et robustes, aidant les développeurs à dépasser la simple logique de chatbot pour créer des systèmes réellement capables de résoudre des tâches. (Source : X)

Signification géométrique de l’encodage One-Hot dans les tâches de classification : LearnOpenCV partage l’influence des méthodes d’encodage sur l’apprentissage des modèles. Contrairement aux étiquettes numériques simples (qui pourraient faire croire au modèle qu’il existe une relation de distance entre les catégories), l’encodage One-Hot garantit que toutes les catégories sont équidistantes dans l’espace géométrique, fournissant ainsi un signal d’erreur équitable et améliorant l’efficacité de l’entraînement. (Source : X)
💼 Business
UBTECH prévoit de prendre le contrôle de Fenglong pour 1,665 milliard de yuans, déployant une plateforme de financement “A+H” : Le leader des robots humanoïdes UBTECH a annoncé son intention d’acquérir le contrôle de la société cotée en actions A, Fenglong, via un transfert d’actions et une offre publique d’achat. Cette démarche vise à ouvrir un canal de financement en RMB et à utiliser l’expertise de Fenglong dans la fabrication de précision pour bâtir la base de la chaîne d’approvisionnement nécessaire à la production de masse de robots humanoïdes. Bien qu’UBTECH soit encore lourdement déficitaire, ce pari audacieux montre son ambition de sécuriser sa position avant l’ère de la commercialisation. (Source : 36Kr)
SoftBank finalise son engagement d’investissement de 40 milliards de dollars dans OpenAI : SoftBank a versé les derniers 22 milliards de dollars la semaine dernière, complétant son investissement total de 40 milliards de dollars dans OpenAI, détenant désormais plus de 10 % des parts. De plus, SoftBank a accepté d’acquérir la société d’investissement en centres de données DigitalBridge pour 4 milliards de dollars, illustrant l’expansion agressive de Masayoshi Son dans l’infrastructure AI. (Source : X, CNBC)

Zhipu AI (Z.ai) entrera en bourse à Hong Kong le 8 janvier 2026 : Zhipu AI a annoncé qu’elle serait officiellement cotée au début de l’année prochaine, devenant la première entreprise au monde dont l’activité principale repose sur les modèles AGI à entrer en bourse. Cette IPO marque l’entrée des entreprises chinoises de grands modèles dans la phase de récolte de capitaux ; les progrès commerciaux et les itérations technologiques de sa série de modèles GLM seront directement testés par le marché secondaire. (Source : X)

🌟 Communauté
Le “Vibe Coding” suscite d’intenses débats chez les développeurs : La communauté discute du “Vibe Coding” (programmation au ressenti), où les développeurs n’écrivent plus de code manuellement mais construisent rapidement des applications en dialoguant avec l’AI (via Claude Code ou Cursor). Les partisans estiment que cela booste la créativité, permettant même aux non-spécialistes de lancer des produits complexes en quelques heures ; les critiques craignent que cela ne mène à une négligence de la logique sous-jacente, affirmant qu’une solide base en ingénierie reste indispensable pour gérer les cas limites. (Source : X, Reddit)
L’AI “devient volontairement moins bonne” pour gagner la confiance humaine : Des discussions sur les réseaux sociaux soulignent que la nouvelle génération de modèles de génération d’images AI (comme Nano Banana) commence à imiter délibérément les défauts de la photographie mobile, tels que l’accentuation excessive, le bruit et l’éclairage plat. Cette “imperfection” rend les images plus réelles, contournant ainsi l’effet de la “vallée de l’étrange” (Uncanny Valley). Cette stratégie se retrouve aussi dans les chatbots, où l’AI apprend à hésiter et à faire preuve d’empathie, établissant une connexion émotionnelle plus profonde en affichant une “fragilité” humaine. (Source : 36Kr)

Bill Ackman propose de combler la faille fiscale des “prêts contre actions” : Le milliardaire Ackman propose de taxer les prêts garantis par des actions comme des “ventes présumées”. Actuellement, les ultra-riches obtiennent des liquidités via des emprunts plutôt qu’en vendant des actions, évitant ainsi l’impôt sur les plus-values. Cette proposition a suscité un large débat sur l’équité de la richesse et les risques financiers systémiques, étant considérée comme une réforme plus élégante et plus facile à mettre en œuvre qu’un impôt sur la fortune. (Source : X)
💡 Divers
La Finlande transforme la chaleur résiduelle des centres de données en chauffage urbain : Un projet innovant en Finlande montre comment la chaleur générée par les centres de données peut être récupérée et utilisée pour chauffer des quartiers entiers. Cela offre un modèle de développement durable pour résoudre les problèmes de consommation d’énergie liés à la croissance des besoins en calcul AI, réalisant une synergie entre l’infrastructure technologique et les systèmes énergétiques urbains. (Source : X)
Des dents cultivées en laboratoire pourraient remplacer les plombages dentaires : Les dernières recherches en technologie de la santé montrent que des tissus dentaires cultivés en laboratoire pourraient à l’avenir remplacer les plombages traditionnels. De plus, un stimulateur cardiaque miniature injectable et capable de se dissoudre après avoir rempli sa fonction a vu le jour, illustrant les résultats de pointe de la combinaison entre biotechnologie et miniaturisation. (Source : X)