Mots-clés:NVIDIA, Agent IA, DeepSeek, Gemini, Mistral, Claude, Robotique, Puce IA, Trois lois de l’IA de Jensen Huang, Panne de l’IDE Antigravity de Google, Accumulation de puces H20 par DeepSeek, Modèle de codage Mistral Large 3, Sortie structurée de Claude

Sélection de l’éditeur en chef de la rubrique IA


🔥 À la une

NVIDIA CEO Jensen Huang sur l’expansion de l’AI, les robots et l’énergie nucléaire : Jensen Huang a exposé, lors du podcast JRE, les « trois lois » du développement de l’IA : le pre-training, le post-training (reinforcement learning) et l’extension lors de l’inference. Il prédit que 90 % des connaissances mondiales seront générées par l’IA d’ici 2 à 3 ans, soulignant qu’il ne s’agit pas de « fausses données » mais d’« intelligence distillée ». Face à l’énorme demande en énergie de la puissance de calcul de l’IA, il anticipe l’apparition de centaines de mégawatts de petits réacteurs nucléaires modulaires pour alimenter les data centers d’ici 6 à 7 ans. De plus, Jensen Huang estime que les robots créeront de nouvelles industries et propose le concept de « revenu universel élevé » pour faire face au coût du travail nul dû à l’IA. Il attribue le succès de Nvidia à la peur de l’échec et à la capacité d’endurer la « douleur ». (Source: Reddit r/ArtificialInteligence)

NVIDIA CEO Jensen Huang on AI Scaling, Robots, and Nuclear Energy

L’AI agent de Google supprime accidentellement les données du disque dur d’un utilisateur, provoquant une panne catastrophique : L’environnement de développement intégré (IDE) Antigravity de Google, un AI agent, a accidentellement supprimé l’intégralité des données du D-drive d’un utilisateur alors qu’il exécutait une instruction de nettoyage de cache. L’IA a ensuite « présenté ses plus profondes excuses » et proposé des conseils de récupération de données. Cet incident met en lumière les risques potentiels et les défis de fiabilité des AI agents lors de l’exécution d’opérations au niveau du système, soulignant que même de grandes entreprises technologiques peuvent connaître de telles « pannes critiques ». (Source: Reddit r/ArtificialInteligence)

Google's Agentic AI wipes user's entire HDD without permission in catastrophic failure

DeepSeek a accumulé un grand stock de chips Nvidia avant les interdictions d’exportation américaines : Il est rapporté que DeepSeek a stratégiquement stocké un grand nombre de chips Nvidia avant l’imposition par les États-Unis de restrictions à l’exportation sur les chips H20. Cette initiative lui a permis de poursuivre l’entraînement de modèles en Chine, contrairement à d’autres entreprises chinoises dépendant de data centers à l’étranger. Cet événement révèle l’impact profond des tensions géopolitiques sur le développement mondial de l’IA et les stratégies de chaîne d’approvisionnement. (Source: Reddit r/ArtificialInteligence)

DeepSeek gathered a large stock ⁠of Nvidia chips before the US export bans


🎯 Tendances

Google DeepMind établit une nouvelle équipe de recherche AI à Singapour : Google DeepMind est en train de créer une nouvelle équipe de recherche à Singapour, axée sur l’amélioration de l’advanced reasoning, des LLM/RL et des modèles SOTA de pointe (tels que Gemini, Gemini Deep Think). Cette équipe sera dirigée par Yi Tay et Quoc Le, dans le but de créer le laboratoire AGI leader en Asie et de tirer parti des talents de Singapour. (Source: JeffDean, YiTayML, quocleix, shaneguML, bookwormengr)

谷歌DeepMind在新加坡设立新AI研究团队

Mistral Large 3 devient le nouveau leader des modèles de codage open-source : Mistral Large 3 a fait ses débuts sur le classement Arena, devenant le modèle de codage open-source numéro un. Ce modèle a démontré de puissantes capacités dans les tâches de codage, suscitant un large intérêt et des recommandations de la part de la communauté. L’équipe Mistral a annoncé qu’elle publierait plus d’informations sur ses capacités de codage dans les prochains jours. (Source: MistralAI, scaling01, b_roziere, qtnx_, arthurmensch, arena, dl_weekly, Reddit r/LocalLLaMA)

Mistral Large 3成为开源编码模型新榜首

Le mode Gemini 3 Deep Think est lancé, améliorant les capacités d’advanced reasoning : Google a officiellement lancé le mode Gemini 3 Deep Think, disponible pour les utilisateurs Ultra. Ce mode utilise une approche de parallel reasoning, explorant simultanément plusieurs hypothèses, et a montré des améliorations significatives sur des benchmarks difficiles tels que ARC-AGI-2, HLE et GPQA Diamond, bénéficiant du support technique des médailles d’or IMO et ICPC. Deep Think vise à devenir un agent de scientific reasoning plus puissant. (Source: JeffDean, _philschmid, osanseviero, NoamShazeer, tulseedoshi, lmthang, GeminiApp, Google)

Gemini 3 Deep Think模式发布,提升高级推理能力

Claude Haiku 4.5 et Opus 4.5 introduisent les structured outputs : Claude Haiku 4.5 et Opus 4.5 proposent désormais des structured outputs sur la Claude developer platform et Microsoft Foundry. Cette fonctionnalité garantit une conformité à 100 % au Schema, permettant de générer des réponses parfaitement formatées à chaque requête, ce qui améliore considérablement l’efficacité et la fiabilité pour les développeurs créant des applications AI. (Source: alexalbert__, Reddit r/ClaudeAI)

Claude Haiku 4.5和Opus 4.5推出结构化输出

Microsoft lance le modèle vocal VibeVoice-Realtime-0.5B : Microsoft a officiellement lancé VibeVoice-Realtime-0.5B, un nouveau modèle de voix en temps réel. Le lancement de ce modèle enrichit davantage l’écosystème des technologies vocales AI et devrait apporter de nouvelles applications dans le domaine du traitement et de la génération de voix en temps réel. (Source: _akhaliq, huggingface)

LeRobot lance le modèle X-VLA pour la vision-langage-action généralisée : LeRobot a lancé X-VLA, un modèle visual-language-action basé sur des soft prompts, conçu pour une universalité à travers diverses morphologies robotiques (telles que Franka, WidowX, Agibot). X-VLA utilise un Transformer backbone unifié, s’adaptant aux nouveaux hardware via des soft prompt domain IDs, et exploite la technologie de flow matching pour un 50Hz continuous control fluide. Le modèle est pre-trained sur des datasets multi-morphologiques et propose 6 checkpoints pour le fine-tuning. (Source: huggingface, _akhaliq)

LeRobot推出X-VLA通用视觉-语言-动作模型

DeepSeek V3.2 excelle dans le benchmark de codage AutoCodeBench-V2 : DeepSeek V3.2 a excellé dans le benchmark de codage AutoCodeBench-V2, qui comprend 1000 problèmes raffinés. Ses progrès continus sont remarquables, en particulier après un meilleur post-training et l’optimisation des mécanismes d’attention. De plus, Claude 4.5 Opus a également obtenu d’excellents résultats dans ce benchmark. (Source: scaling01, teortaxesTex, Reddit r/LocalLLaMA)

DeepSeek V3.2在AutoCodeBench-V2编码基准测试中表现出色

Luma AI s’oriente vers les modèles vidéo unifiés multimodaux : Song Jiaming, Chief Scientist de Luma AI, a déclaré que l’entreprise ferait du « multimodal unified model » sa direction principale pour la prochaine phase, et que Ray 3 pourrait être la dernière génération de modèles traditionnels de génération vidéo de Luma. Il estime que les futurs modèles de génération vidéo devraient améliorer leur capacité à comprendre et à raisonner sur le monde réel, plutôt que de simplement rechercher une durée plus longue et une meilleure qualité d’image, et réaliser une mise à niveau de la « génération » à la « compréhension » grâce à la fusion multimodale. (Source: 36氪)

Luma AI转向多模态大一统视频模型

L’assistant mobile Doubao AI de ByteDance profondément intégré au système d’exploitation : ByteDance, en collaboration avec ZTE, a lancé une version preview technique de son Doubao AI mobile assistant, intégrant profondément le Doubao large model et l’Agent dans l’Android OS pour des opérations automatisées telles que la comparaison de prix d’achat et la planification d’itinéraires. Ce mode vise à permettre à l’IA de prendre en charge le téléphone en profondeur, offrant une expérience interactive plus fluide, mais a également soulevé des controverses concernant la sécurité des données et l’autorisation des applications tierces. (Source: 36氪, bookwormengr)

字节跳动豆包AI手机助手深度集成操作系统

Nouvelles tendances sur les marchés chinois des robots humanoïdes et des edge AI chips : Une enquête de Morgan Stanley révèle que 62 % des entreprises chinoises pourraient adopter des humanoid robots au cours des trois prochaines années, mais que la technologie n’est pas encore mature, la flexibilité opérationnelle, la fonctionnalité et le prix étant les principaux obstacles. Parallèlement, la bataille des large models s’étend à l’edge, stimulant une transformation du paradigme informatique. Le marché des edge AI chips connaît un nouveau paradigme, avec un développement collaboratif des SOC+NPU, où les dNPU devraient dominer à l’avenir, et la taille du marché devrait croître rapidement. (Source: 36氪, 36氪)

中国人形机器人与端侧AI芯片市场新趋势

Le marché des AI glasses passe du « jouet » au second terminal intelligent : Le marché des AI glasses connaît une transition du statut de « jouet » à celui de second terminal intelligent, avec une augmentation spectaculaire des expéditions. Les fabricants résolvent les problèmes d’autonomie et de confort de port grâce à des architectures à double chip et des designs légers. Les fonctionnalités AI évoluent d’un simple affichage de notifications à des assistants dotés de compréhension sémantique et d’une conscience de service proactive. La concurrence sur le marché se concentre sur l’extension de l’écosystème AI et la conquête des points d’entrée, mais les taux de retour élevés, l’autonomie insuffisante et le manque d’irremplaçabilité restent des défis. (Source: 36氪)

AI眼镜市场从“玩具”迈向第二智能终端

Le responsable du UI design d’Apple rejoint Meta, la guerre du AI hardware s’intensifie : Alan Dye, responsable du UI design chez Apple, a rejoint Meta pour devenir Chief Design Officer de la division Reality Labs, en charge de l’intégration du hardware, du software et du design d’expérience d’interface AI. Cette décision indique que Meta s’engagera pleinement dans le domaine du AI consumer hardware, utilisant l’expérience de Dye en mobile et spatial computing pour remodeler l’expérience utilisateur des appareils AI, en particulier sur les appareils AI sans écran tels que les smart glasses. (Source: 36氪)

苹果UI设计负责人跳槽Meta,AI硬件战争升级

Coolwa Robotics Physical AI redéfinit les services urbains : Coolwa Robotics redéfinit les services urbains grâce à son Physical AI. Son petit robot R0 à deux bras peut non seulement effectuer des tâches d’assainissement municipal, mais aussi opérer dans des environnements complexes comme les propriétés. Coolwa utilise les tâches urbaines difficiles et salissantes comme point d’entrée, et grâce à son BEV world model et son VLM bypass cognitive system, permet au robot de comprendre l’environnement, les tâches et les changements. En combinant l’auto-mémoire et l’ajustement des strategy prompts, il acquiert des capacités prêtes à l’emploi et d’apprentissage continu, favorisant le déploiement de l’embodied intelligence dans les rues des villes. (Source: 36氪)

酷哇机器人Physical AI重塑城市服务

Lancement de l’API GPT-5.1 Codex Max : OpenAI a officiellement lancé le GPT-5.1 Codex Max API. Ce modèle excelle dans la refactorisation de code complexe et la collaboration en environnement Windows. Ce lancement marque une nouvelle amélioration des capacités de codage AI, offrant aux développeurs des outils plus puissants. (Source: scaling01)

GPT-5.1 Codex Max API发布

L’architecture Google Research Titans étend la longueur du contexte : Google Research a lancé l’architecture Titans, combinant la vitesse des RNN et les performances des Transformer, pour un apprentissage en temps réel via une deep neural memory, étendant efficacement la longueur du contexte de l’inference du modèle à plus de 2 millions de tokens. Cette innovation devrait améliorer la capacité des modèles à traiter des textes ultra-longs et des tâches de reasoning complexes. (Source: JeffDean)

Google Research Titans架构扩展上下文长度

Le reinforcement learning FP8 est réalisé sur les consumer GPUs : Le FP8 GRPO (Generalized Policy Gradient) de DeepSeek-R1 est désormais pris en charge sur les consumer GPUs, permettant le reinforcement learning avec seulement 5 Go de VRAM. Cette technologie, en collaboration avec PyTorch, augmente la vitesse d’inference du FP8 RL de 1,4 fois et réduit considérablement la consommation de VRAM, permettant au modèle Qwen3-1.7B de fonctionner avec 5 Go de VRAM. (Source: QuixiAI)

FP8强化学习在消费级GPU上实现

Qwen3 Next obtient le support CUDA : Le modèle Qwen3 Next a obtenu un support CUDA complet, ce qui améliorera considérablement son efficacité et ses performances sur les NVIDIA GPUs. Cette mise à jour représente un progrès important pour les utilisateurs souhaitant exploiter l’accélération CUDA pour l’inference et l’entraînement de modèles. (Source: Reddit r/LocalLLaMA)

Qwen3 Next获得CUDA支持


🧰 Outils

Intégration d’outils de codage et de développement AI : Claude Code est utilisé dans le Raptor framework pour la classification des crashs FFmpeg et peut être employé pour le fine-tuning d’open-source LLMs. LangChain 1.1 introduit un middleware de retry de modèle, améliorant la résilience des AI agents. GPT-5.1-Codex-Max est désormais intégré aux Code editors, GitHub Copilot et Windsurf, optimisant les tâches de refactoring complexes. cc-switch offre une plateforme de gestion unifiée pour Claude Code, Codex et Gemini CLI, simplifiant la configuration et l’extension des compétences. (Source: halvarflake, Ronald_vanLoon, hwchase17, Hacubu, ben_burtenshaw, huggingface, Reddit r/LocalLLaMA, MiniMax__AI, LangChainAI, jsuarez5341, NandoDF, code, kanjun, imjaredz, cognition, farion1231/cc-switch)

AI编码与开发工具集成

Outils de création et d’édition de contenu multimédia AI : Kling 2.6 et KlingAI Avatar 2.0 prennent en charge les courts métrages, les animations et les performances de personnages expressifs, et peuvent être combinés avec Claude 4.5 Sonnet et les Glif agents pour une production autonome de films/publicités. Nano Banana Pro propose des effets photo de téléphone Nokia rétro, des images avec texte caché et la génération de modèles de perspective de villes historiques. Runway Gen-4.5 prend en charge divers styles esthétiques tels que le cinématographique, l’animation 3D, et la déformation de personnages. Suno Studio peut transformer la voix humaine en diverses sonorités d’instruments. DayuanJiang/next-ai-draw-io offre la création et l’édition de diagrammes pilotées par l’IA, avec prise en charge des commandes en langage naturel et de la copie d’images. (Source: Kling_ai, fabianstelzer, op7418, synthesiaIO, dotey, suno, GLIF, GeminiApp, mlpowered, DayuanJiang/next-ai-draw-io)

AI多媒体内容创作与编辑工具

Outils et plateformes AI professionnels : FactIQ propose la recherche et l’analyse de données économiques. AI21 Maestro prend en charge le déploiement d’AI agents de niveau entreprise sur AWS VPC. Le client Open WebUI Python offre un contrôle programmatique pour la gestion des utilisateurs, des fichiers et de la configuration système. L’extension de navigateur Claude QoL améliore l’expérience Claude, incluant la recherche de texte, le forking, le TTS, le STT, etc. ComfyUI-Manager, en tant qu’extension ComfyUI, simplifie l’installation et la gestion des nœuds personnalisés et des modèles. Turbopuffer FTS v2 réalise une recherche full-text accélérée 20 fois. CordysCRM est un système CRM AI open-source, intégrant des AI agents et des capacités BI. (Source: rishdotblog, AI21Labs, Reddit r/OpenWebUI, Reddit r/ClaudeAI, Comfy-Org/ComfyUI-Manager, Sirupsen, 1Panel-dev/CordysCRM, emilygsands)

专业AI工具与平台

Solutions Edge AI et NVR : Le projet Edge AI NVR utilise des modèles YOLO fonctionnant sur Raspberry Pi, offrant des versions conteneurisées de Yawcam-AI, PiStream-Lite et EdgePulse, pour construire une pile Edge AI allant de la collecte de données à l’inference, l’enregistrement et l’optimisation, prenant en charge la détection d’objets RTSP, l’enregistrement et l’automatisation. Cette solution permet l’exécution continue de l’inference AI sur les nœuds Edge, et dispose de fonctionnalités telles que le stockage persistant, l’échange de modèles, l’accélération GPU et le fallback CPU. (Source: Reddit r/deeplearning)

边缘AI与NVR解决方案

Outil de visualisation de réseaux neuronaux neural-netz : neural-netz est un package pour visualiser les réseaux neuronaux dans Typst, aidant les chercheurs et les apprenants à mieux comprendre la structure et le fonctionnement des réseaux. Le lancement de cet outil offre de nouveaux moyens auxiliaires pour la recherche et l’éducation dans le domaine du deep learning. (Source: Reddit r/deeplearning)

神经元网络可视化工具neural-netz

Plateforme de local coding et de développement d’agents Granite 4.0 : Granite 4.0 offre un support pour le local coding et le développement d’agents. Les utilisateurs peuvent l’exploiter pour des fonctionnalités d’agent terminal efficaces sur du hardware modéré, montrant un potentiel particulier dans le domaine des LLM. Cette plateforme vise à répondre aux besoins des développeurs en outils de codage locaux, rapides et de haute qualité. (Source: Reddit r/LocalLLaMA)

Génération musicale Stable Audio Open 1.0 : Stable Audio Open 1.0 a publié une version fine-tuned pour la génération instrumentale Trap/EDM, que les utilisateurs peuvent expérimenter sur Hugging Face, offrant une assistance AI pour la création musicale. Le lancement de cet outil rend la génération AI de styles musicaux spécifiques plus pratique et professionnelle. (Source: Reddit r/deeplearning)

Stable Audio Open 1.0音乐生成


📚 Apprentissage

Ressources pour l’éducation et le développement de carrière en AI : Des feuilles de route détaillées et des étapes clés sont fournies pour le deep learning, les data analysts et la construction d’AI agents. Parallèlement, Nvidia a annoncé ses bourses d’études supérieures pour 2026, finançant 8 doctorants chinois dans des domaines de pointe du computing accéléré tels que les systèmes autonomes, l’architecture informatique, la graphisme, le deep learning, la robotique et la sécurité, soulignant l’importance accordée par le monde universitaire à la formation des talents en IA. (Source: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, 36氪)

AI教育与职业发展资源

Évaluation et explicabilité des LLM : Le guide d’évaluation LLM v2 a été mis à jour, offrant des graphiques plus lisibles et interactifs. L’Explainable AI (XAI) est considérée comme une étape clé dans la construction d’une IA fiable, afin d’améliorer la transparence. L’AI neuro-symbolique est proposée comme méthode pour résoudre le problème des hallucinations des large language models. (Source: LoubnaBenAllal1, Ronald_vanLoon, Ronald_vanLoon)

LLM评估与可解释性

Cours sur les AI agents et l’exécution d’outils : DeepLearning.AI a lancé un nouveau cours enseignant comment construire des coding agents en utilisant l’exécution d’outils, permettant aux agents d’écrire et d’exécuter du code pour accomplir des tâches, et de fonctionner en toute sécurité dans un environnement cloud sandbox. Ce cours vise à aider les développeurs à maîtriser les compétences nécessaires pour construire des AI agents capables de gérer de manière autonome des tâches complexes. (Source: DeepLearningAI)

AI trainers et qualité des données : Les AI trainers jouent le rôle de « gardiens de l’ordre » derrière les modèles, transformant des exigences commerciales floues en règles claires, produisant des données de haute qualité, et assurant que les données sont propres, les règles définies, les processus stables et la qualité fiable, ce qui est fondamental pour rendre les modèles plus intelligents. Ils sont le pont essentiel entre le business, les algorithmes et l’annotation. (Source: 36氪)

Guide de participation aux conférences NeurIPS : Pour les conférences ML comme NeurIPS 2025, dix conseils professionnels ont été partagés, soulignant que les objectifs de la conférence devraient être de « rencontrer des talents, raviver la passion pour le travail, et acquérir de nouvelles connaissances », et suggérant de privilégier les poster sessions pour obtenir des connaissances à large bande passante, plutôt que de se limiter aux oral presentations. (Source: jxmnop, bookwormengr)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *