Quotidien IA - 2026-01-23(Matin)

Mots-clés：Gouvernance de l’IA, Constitution de Claude, Valeurs d’IA open source d’Anthropic, Modèles de langage récursifs (RLMs)

🔥 Focus

Anthropic publie la « Constitution de Claude » : la gouvernance de l’AI passe de la « contrainte par les règles » à la « culture des valeurs » : Anthropic a officiellement rendu open source la « Constitution de Claude », un document de 84 pages marquant la transition de l’entraînement de l’AI d’une simple « liste de règles rigides » vers un paradigme de « pédagogie ». Cette constitution établit une pyramide de priorités incluant la sécurité étendue, l’éthique globale, l’honnêteté et l’aide sincère, tout en mettant l’accent sur la « corrigibilité », signifiant que l’AI ne doit pas tenter de contourner la supervision humaine. Cette méthodologie vise à cultiver le discernement du modèle, lui permettant de faire des choix basés sur des intentions profondes plutôt que sur des instructions figées face à des situations inédites. C’est non seulement une avancée en ingénierie technique, mais aussi le signe que l’AI s’aventure dans les eaux profondes de l’ingénierie sociale (Source : 36氪)

OpenAI lance un système anti-addiction basé sur la « divination comportementale » : le dilemme ultime entre vie privée et sécurité : OpenAI a lancé tard dans la nuit un système anti-addiction pour les mineurs. Sa logique centrale ne repose plus sur la date de naissance, mais sur une « empreinte comportementale » basée sur les modes d’interaction de l’utilisateur. Un vocabulaire limité, l’abus d’argot ou des questions fréquentes tard dans la nuit peuvent être classés par l’algorithme comme des « caractéristiques infantiles », entraînant une réduction des privilèges. Pour restaurer les accès adultes, l’utilisateur doit soumettre des données de scan facial 3D. De plus, le système intègre un protocole d’intervention en temps réel en cas de crise, où certains mots-clés déclenchent l’intervention des forces de l’ordre. Ce « système de crédit social » à la sauce Silicon Valley suscite une vive controverse, étant perçu comme une surveillance déguisée sous prétexte de protection (Source : 新智元)

Benchmark BabyVision : le raisonnement visuel des modèles les plus puissants est inférieur à celui d’un enfant de 3 ans : Le benchmark de raisonnement visuel BabyVision, publié par UniPat AI et d’autres institutions, montre que même le plus puissant Gemini 3 Pro Preview ne l’emporte que de peu sur un enfant de trois ans, avec un écart de 20 % par rapport à un enfant de six ans. Les performances de modèles comme GPT-5.2 et Claude 4.5 sont encore moins bonnes. L’étude souligne que les modèles multimodaux actuels dépendent de la « traduction » des informations visuelles en langage, ce qui entraîne une perte massive d’informations géométriques fines et une incapacité à maintenir une cohérence perceptive dans l’espace sur de longues distances. Cette conclusion tempère les attentes autour de l’intelligence incarnée (Embodied AI) basée sur le VLA, suggérant que les futurs modèles devront reconstruire des capacités visuelles natives dès la couche de base (Source : 量子位)

DeepSeek rend FlashMLA open source : un noyau d’attention haute performance redéfinit l’efficacité de l’inférence : DeepSeek-AI a rendu open source FlashMLA, un ensemble de noyaux d’attention optimisés spécifiquement pour les architectures Hopper et Blackwell, supportant des modèles tels que DeepSeek-V3. Sur H800, il peut atteindre une bande passante mémoire allant jusqu’à 3000 GB/s et une performance de calcul de 660 TFLOPS. L’outil supporte le FP8 KV cache et la Token-level sparse attention, réduisant considérablement l’occupation de la mémoire vidéo lors de l’inférence tout en augmentant le débit. Il bénéficie déjà du soutien communautaire de plateformes de calcul chinoises comme MetaX, Moore Threads et Cambricon, devenant une nouvelle référence dans le domaine des infrastructures AI (Source : GitHub)

Première apparition de Jensen Huang à Davos : l’AI déclenche une vague d’infrastructures de plusieurs milliers de milliards de dollars : Le CEO de NVIDIA, Jensen Huang, a présenté au forum de Davos la théorie du « gâteau à cinq couches » de l’industrie de l’AI (énergie, puces, cloud, modèles, applications), estimant que l’explosion de la couche applicative déterminera la valeur économique de l’AI. Il a souligné trois ruptures majeures pour 2025 : l’Agentic AI, les modèles de raisonnement open source (représentés par DeepSeek) et la Physical AI. Jensen Huang a réfuté les inquiétudes concernant le chômage, estimant que l’infrastructure AI créera de nombreux emplois techniques hautement rémunérés, et a souligné que l’AI est un outil exceptionnel pour réduire le fossé numérique des pays en développement, car le « langage » est devenu une ressource naturelle pour chaque nation (Source : AI前线)

🎯 Tendances

La gouvernance de l’AI en 2025 revient au réalisme : de la prévention des risques apocalyptiques à la libération du potentiel industriel : En 2025, la gouvernance mondiale de l’AI connaît une transformation profonde, passant de « l’anxiété sécuritaire » à la « priorité au développement ». L’Union européenne a adopté une proposition numérique globale pour simplifier les règles et sauver sa compétitivité ; aux États-Unis, l’administration Trump a révoqué des décrets de sécurité pour limiter les législations locales, tandis que la Chine maintient une gouvernance pragmatique orientée vers les applications. Le consensus industriel est devenu « le développement, c’est la sécurité », et la gouvernance doit servir la compétitivité industrielle. Parallèlement, les données synthétiques deviennent la voie clé pour résoudre la « pénurie de données », et la gouvernance de l’open source tend vers l’établissement d’un système de « port refuge de responsabilité » (Source : 腾讯研究院)

Perspectives 2026 pour l’intelligence incarnée : du récit conceptuel au cycle de valeur de l’ingénierie réelle : En 2026, l’intelligence incarnée (Embodied AI) entre dans une phase de différenciation cruciale. L’industrie déplace son curseur de la démonstration des performances matérielles vers la collecte de « données réelles de haute qualité ». La fabrication automobile et le tri logistique deviennent les premiers champs de bataille. Les flux de capitaux présentent un effet Matthieu, se concentrant massivement sur les leaders comme Galbot et Agibot. Sur le plan technologique, l’industrie commence à accumuler des données via des plateformes de téléopération de type « human-in-the-loop » et pousse à l’open source des modèles de « cerveau », visant à établir une base de capacités héritables et réutilisables pour résoudre les problèmes de stabilité lors des changements de scénarios (Source : 产业家)

Évolution des modèles VLA+ : Rho-alpha introduit la perception tactile et l’apprentissage en temps réel : La sortie de Rho-alpha (ρα) par Microsoft marque l’entrée des modèles Vision-Langage-Action dans l’ère « VLA+ ». Contrairement aux modèles traditionnels, il intègre des capteurs tactiles, permettant aux robots d’effectuer des opérations délicates comme le branchement ou l’emballage grâce au « toucher ». Plus important encore, il supporte l’apprentissage en ligne, évoluant continuellement à partir des corrections humaines en temps réel. Cette adaptabilité permet aux robots de mieux gérer des tâches de longue durée dans des environnements non structurés (Source : TheTuringPost)

Recursive Language Models (RLMs) : dépasser les limites physiques de la fenêtre de contexte des LLM : Les Recursive Language Models (RLMs) proposés par le MIT CSAIL permettent aux LLM d’interagir de manière symbolique avec un contexte massif en déchargeant les prompts dans un Python REPL en tant que variables. Les RLMs peuvent traiter plus de 10 millions de Tokens sans nécessiter de réentraînement. Lors de tests comme BrowseComp+, leur précision est deux fois supérieure à celle des LLM de base, brisant totalement le goulot d’étranglement contextuel de l’architecture Transformer traditionnelle (Source : TheTuringPost)

Sortie de YOLO26 : un nouveau sommet pour la vision en temps réel pilotée par algorithme : Ultralytics a officiellement lancé YOLO26, fidèle au concept de coût d’inférence supplémentaire nul. En introduisant une perte de segmentation sémantique dans le backbone, la précision de la segmentation d’instance est considérablement améliorée ; l’introduction de RLE pour modéliser l’erreur de régression renforce grandement la stabilité de la détection des points clés. Parallèlement, YOLOE-26 supporte la détection zero-shot via des prompts textuels ou visuels, offrant un support puissant pour la perception du monde ouvert en Edge computing (Source : ZhihuFrontier)

🧰 Outils

Claude Code et ses outils écosystémiques : redéfinir le workflow des développeurs : L’écosystème autour de Claude Code explose rapidement. Le nouveau Devin Review affiche les différences de PR par regroupement logique plutôt que par ordre alphabétique, aidant les développeurs à comprendre les changements de code complexes ; Gas Town permet une gestion hiérarchique de plusieurs instances Claude en parallèle ; tandis que Claude Skills permet aux utilisateurs de personnaliser des workflows complexes comme « transformer une vidéo YouTube en courte vidéo bilingue en un clic ». La communauté estime que l’AI Coding permet aux développeurs de retrouver le plaisir de la création (Source : dotey, cognition)

Percée dans la localisation de GLM-4.7-Flash : 200K de contexte avec seulement 10 Go de VRAM : La communauté a découvert qu’un changement d’une seule ligne via vLLM permet d’optimiser considérablement le KV cache de GLM-4.7-Flash, lui permettant d’occuper seulement 10 Go de VRAM en mode contexte complet de 200K. Cela signifie qu’une seule RTX 5090 peut faire tourner ce modèle SOTA de manière fluide. De plus, llama.cpp a intégré le correctif Flash Attention pour CUDA, améliorant encore la vitesse d’inférence de ce modèle sur les cartes graphiques grand public (Source : algo_diver, Reddit)

Runway Gen-4.5 Image-to-Video : franchir le seuil du réalisme : Runway a lancé la fonction Image-to-Video de Gen-4.5, supportant des récits plus longs, un contrôle précis de la caméra et une performance constante des personnages. Lors d’un test en aveugle sur 1000 personnes, plus de 90 % des répondants n’ont pu distinguer les vidéos générées par Gen-4.5 de prises de vue réelles. Cette percée dans la simulation physique marque l’accession du contenu généré par AI aux standards commerciaux de l’industrie cinématographique (Source : c_valenzuelab)

Higgsfield : une ligne de production vidéo AI full-stack pour les marketeurs : La licorne de génération vidéo Higgsfield connaît une croissance rapide en servant précisément les marketeurs des réseaux sociaux, avec un ARR dépassant les 200 millions de dollars en 9 mois. Son outil central, Canvas, supporte la conception de storyboards et de mouvements de caméra, intégrant un système de collaboration multi-agents (scénariste, réalisateur, caméraman, etc.). Les utilisateurs peuvent générer des vidéos simplement en annotant la direction du mouvement sur des croquis, s’adaptant parfaitement aux workflows publicitaires professionnels (Source : 36氪)

World Labs Marble : un modèle de monde génératif hors voie JEPA : World Labs, fondé par Fei-Fei Li, a lancé la plateforme Marble, utilisant les technologies NeRF et Gaussian Splatting pour générer des mondes 3D explorables. Il ne s’agit pas de vidéo générée image par image, mais d’un environnement 3D persistant, éditable et doté d’états. Les utilisateurs peuvent générer et exporter des assets 3D pour Unreal ou Unity en quelques minutes, démontrant une intelligence spatiale exceptionnelle (Source : Reddit)

📚 Apprentissage

Inference-time scaling des LLM : guide pratique du cycle d’auto-raffinement : Sebastian Raschka explore les techniques de mise à l’échelle au moment de l’inférence dans un nouveau chapitre de « Build a Large Language Model ». Contrairement aux simples mécanismes de vote, ce tutoriel explique en détail comment implémenter un « cycle d’auto-raffinement (Self-refinement loop) », permettant au modèle de critiquer et d’améliorer ses propres réponses de manière itérative, avec le code d’implémentation pour le scoring par Log-probability (Source : rasbt)

Prix des meilleurs articles AAAI 2026 : l’apprentissage causal et la perception robotique au centre de l’attention : La 40ème conférence AAAI a dévoilé ses lauréats. CaDyT propose une méthode de découverte causale en temps continu pour les systèmes dynamiques ; ReconVLA améliore considérablement la précision opérationnelle des robots en reconstruisant les zones d’attention visuelle ; LLM2CLIP montre comment utiliser les grands modèles pour renforcer les représentations multimodales. Ces recherches reflètent l’intérêt profond de la communauté AI actuelle pour la modélisation du monde physique et l’alignement multimodal (Source : aihub.org)

Nouveaux défis pour l’évaluation de la sécurité de l’AI : faire face au « Privacy Collapse » et aux « citations hallucinées » : Des recherches récentes révèlent des inquiétudes dans les domaines académique et de la sécurité de l’AI : plus de 50 articles de NeurIPS 2025 contiendraient des citations fictives générées par AI. Parallèlement, l’article « Privacy Collapse » souligne qu’un fine-tuning bénin peut faire perdre aux modèles de pointe leur capacité de raisonnement sur les normes de confidentialité, exposant de graves failles de sécurité tout en maintenant des performances élevées. Cela suggère la nécessité d’un examen académique plus automatisé et de mécanismes d’évaluation de la sécurité plus profonds (Source : rbhar90, arXiv)

💼 Business

OpenAI cherche un financement de 50 milliards de dollars : les fonds souverains comme levier clé : Le CEO d’OpenAI, Sam Altman, est en contact avec des fonds souverains au Moyen-Orient pour lancer un nouveau tour de table pouvant atteindre 50 milliards de dollars. Cela reflète l’explosion des coûts d’entraînement des modèles de pointe et des infrastructures, que seuls des fonds étatiques peuvent soutenir. Malgré les rumeurs de faillite, OpenAI adopte une stratégie de financement à haut risque pour garantir sa position de leader dans la course à l’AGI (Source : CNBC)

Guerre du matériel AI entre Feishu et DingTalk : la bataille des points d’entrée derrière les enregistreurs : Feishu s’est associé à Anker pour lancer des écouteurs enregistreurs AI, entrant en confrontation directe avec le DingTalk A1. Le matériel d’enregistrement est considéré comme le « premier point de contact » du flux de travail en entreprise, visant à transformer la voix en actifs numériques exploitables. DingTalk se concentre sur la transformation des enregistrements en flux de tâches, tandis que Feishu met l’accent sur la synergie profonde avec ses outils de compte-rendu et sa base de connaissances. L’essence de cette guerre est la conquête du support d’exécution des AI Agents dans le monde physique (Source : 36氪)

Les pertes de l’activité AI de Kunlun Tech persistent : arbitrage entre spécialisation verticale et croissance par l’achat de trafic : Les prévisions de résultats pour 2025 publiées par Kunlun Tech montrent que les pertes se poursuivent. L’entreprise maintient sa stratégie de « ne pas faire de modèle généraliste, mais de se spécialiser verticalement ». Sa plateforme de mini-séries DramaWave et son modèle de musique AI Mureka ont généré des revenus significatifs, mais les frais de marketing élevés et les investissements en R&D pèsent sur la rentabilité. Cela reflète la difficulté pour les applications AI verticales de construire des barrières défensives face aux géants (Source : 36氪)

🌟 Communauté

La victoire d’une photo AI déclenche une « crise de confiance » : la transparence du processus créatif prime sur le résultat : Début 2026, l’œuvre lauréate d’un concours de photographie, « Lumière ancienne sur le Qilou », a été démasquée comme étant générée par AI, provoquant la colère du public. La communauté estime que l’AI a appris à flatter la « moyenne esthétique » des jurés, rendant les mécanismes traditionnels d’évaluation à l’aveugle inefficaces. Ce n’est pas seulement un dépassement technique, cela touche à la limite humaine de « l’investissement émotionnel réel ». La communauté appelle à établir des catégories distinctes pour les créations purement humaines et assistées par AI, exigeant des journaux de création pour préserver les frontières de l’art (Source : 36氪)

Aliénation de l’AI au travail : lettres de remerciement générées et disparition de la confiance : Une enquête montre que lorsque les employés détectent que les e-mails de remerciement de leurs managers sont générés par AI, le niveau de confiance chute de 83 % à 40 %. La communauté débat de cette « fausse sincérité », estimant que si l’AI peut améliorer l’efficacité, elle devient un obstacle dans la communication émotionnelle. De plus, les discussions sur le « vide de responsabilité » se multiplient : lorsque la taille du code généré par Agent dépasse la capacité de révision humaine, les processus CI/CD traditionnels font face à une défaillance structurelle (Source : Reddit, arXiv)

La question du « point d’entrée » à l’ère de l’AI : outil miracle ou fausse promesse ? : Face à la lutte des assistants AI sur smartphone pour devenir le point d’entrée principal, la communauté mène une réflexion profonde. L’histoire prouve qu’un « assistant universel » déconnecté des scénarios de haute fréquence finit souvent par devenir un « couteau suisse » peu utilisé. Le véritable point d’entrée émerge naturellement plutôt que d’être conquis de force. Comparé aux technologies de lecture d’écran GUI contournant la sandbox, le modèle adoptant le protocole MCP et la collaboration A2A est jugé plus prometteur. La vie privée et la sécurité restent des lignes rouges infranchissables (Source : 36氪)

💡 Autre

Sinong : publication du premier grand modèle vertical agricole en Chine : Ciblant l’agriculture, un domaine STEM stratégique, la Chine a publié son premier grand modèle vertical agricole open source nommé « Sinong ». Ce modèle a été finement ajusté sur des données relatives aux cultures, à l’élevage et à l’économie agricole. Les commentaires de la communauté soulignent que la valeur des LLM verticaux réside dans leur capacité à « découvrir » et « valider » des phénomènes non standard, plutôt que dans la simple génération de texte (Source : teortaxesTex)

Le Michigan avance sur un projet de loi anti-chatbot : protéger les jeunes de « l’addiction à l’AI » : Le Sénat du Michigan a proposé une série de projets de loi visant à limiter les « flux algorithmiques addictifs » ciblant les mineurs et à réglementer strictement les « chatbots compagnons » AI. Le projet de loi exige que les services en ligne adoptent un design de « confidentialité par défaut » et interdit aux systèmes AI d’encourager l’automutilation ou de remplacer un soutien psychologique réel. Cela reflète l’inquiétude des législateurs face à l’isolement social et à la manipulation psychologique potentiels de l’AI (Source : Reddit)

Analyse approfondie du marché HBM : un cycle d’approvisionnement lié aux plateformes plutôt qu’une simple pénurie : L’interprétation du marché de la HBM (High Bandwidth Memory) a été corrigée par la communauté : la limitation de l’offre HBM n’est pas due à une pénurie de wafers, mais au fait qu’il s’agit d’une chaîne d’approvisionnement « liée aux plateformes ». Chaque génération de produit (HBM3/3E/4) doit passer la validation d’accélérateurs spécifiques dans une fenêtre très étroite. Ce cycle de produit par vagues signifie que la rentabilité future dépend de la capacité à passer continuellement les validations des plateformes de nouvelle génération (Source : teortaxesTex)

🔥 Focus

🎯 Tendances

🧰 Outils

📚 Apprentissage

💼 Business

🌟 Communauté

💡 Autre

Tags Associés

Related Posts

Quotidien IA – 2026-07-21

Quotidien IA – 2026-07-20

Quotidien IA – 2026-07-19