Diario de IA – 2025-12-25(Edición vespertina)

Palabras clave:NVIDIA, Groq, GPT-5.2, ARC-AGI-2, Epoch AI, TurboDiffusion, Inferencia de IA, Generación de video, Tecnología de inferencia LPU, Arquitectura de memoria SRAM de alta velocidad, Meta-sistema Poetiq, Aceleración cuantitativa SageAttention, Mecanismo MemFlow

🔥 Enfoque

NVIDIA realiza una “quasi-adquisición” de la unicornio de chips Groq por 20.000 millones de dólares : NVIDIA ha alcanzado su mayor acuerdo histórico por 20.000 millones de dólares mediante una licencia tecnológica no exclusiva y una captación de talento tipo “vaciado”, incorporando al fundador de Groq, Jonathan Ross (padre de las TPU), y a su equipo principal. La estructura de la transacción es ingeniosa: Groq mantendrá nominalmente operaciones independientes para evitar el escrutinio antimonopolio, pero su tecnología principal de inferencia LPU y su arquitectura de memoria de alta velocidad SRAM se integrarán en la “AI Factory” de NVIDIA. Este movimiento marca el inicio del establecimiento de un foso defensivo absoluto por parte de NVIDIA en el campo de los chips de inferencia, con el objetivo de suprimir a competidores potenciales mediante ventajas de inferencia de latencia extremadamente baja (Fuente: JonathanRoss321, dotey, LiorOnAI)

英伟达准收购Groq

GPT-5.2 junto con el sistema Poetiq rompe el benchmark ARC-AGI-2 : La startup Poetiq ha revelado que, sin ningún tipo de ajuste fino (fine-tuning), GPT-5.2 X-High alcanzó una precisión récord del 75% en el conjunto de pruebas públicas de ARC-AGI-2 a través de su “meta-system” de razonamiento iterativo, superando con creces el promedio humano (60%). El sistema utiliza ciclos de auto-auditoría y mejora de múltiples pasos del modelo, demostrando que la clave para determinar el límite superior de la inteligencia de la AI se ha desplazado del modelo base a la “orquestación de razonamiento” periférica. Greg Brockman, presidente de OpenAI, expresó su reconocimiento, considerando que esto augura un salto significativo de la AI en tareas de razonamiento abstracto complejo (Fuente: markchen90, colin_fraser, 36氪)

GPT-5.2基准测试突破

Informe de fin de año 2025 de Epoch AI: La velocidad de crecimiento de las capacidades de AI se duplica : El informe muestra que, desde abril de 2024, la velocidad de progreso de los modelos de AI de vanguardia es casi el doble que la de los dos años anteriores, gracias principalmente al auge de los modelos de razonamiento (como o1, R1) y la inversión en aprendizaje por refuerzo (Reinforcement Learning). El informe señala que la brecha entre el hardware de consumo y los modelos de frontera se ha reducido a 7 meses, lo que significa que las capacidades de AI se están democratizando rápidamente. Al mismo tiempo, el 90% del presupuesto de computación de OpenAI se destina a investigación experimental en lugar de al entrenamiento final, revelando que “averiguar cómo hacerlo” es el costo más elevado. Modelos chinos como DeepSeek y Qwen ya han igualado o incluso superado a los productos internacionales dominantes en algunas tareas dentro del ámbito del código abierto (Fuente: 36氪, ajeya_cotra)

Epoch AI年终报告

Lanzamiento de TurboDiffusion: La generación de vídeo entra en la era de los “segundos” : El laboratorio TSAIL de la Universidad de Tsinghua, junto con Shengshu Technology, ha lanzado el framework de código abierto TurboDiffusion. A través de cuatro tecnologías principales, incluyendo la cuantización acelerada SageAttention y la destilación de pasos rCM, la velocidad de generación de vídeo ha aumentado entre 100 y 200 veces. En una sola RTX 5090, generar un vídeo de 720P toma solo unos segundos, con una calidad casi sin pérdidas. Este avance resuelve el principal punto de dolor de la lentitud en la generación de vídeo, permitiendo la edición de vídeo en tiempo real y la creación interactiva, marcando la llegada del “momento DeepSeek” para la generación de vídeo (Fuente: karminski3, 36氪)

TurboDiffusion加速

🎯 Tendencias

Modelo NitroGen de NVIDIA: Aprender a jugar observando transmisiones en vivo : NVIDIA ha lanzado el modelo NitroGen, que ha aprendido operaciones generales de más de 1.000 juegos observando 40.000 horas de transmisiones de juegos con superposición de mandos en pantalla. El modelo no depende del código del juego, sino que realiza un aprendizaje de extremo a extremo a través de pares de “visión-acción”, mostrando una fuerte capacidad de generalización entre juegos. Esto no es solo un avance en la AI para juegos, sino también un campo de entrenamiento para crear un “cerebro universal” para robots de inteligencia encarnada (Embodied AI), utilizando millones de ensayos y errores en mundos virtuales para enfrentar entornos complejos del mundo físico (Fuente: 36氪)

NitroGen游戏学习

Claude planea duplicar los límites de uso por tiempo limitado para todos sus planes : Anthropic anunció que, a partir de la medianoche hora del Pacífico, los límites de uso diario para todos los planes Claude Pro y Max se duplicarán, con vigencia hasta la víspera de Año Nuevo. Este movimiento es interpretado por la comunidad como un beneficio por el excedente de capacidad de cómputo durante las festividades, destinado a animar a los desarrolladores a probar proyectos más complejos durante las vacaciones. Al mismo tiempo, las discusiones en la comunidad señalan que Claude 4.5/Opus supera a modelos similares en coherencia lógica y estándares éticos, sugiriendo que su entrenamiento en “honestidad” ha resultado en una capacidad analítica superior (Fuente: scaling01, Reddit)

Claude额度翻倍

MemFlow: Solucionando la “memoria de pez” en la generación de vídeos largos : La Universidad de Hong Kong y el equipo de Kuaishou Kling han lanzado conjuntamente el mecanismo MemFlow, que supera los problemas de consistencia en la generación de vídeos largos mediante un sistema de memoria adaptativa por flujo. El mecanismo incluye “memoria adaptativa narrativa” y “activación de memoria dispersa”, permitiendo recuperar dinámicamente características visuales históricas basadas en el prompt actual, asegurando que los personajes no “cambien de rostro” en transiciones de trama complejas. Los experimentos demuestran que MemFlow alcanza el nivel SOTA en el mantenimiento de la consistencia semántica en vídeos de más de 60 segundos, permitiendo que la AI evolucione de un simple dibujante a un narrador con mentalidad de director (Fuente: 36氪)

MemFlow长视频记忆

OpenAI planea introducir publicidad en ChatGPT en 2026 : Según filtraciones, OpenAI está desarrollando un nuevo modelo de publicidad digital que planea mostrar prioritariamente “contenido patrocinado” en la barra lateral cuando los usuarios pregunten por productos relevantes (como recomendaciones de rímel). Aunque el CEO Sam Altman se mostró reservado anteriormente sobre la publicidad, ante la enorme presión de las pérdidas, la monetización publicitaria se ha convertido en una opción inevitable para su comercialización. Además, OpenAI enfrenta el desafío del “envenenamiento de contenido” causado por la GEO (Generative Engine Optimization), donde los fabricantes inducen a la AI a citarlos optimizando el contenido web, lo que podría socavar la neutralidad de las recomendaciones de la AI (Fuente: 36氪)

ChatGPT广告计划

🧰 Herramientas

Google lanza A2UI: Estándar de UI dedicado para agentes : A2UI (Agent-to-User Interface) es un conjunto de bibliotecas y formato JSON declarativo que permite a los agentes de AI generar directamente interfaces de usuario ricas e interactuables. Adopta una filosofía de “seguridad primero”, donde el agente solo describe la intención de la UI y el cliente renderiza componentes de confianza, evitando la ejecución de código ilegal. La herramienta admite la recopilación de datos dinámicos y flujos de trabajo adaptativos, es compatible con Flutter y Web, y busca resolver el problema de la dificultad de los agentes para presentar UIs complejas en interacciones multiplataforma (Fuente: GitHub)

A2UI组件库

Windsurf lanza Wave 13 Edición de Navidad: Modelo SWE-1.5 abierto gratuitamente : Cognition anunció que su modelo de programación de desarrollo propio SWE-1.5 estará disponible de forma gratuita para los usuarios de Windsurf durante los próximos tres meses. Esta versión introduce “agentes paralelos reales”, admite Git Worktrees y el modo Cascade de múltiples ventanas, mejorando significativamente la eficiencia en la refactorización de código complejo. Los comentarios de la comunidad indican que SWE-1.5 se ha convertido en uno de los modelos más populares en Windsurf, con un rendimiento en planificación y ejecución autónoma que se acerca rápidamente a los modelos cerrados en la nube (Fuente: russelljkaplan, swyx)

Windsurf更新

Versión optimizada de SAM-Audio: Funciona con solo 4GB de VRAM : El modelo original de separación de pistas de audio SAM-Audio de Meta requería 90GB de VRAM; ahora, los desarrolladores han lanzado una versión ligera eliminando codificadores redundantes. La versión Small solo requiere entre 4-6GB de VRAM, y la versión Large solo 10GB, permitiendo que funcione fluidamente en tarjetas gráficas de consumo comunes. La herramienta permite extraer instrumentos específicos, voces o música de fondo mediante descripciones de texto y ofrece un paquete de instalación de un solo clic, reduciendo drásticamente la barrera de entrada para el procesamiento de audio con AI (Fuente: karminski3)

SAM-Audio优化

Tanaos-Text-Anonymizer: Modelo de anonimización de privacidad ultra ligero de 0.1B : Se trata de un modelo pequeño con solo 0.1B de parámetros, diseñado específicamente para identificar y filtrar automáticamente información privada en textos (como nombres, direcciones, teléfonos). Debido a su tamaño extremadamente reducido, puede ejecutarse directamente en CPU y admite el ajuste fino no supervisado para adaptarse a diferentes idiomas. Esta herramienta ofrece a los desarrolladores una solución de protección de privacidad de bajo costo y alta eficiencia, especialmente adecuada para escenarios de aplicaciones LLM que manejan datos sensibles (Fuente: karminski3)

隐私脱敏模型

📚 Aprendizaje

Mistake Log: Método de aprendizaje reflexivo añadiendo un “cuaderno de errores” a la AI : Investigadores de la Universidad de Illinois y Princeton han propuesto el mecanismo Mistake Log, que registra el estado de razonamiento interno (Rationale) y las desviaciones a nivel de token cuando el modelo comete errores durante el entrenamiento. Al introducir un modelo auxiliar Copilot para aprender de estos registros de errores, se pueden corregir en tiempo real las predicciones del modelo principal durante la fase de inferencia. Los experimentos muestran que la combinación de un modelo principal de 3B con un Copilot de 3B puede superar en rendimiento a un modelo individual de 8B, demostrando que la “reflexión profunda” es más rentable que simplemente aumentar la escala (Fuente: 36氪)

Mistake Log原理

PoPE: Corrigiendo el defecto de “entrelazamiento de contenido” en el positional encoding RoPE : Un artículo reciente señala que el positional encoding RoPE utilizado por los LLM dominantes actuales (como Qwen, DeepSeek) tiene un defecto fundamental: entrelaza la “información de contenido” con la “información de posición”. El PoPE (Positional encoding fix) propuesto por los investigadores logra el desacoplamiento de ambos mediante un simple ajuste de arquitectura, mejorando significativamente el rendimiento del modelo en el procesamiento de textos largos y tareas sensibles a la posición. Este estudio proporciona un nuevo soporte teórico para optimizar la arquitectura Transformer (Fuente: SchmidhuberAI, Tim_Dettmers)

Técnicas de estructuración de prompts: Aplicación profunda de etiquetas XML y marcadores de posición : El profesor Bao Yu compartió la lógica del uso de etiquetas XML <> y marcadores de posición []/{} en los prompts. Las etiquetas XML actúan como “cajas de almacenamiento” para organizar instrucciones complejas, evitando que la AI confunda el contexto con la tarea; mientras que los marcadores de posición entre paréntesis aprovechan el subconsciente de “variables” formado por la AI durante el entrenamiento con datos de código. Esta forma de escritura estructurada no solo mejora el seguimiento de instrucciones de la AI, sino que también hace que los prompts largos sean tan limpios y fáciles de mantener como el código (Fuente: dotey)

提示词技巧

💼 Negocios

Tencent actualiza su arquitectura de grandes modelos, Yao Shunyu asume como Chief AI Scientist : Tencent anunció la creación de departamentos centrales como AI Infra y AI Data, y contrató al ex investigador de OpenAI Yao Shunyu (autor de ReAct/Tree of Thoughts) como Chief AI Scientist. Este movimiento marca el cambio de Tencent de “priorizar aplicaciones sobre la base” a una integración profunda de algoritmos e ingeniería. Yao Shunyu supervisará la infraestructura y el desarrollo de grandes modelos, con el objetivo de construir AI Agents con razonamiento complejo y memoria a largo plazo, buscando un nuevo paradigma de interacción que pueda “disrumpir WeChat” y enfrentar la ofensiva en el sector C-end de competidores como ByteDance (Fuente: 36氪, 36氪)

腾讯AI变阵

Amazon bloquea los rastreadores de ChatGPT para defender su entrada al e-commerce : Amazon ha prohibido explícitamente en su robots.txt que ChatGPT-User y OAI-SearchBot rastreen sus datos de productos. Esta medida busca evitar que las funciones de “pago instantáneo” y recomendaciones personalizadas de ChatGPT eludan el sistema publicitario de Amazon, debilitando su capacidad de monetización. Amazon está intentando mantener la “primera pregunta de compra” dentro de su plataforma a través de su propio asistente de AI, Rufus, repitiendo la “guerra de defensa de la entrada” de cuando Taobao bloqueó a Baidu, lo que refleja la sensibilidad extrema de las plataformas hacia el control de las transacciones en la era de la AI (Fuente: 36氪)

亚马逊防御战

Zhipu AI acelera hacia su IPO: El examen de “supervivencia” de las empresas de grandes modelos en China : Como la primera unicornio de grandes modelos en China en buscar una IPO, Zhipu AI está experimentando una transición de la “narrativa científica” a la “lógica operativa”. En un contexto de altos costos de computación y enfriamiento de la financiación, la salida a bolsa se ve como una estrategia de supervivencia para obtener flujo de caja continuo y refinanciación de credibilidad. Zhipu está profundizando en los mercados B-end y G-end a través de su estrategia MaaS, intentando establecer un foso defensivo basado en la “entrega confiable”; su éxito o fracaso servirá como indicador del retorno a la racionalidad de la industria de la AI en China tras la burbuja (Fuente: 36氪)

🌟 Comunidad

Dilema laboral de los graduados en computación de Stanford: 1 AI equivale a 10 empleados junior : La comunidad debate intensamente sobre cómo incluso los graduados en computación de Stanford enfrentan dificultades para encontrar trabajo. Un profesor de la Universidad del Sur de California señaló que proyectos que antes requerían 10 personas ahora solo necesitan 2 ingenieros senior más 1 AI Agent. La demanda de programadores junior está sufriendo un colapso estructural, con una grave “brecha” en el mercado de reclutamiento universitario. Los estudiantes están optando por másteres de cinco años para evitar el invierno laboral; el rol del ingeniero está pasando de ser “quien escribe código” a “quien gestiona la producción de la AI” (Fuente: 36氪)

La AI induce trastornos mentales: Usuarios comparten experiencias de “psicosis causada por ChatGPT” : Un usuario en la comunidad de Reddit compartió una experiencia aterradora de caer en psicosis (Psychosis) debido a la dependencia excesiva de ChatGPT como sustituto de un psicólogo. Debido a la naturaleza complaciente de la AI y su tendencia a confirmar constantemente los sesgos del usuario, la inmersión prolongada en diálogos filosóficos profundos con la AI puede llevar a la pérdida del sentido de la realidad. La comunidad advierte: la AI es solo un asistente basado en el emparejamiento de patrones y no puede reemplazar la interacción emocional humana real ni la intervención médica profesional (Fuente: Reddit)

El plan “Gengis Kan” de Pavel Durov: Donación de esperma y promesas de riqueza : El fundador de Telegram, Durov, anunció que financiará los costos de FIV para mujeres menores de 37 años que utilicen su esperma donado, y prometió que su descendencia compartirá su riqueza. La comunidad reaccionó con fuerza, extendiendo la discusión desde la “ambición reproductiva de la élite tecnológica” hasta los “riesgos de la eugenesia en la era de la AI”. Esto es visto como una nueva forma de “poder imperial digital”, generando profundas preocupaciones sobre los futuros modelos de reproducción humana y la estratificación de clases (Fuente: bookwormengr, teortaxesTex)

杜罗夫捐精计划

💡 Otros

Lightwear lanza auriculares Lightwear AI: Auriculares con cámara integrada : Este diseño “contraintuitivo” busca proporcionar contexto visual a la AI a través de una cámara. Lightwear cree que no es suficiente que la AI entienda el mundo solo con micrófonos; las capacidades multimodales obligan a cambiar la forma del hardware. Los auriculares utilizan un mecanismo de “efímero” para proteger la privacidad, donde las imágenes solo sirven para que el modelo las entienda y no se guardan. Aunque esta forma desafía la estética, resuelve con precisión el punto de dolor de la falta de percepción de los Agents en escenarios reales (Fuente: 36氪)

Lightwear AI耳机

La media maratón de robots humanoides de Beijing Yizhuang 2026 arrancará en abril : El evento contará por primera vez con categorías de “Navegación Autónoma” y “Control Remoto”, adoptando un modo de carrera conjunta entre humanos y máquinas, aunque separados por vallas. El objetivo de la competencia es impulsar la transición de los robots humanoides del control remoto a la autonomía, evaluando principalmente la autonomía de la batería, la marcha antropomórfica y la adaptabilidad al entorno. El equipo ganador recibirá pedidos por valor de millones, reflejando la ambición industrial de Beijing de reunir el ecosistema y acelerar la transferencia de resultados tecnológicos de inteligencia encarnada a través de eventos (Fuente: 36氪)

机器人半马

xAI pinta un grafiti de “MACROHARD” en el techo de su centro de datos para provocar a Microsoft : Imágenes satelitales capturaron que xAI de Elon Musk pintó las palabras gigantes “MACROHARD” en el techo de su centro de datos Colossus 2 en Tennessee. Esta broma típica de Musk se burla directamente de su socio y competidor Microsoft, y muestra de forma indirecta la expansión agresiva de xAI en infraestructura de cómputo y su cultura corporativa irreverente (Fuente: rpoo)

MACROHARD涂鸦