Diario de IA – 2025-12-26(Edición vespertina)

Palabras clave:modelo grande, unicornio de IA, OpenAI, NVIDIA, Meta, razonamiento de IA, capacidad computacional de IA, música generada por IA, modelo GLM-4.7, GPT-5.2-Codex-XMas, arquitectura LPU de Groq, Self-play SWE-RL, serie Nemotron 3

🔥 Enfoque

Zhipu y MiniMax compiten por ser la “primera acción de grandes modelos del mundo”: Beijing Zhipu Huazhang y MiniMax (Xiyu Technology) han pasado sucesivamente las audiencias de la Bolsa de Hong Kong y han revelado sus folletos de salida a bolsa (prospectos), marcando el inicio del proceso de capitalización de los unicornios de AI en China. Los ingresos de Zhipu en 2024 alcanzaron los 312 millones de yuanes, con una tasa de crecimiento compuesta superior al 130%, aunque debido al aumento drástico en los costes de potencia de cómputo, las pérdidas en la primera mitad de 2025 alcanzaron los 2.358 millones de yuanes. Al mismo tiempo, Zhipu lanzó y liberó como open source el modelo GLM-4.7, que se posicionó en el primer lugar de la categoría de código abierto en el Code Arena, superando a GPT-5.2 y demostrando una capacidad de iteración técnica extremadamente fuerte. Esta IPO no es solo una financiación, sino un evento de referencia para el anclaje del valor de mercado de las empresas dedicadas puramente a los grandes modelos (Fuente: 36氪, 市值水晶)

智谱与MiniMax竞逐“全球大模型第一股”

OpenAI lanza la versión personalizada de Navidad de Codex, profundizando en la “programación agéntica”: OpenAI lanzó durante el periodo navideño GPT-5.2-Codex-XMas, un modelo que mantiene el rendimiento de GPT-5.2 con actualizaciones personalizadas y ofrece el doble de límite de uso para suscriptores. Esta actualización no es solo marketing festivo, sino que refleja el giro estratégico de OpenAI para posicionar a Codex como un “Agent de ingeniería”: reforzando la comprensión de contextos largos, el procesamiento de tareas entre múltiples archivos y la optimización de la cadena de herramientas nativa de Windows. Los desarrolladores han descubierto que su grado de finalización en proyectos complejos ya es superior al de la mayoría de los modelos competidores, lo que augura que 2026 será la era de la evolución de “AI escribiendo código” a “AI gestionando ingeniería” (Fuente: 新智元, op7418)

OpenAI发布圣诞定制版Codex

Axiom Math: Definiendo el nuevo estándar de “aceptación” para el razonamiento de AI: Axiom Math, fundada por Carina Hong, una joven de 24 años que abandonó Stanford, obtuvo 64 millones de dólares en financiación, alcanzando una valoración de 300 millones de dólares. La empresa se dedica a desarrollar un “matemático de AI” capaz de verificar de forma autónoma la corrección lógica. El avance principal reside en la introducción del lenguaje de programación Lean, permitiendo que cada paso del razonamiento de la AI cuente con una prueba formal, resolviendo el problema de confianza en la “aceptación” de los resultados de los grandes modelos. En la competencia de matemáticas Putnam, su sistema resolvió de forma autónoma 9 problemas difíciles y todos pasaron la verificación. Este progreso significa que la AI está pasando de la “generación de respuestas” difusas a la “autoverificación lógica” rigurosa, convirtiéndose en un colaborador confiable en los campos científico e industrial (Fuente: AI 深度研究员)

NVIDIA y Groq alcanzan un acuerdo de licencia tecnológica para enfrentar cuellos de botella en computación y memoria: Ante el aumento descontrolado de los precios de la memoria HBM y la escasez de capacidad de producción, NVIDIA ha llegado a un acuerdo de licencia tecnológica no exclusiva con Groq. El fundador y el equipo principal de Groq se unirán a NVIDIA para ayudar en la integración de su tecnología de inferencia. La arquitectura LPU de Groq utiliza SRAM como memoria principal, con un ancho de banda varias veces superior a la HBM tradicional, aliviando enormemente los cuellos de botella de acceso a la memoria durante el proceso de inferencia. Este movimiento se considera un segundo frente abierto por NVIDIA en el contexto de la “escasez de memoria”, con el objetivo de explorar nuevas rutas tecnológicas de memoria, compensar los riesgos de la cadena de suministro de DRAM y consolidar su dominio en el mercado de inferencia de AI (Fuente: 机器之心, op7418)

英伟达与Groq达成技术许可

🎯 Tendencias

Meta lanza Self-play SWE-RL para lograr la autoevolución de Agents: El equipo de investigación de Meta publicó el framework SSR, que permite que los Agents de ingeniería de software se entrenen a sí mismos mediante un mecanismo de autojuego de “inyección de bugs” y “corrección de bugs” sin necesidad de etiquetado humano. Este método solo requiere acceso a un sandbox de código fuente, donde el Agent genera continuamente problemas de alta calidad y los resuelve de forma autónoma en un bucle cerrado de evolución autodirigida. Los experimentos demuestran que el rendimiento de SSR mejora continuamente durante el entrenamiento y supera a los métodos de aprendizaje por refuerzo base. Esto marca el avance de los AI Agents hacia la “superinteligencia”, con el potencial de superar las capacidades humanas en la comprensión de sistemas y la creación autónoma de software (Fuente: 学术头条)

Meta推出Self-play SWE-RL

Liquid AI lanza el modelo 3B más potente, con resultados notables en aprendizaje por refuerzo: Liquid AI presentó el modelo experimental LFM2-2.6B-Exp, construido puramente mediante aprendizaje por refuerzo, con un desempeño excepcional en seguimiento de instrucciones, conocimiento y benchmarks matemáticos. Su puntuación en IFBench incluso superó a DeepSeek R1, que es 263 veces más grande en escala. Los comentarios de la comunidad indican que el modelo posee “conocimiento de nivel de doctorado” y puede ejecutarse de manera fluida en dispositivos finales como el iPhone. Este avance demuestra una vez más que, mediante un diseño de algoritmos eficiente y optimización por RL, los modelos de parámetros pequeños también pueden mostrar un rendimiento comparable al de los modelos de primer nivel en dominios específicos (Fuente: maximelabonne, huggingface)

Liquid AI发布3B最强模型

Filtración de código de la versión Android de ChatGPT revela planes de inserción publicitaria: Desarrolladores encontraron cadenas de texto relacionadas con publicidad como “ads feature” y “search ad” en el código de la versión beta de ChatGPT para Android. Aunque Sam Altman mencionó anteriormente que la publicidad era el “último recurso”, ante la presión financiera de un gasto de 2.500 millones de dólares en la primera mitad de 2025, OpenAI claramente ha comenzado a prepararse para monetizar a los usuarios gratuitos. Las formas de publicidad planeadas podrían incluir mensajes patrocinados en la barra lateral o “recomendaciones conversacionales”, con el objetivo de monetizar la intención sin interrumpir la conversación natural. Esto anticipa que la búsqueda por AI se despedirá de la era de “pureza absoluta” (Fuente: 直面AI)

NVIDIA lanza la serie Nemotron 3, enfocada en contexto largo y capacidades de Agent: NVIDIA presentó la familia Nemotron 3 (Nano, Super, Ultra), utilizando una arquitectura híbrida Mamba-Transformer y tecnología Mixture-of-Experts (MoE). Esta serie de modelos soporta una longitud de contexto de hasta 1M y ha sido optimizada mediante post-entrenamiento para el razonamiento de Agents y llamadas a herramientas de múltiples pasos. La versión Nano lidera en precisión entre los modelos pequeños de su clase con costes de inferencia extremadamente bajos, mientras que la versión Ultra busca un rendimiento de inferencia de nivel SOTA. NVIDIA se comprometió a liberar los pesos de los modelos, el software de entrenamiento y las recetas, enriqueciendo aún más el ecosistema open source (Fuente: Reddit)

SAM 3: Evolución de clics en píxeles a “conceptos con nombre”: Meta lanzó SAM 3 (Segment Anything with Concepts), elevando la tecnología de segmentación de video del modo de “clic y selección” al de “reconocimiento de conceptos”. Los usuarios solo necesitan ingresar “persona con gafas” y el modelo localizará automáticamente todos los objetos que cumplan con la condición en la imagen o video. Mediante el entrenamiento automatizado de 4 millones de conceptos únicos, la precisión de SAM 3 en el benchmark de video complejo MOSEv2 aumentó del 47,9% al 60,3%. Este avance mejora drásticamente la capacidad de comprensión semántica del mundo visual por parte de la AI, resolviendo problemas de oclusión y consistencia en la segmentación de video (Fuente: ylecun)

SAM 3

🧰 Herramientas

GAIT y GaitHub: Sistema de control de versiones “Git” para el razonamiento de AI: Para abordar los puntos críticos de la falta de trazabilidad y reproducibilidad en las decisiones de AI, los desarrolladores lanzaron GAIT. Este sistema trata las interacciones de AI como objetos direccionables por contenido, abarcando la intención del usuario, la respuesta del modelo, las ramas de razonamiento y el estado de la memoria. A través de GAIT, los desarrolladores pueden realizar control de versiones, experimentos de ramificación y decisiones de fusión en el proceso de razonamiento de la AI, de la misma manera que gestionan el código. La plataforma en la nube complementaria GaitHub admite la colaboración y la auditoría, proporcionando la infraestructura de ingeniería necesaria para los flujos de trabajo de AI a nivel empresarial y resolviendo el enigma de la caja negra de “por qué la AI decidió esto” (Fuente: Reddit)

GAIT

DeepFabric: Framework de ajuste fino de llamadas a herramientas para servicios MCP específicos: DeepFabric es una herramienta open source que permite a los desarrolladores generar automáticamente conjuntos de datos de razonamiento específicos para cualquier servidor o conjunto de herramientas MCP. Al ejecutar trayectorias de herramientas reales en un entorno aislado de WebAssembly, este framework puede ajustar modelos pequeños como Qwen3-4B para que superen a Claude 4.5 y Gemini 2.5 en tareas específicas (como el control de Blender). Esto proporciona un camino claro para construir Agents expertos en dominios verticales de alto rendimiento y bajo coste (Fuente: Reddit)

Quint: Adiós al CLI, introduciendo UI interactiva para chatbots: Quint es una librería de React diseñada para que las interacciones impulsadas por LLM pasen del texto puro a una UI estructurada y determinista. Permite a los desarrolladores definir opciones explícitas que los usuarios pueden clicar para activar visualizaciones de información específicas o entradas estructuradas. El concepto central es separar la recepción del modelo, la visión del usuario y el renderizado de la salida, haciendo que las interacciones en escenarios como MCQs o ramas de juegos de rol sean más controlables. Quint no depende de un proveedor de AI específico, anticipando un futuro donde los LLM renderizarán directamente componentes de UI dinámicos para mejorar la experiencia del usuario (Fuente: Reddit)

Quint

📚 Aprendizaje

Hugging Face lanza una serie de cursos gratuitos de AI: Hugging Face lanzó durante las vacaciones una matriz de cursos gratuitos que cubren las últimas tecnologías de AI. El contenido incluye: curso de Robotics para construir robots usando LeRobot, curso de MCP para aprender el Model Context Protocol, curso de Agents enfocado en la construcción y despliegue de Agents, así como tutoriales técnicos profundos sobre LLM, aprendizaje por refuerzo profundo, modelos de difusión, entre otros. Estos cursos se apoyan en el ecosistema de librerías de HF y tienen como objetivo ayudar a los desarrolladores a dominar rápidamente habilidades prácticas, desde modelos base hasta arquitecturas de Agents de vanguardia (Fuente: huggingface)

Hugging Face课程

WildVideo: El primer benchmark para clasificar sistemáticamente las alucinaciones en video QA: Un equipo de la Universidad Nacional de Tecnología de Defensa y la Universidad Sun Yat-sen publicó el benchmark WildVideo, que define 9 categorías de tareas como percepción, cognición y comprensión contextual para abordar el problema de las “alucinaciones” en interacciones de video con modelos multimodales. Los experimentos muestran que incluso la precisión de GPT-4o en tareas de múltiples rondas es de solo el 52,7%, con un desempeño deficiente en videos de primera persona. Este benchmark proporciona herramientas precisas para diagnosticar deficiencias de los modelos en percepción dinámica, razonamiento profundo y consistencia en conversaciones largas, impulsando la evaluación de la comprensión de video hacia interacciones reales (Fuente: 新智元)

WildVideo

PhononBench: Un nuevo estándar para evaluar la estabilidad de cristales generados por AI: PhononBench es el primer benchmark a gran escala dirigido a la estabilidad dinámica de cristales generados por AI. Utilizando la función de potencial MatterSim, realizó cálculos eficientes sobre más de 100.000 estructuras producidas por seis modelos generativos líderes. Los resultados revelan limitaciones generales en los modelos actuales: la estabilidad promedio es de solo el 25,83%. Este trabajo no solo señala las deficiencias de los modelos generativos en términos de viabilidad física, sino que también filtra 28.000 estructuras cristalinas con fonones estables, proporcionando un grupo de candidatos confiables para la futura exploración de nuevos materiales (Fuente: HuggingFace)

💼 Negocios

La “deuda fantasma” de 120.000 millones de dólares de los gigantes de AI genera preocupación: Gigantes tecnológicos como Meta, xAI y Oracle están trasladando más de 120.000 millones de dólares en gastos de centros de datos fuera de sus balances mediante vehículos de propósito especial (SPV). Aunque este modelo de financiación fuera de balance protege la calificación crediticia de las empresas, también oculta enormes riesgos financieros. Si la demanda de AI no cumple con las expectativas, la enorme deuda podría desencadenar una reacción en cadena en Wall Street. Datos de UBS muestran que este año han fluido aproximadamente 125.000 millones de dólares hacia este tipo de “financiación de proyectos”, reflejando que la carrera armamentista de la AI ha entrado en una fase de juego de capital de alto riesgo (Fuente: 财联社)

AI幽灵债务

La “acción monstruo de AI” de India sube 550 veces y se descubre que no tiene negocio de chips: Las acciones de la empresa india RRP Semiconductor Limited se dispararon un 55.000% en los últimos 20 meses, elevando su valor de mercado a 1.700 millones de dólares, superando incluso el crecimiento de NVIDIA. Sin embargo, una investigación descubrió que la empresa solo tiene 2 empleados formales y no ha realizado ninguna actividad de fabricación de semiconductores, con ingresos incluso negativos. Este fenómeno absurdo refleja el seguimiento ciego de los inversores minoristas indios al concepto de AI y las lagunas regulatorias, convirtiéndose en una advertencia típica de la burbuja de AI en 2025 (Fuente: 新智元)

印度AI妖股

La demanda de cómputo de AI hace que el precio de la memoria de 256GB supere al de la RTX 5090: Con gigantes como OpenAI asegurando el 40% del suministro global de DRAM, el mercado de memoria enfrenta una escasez estructural. El precio de mercado de un solo módulo de memoria DDR5 de 256GB se ha disparado a entre 3.500 y 5.000 dólares, superando con creces a las tarjetas gráficas de gama alta. Este fenómeno refleja cómo las altas ofertas de los servidores de AI por HBM y memoria de alto rendimiento están “secuestrando” la capacidad de producción de consumo. No solo se trata de componentes de PC; la necesidad de gran memoria para el concepto de AI PC ha elevado aún más el umbral, y los consumidores comunes enfrentan un aumento drástico en los costes de hardware debido a la prima de la AI (Fuente: 机器之心)

内存涨价

🌟 Comunidad

Recopilación de palabras de moda de AI para 2025: De “Vibe Coding” a “Slop”: El MIT Technology Review seleccionó los términos de AI del año, con “Vibe Coding” en el primer puesto, enfatizando que los humanos solo necesitan expresar el objetivo y la AI se encarga de la implementación. Al mismo tiempo, “modelos de razonamiento” y “modelos de mundo” reflejan la evolución de la profundidad técnica, mientras que “Slop” (contenido basura de AI) y “burbuja” reflejan la reflexión de la comunidad sobre la inundación de contenido y el sobrecalentamiento del capital. Además, el “GEO” (Generative Engine Optimization) está reemplazando al SEO como el nuevo campo de batalla para que las marcas obtengan tráfico en la era de la AI (Fuente: 腾讯科技, 硅星GenAI)

AI热词

Yann LeCun comparte: Las “siete grietas” en el juicio de humanos y LLM: Un artículo comparó las diferencias de juicio entre humanos y LLM en siete etapas cognitivas, señalando que los LLM tienen defectos fundamentales en el anclaje perceptivo, la guía motivacional, el razonamiento causal y la metacognición. Aunque el lenguaje generado por los LLM es fluido y engañoso, su esencia es la predicción probabilística y no una “mente”. La discusión en la comunidad sugiere que esta “sensación de inteligencia artificial” es muy engañosa cuando falta la verificación, y los humanos a menudo confían demasiado en la salida de la AI debido al “sesgo de crédito”, lo que constituye un desafío estructural en la era de la AI (Fuente: ylecun)

判断力裂痕

Debate en Reddit: Usar ChatGPT como herramienta de rehabilitación cognitiva: Un usuario con antecedentes de PTSD compartió su experiencia utilizando ChatGPT para apoyo cognitivo estructurado. A través de interacciones conversacionales a largo plazo, el usuario logró progresos significativos reconocidos por médicos clínicos en regulación emocional, organización lógica y autodefensa. La comunidad respondió con fuerza, centrando la discusión en cómo la AI puede servir como un “espejo de consistencia” para ayudar en la recuperación psicológica, al tiempo que advierte sobre la dependencia excesiva y el posible efecto de “eco” engañoso de la AI (Fuente: Reddit)

💡 Otros

Reversión completa lograda en experimentos con animales para el Alzheimer: Un equipo de investigación de la Universidad Case Western Reserve publicó un avance en Cell Reports Medicine, logrando la recuperación completa de la función neurológica en ratones con Alzheimer en etapa avanzada mediante el compuesto P7C3-A20, que restaura el equilibrio de NAD+ en el cerebro. A diferencia de la suplementación ciega de NAD+, esta terapia se centra en la regulación precisa, no solo reparando el daño patológico sino también restaurando la capacidad de memoria. Aunque la aplicación en humanos aún tomará tiempo, abre una puerta de esperanza para la “cura definitiva” de la demencia senil (Fuente: dotey)

阿尔茨海默病突破

El robot impulsado por cables de Stardust Intelligence comienza a vender cajas ciegas (blind boxes): El día de Navidad, el robot humanoide impulsado por cables S1, desarrollado por Stardust Intelligence, comenzó oficialmente a “trabajar” en distritos comerciales de Beijing, Shanghái y Guangzhou, encargándose de la recepción por voz, la captura de cajas ciegas y la entrega de productos. La tecnología de impulsión por cables otorga al robot una flexibilidad y un control de fuerza fino similares a los músculos humanos, haciéndolo más seguro y “manejable” en la interacción humano-máquina. El concepto de “inteligencia de avatar” propuesto por la empresa tiene como objetivo permitir que los robots entren primero en laboratorios tóxicos o servicios remotos a través de la teleoperación (Fuente: 智能涌现)

绳驱机器人

La canción viral de AI “Seven-Day Lover” desata una batalla por los derechos de autor y la atención: “Seven-Day Lover”, generada por un programador usando DeepSeek y herramientas de música de AI, superó los 2 millones de reproducciones en NetEase Cloud Music, y sus derechos de autor se vendieron por decenas de miles de yuanes. Este evento demuestra que la música de AI ya posee una capacidad real de monetización y está impactando el sistema tradicional de derechos de autor. Qishui Music de ByteDance define el camino hacia el éxito a través del ecosistema de Douyin, mientras que Tencent y NetEase mantienen una vigilancia estricta sobre la revisión y la distribución de ingresos. El “suministro infinito” traído por la AI está obligando a las plataformas a pasar de una carrera por los derechos de autor a una guerra por la eficiencia en la distribución de la atención (Fuente: 市象)

AI音乐