Diario de IA – 2025-12-26(Edición matutina)

Palabras clave:TurboDiffusión, Generación de vídeo, Agente de IA, API de LLM, Aprendizaje por refuerzo, Robot humanoide, Energía de IA, SageAttention2++, Marco LightX2V, CosyVoice 3.0, Herramienta Alpha Engine, Evaluación SWE-EVO

🔥 Enfoque

Tsinghua y Shengshu lanzan TurboDiffusion en código abierto: la generación de video entra en la era de los “segundos”: El laboratorio TSAIL de la Universidad de Tsinghua y Shengshu Technology han lanzado conjuntamente TurboDiffusion, un framework de aceleración para la generación de video. A través de cuatro tecnologías principales —SageAttention2++, SLA (Sparse Linear Attention), rCM (Step Distillation) y cuantización W8A8—, han logrado una aceleración de inferencia de hasta 200 veces. En una RTX 5090, generar 5 segundos de video 480P toma solo 1.9 segundos, comprimiendo la latencia end-to-end de cientos de segundos a cifras de un solo dígito. Este avance marca el “momento DeepSeek” de la generación de video, reduciendo drásticamente la barrera para ejecutar grandes modelos en GPUs de consumo y augurando la posibilidad de edición de video en tiempo real y generación interactiva (Fuente: Arxiv, GitHub)

清华联手生数开源TurboDiffusion

NVIDIA “asimila” al equipo de expertos de Groq: una guerra defensiva de talento ofensivo: Las redes sociales debaten intensamente que NVIDIA no realizó una simple adquisición de Groq, sino que adoptó una estrategia más inteligente de “incorporación de talento + licencia tecnológica”. Al integrar al equipo central de I+D de Groq y obtener la licencia de su tecnología de inferencia, NVIDIA logró desmantelar a un rival potencial en hardware mientras evitaba el escrutinio antimonopolio. Los análisis indican que el valor central de Groq reside en su apuesta por la arquitectura SRAM; con este movimiento, NVIDIA busca asegurar que no perderá el poder de fijación de precios ante el auge de los aceleradores personalizados en el futuro mercado de inferencia a gran escala, intercambiando una prima actual por la certeza del mercado futuro (Fuente: teortaxesTex, draecomino)

英伟达“收编”Groq 智囊团

Agent-R1 y Bloom: el Reinforcement Learning end-to-end abre un nuevo paradigma en el entrenamiento de agentes: Para abordar los problemas de toma de decisiones de los agentes LLM en entornos complejos, el framework Agent-R1 introduce el Reinforcement Learning end-to-end. Mediante el uso de Action Masking y el módulo ToolEnv para manejar la aleatoriedad de la retroalimentación del entorno, mejora significativamente la precisión en interacciones de múltiples rondas. Simultáneamente, Anthropic ha lanzado Bloom, una herramienta de evaluación de agentes en código abierto capaz de generar automáticamente cientos de escenarios para evaluar comportamientos como el servilismo o el sabotaje. Ambos avances apuntan a la siguiente fase de la evolución de la AI: pasar de la simple compleción de diálogos a agentes autónomos con planificación a largo plazo, autocorrección y seguridad monitorizable (Fuente: Arxiv, TheTuringPost)

Agent-R1 与 Bloom

Análisis profundo de la lógica subyacente de las LLM API: a partir de un bug al adaptar Kimi K2 a vLLM: Un desarrollador descubrió que al adaptar Kimi K2 a vLLM, el modelo funcionaba perfectamente en la API oficial pero fallaba al llamar a herramientas en vLLM, revelando que la esencia de las LLM API es un encapsulamiento de ingeniería de “renderizado → compleción → parseo”. El núcleo del problema a menudo no reside en la capacidad del modelo, sino en la falta de sufijos de diálogo clave durante el renderizado del Prompt o en un parser demasiado estricto. Este análisis recuerda a los desarrolladores que el primer paso para resolver alucinaciones de AI y fallos en el Tool Calling debe ser restaurar y verificar la secuencia original del Prompt enviada al modelo, en lugar de ajustar ciegamente los parámetros del mismo (Fuente: vLLM Blog, dotey)

🎯 Tendencias

Claude Code introduce el asistente LSP y activa cuotas dobles por tiempo limitado en Navidad: Claude Code, la herramienta de línea de comandos de Anthropic, ahora es compatible con LSP (Language Server Protocol). Mediante un mecanismo similar a unas “gafas inteligentes”, permite que la AI localice con precisión el código en lugar de realizar búsquedas masivas a ciegas, mejorando notablemente la velocidad y precisión de búsqueda. Además, para recompensar a los usuarios, Anthropic anunció que del 25 al 31 de diciembre ofrecerá el doble de límite de uso para suscriptores Pro y Max, animando a los desarrolladores a avanzar en sus proyectos personales durante las vacaciones (Fuente: Reddit, sama)

Claude Code 引入 LSP 助手

OpenAI propone un framework de monitorización para Chain of Thought: entender el “pensamiento” de la AI antes de actuar: OpenAI ha presentado un framework riguroso para evaluar la “monitorización de Chain of Thought (CoT)”, con el objetivo de explorar si los humanos pueden comprender el proceso de razonamiento de la AI antes de que esta tome medidas. El estudio encontró que, aunque las cadenas de razonamiento más largas facilitan la monitorización, el aumento del tamaño del modelo incrementa la dificultad de comprensión. A medida que la AI escala, la transparencia de este “pensar en voz alta” podría convertirse en una capa de seguridad crítica, ayudando a los humanos a intervenir a tiempo si el modelo genera sesgos o intenciones maliciosas (Fuente: TheTuringPost)

OpenAI 提出思维链可监控性框架

Liquid AI lanza el modelo 3B más potente, LFM2-2.6B-Exp: El equipo de Liquid AI, mediante entrenamiento puro de Reinforcement Learning, ha lanzado el checkpoint experimental LFM2-2.6B-Exp. Este modelo destaca en seguimiento de instrucciones, base de conocimientos y pruebas de benchmark de matemáticas; su puntuación en IFBench incluso supera a la de DeepSeek R1-0528, que es 263 veces más grande. Esto demuestra una vez más que los modelos de parámetros pequeños, tras ser optimizados con datos de alta calidad y Reinforcement Learning, pueden mostrar una competitividad asombrosa en dominios específicos (Fuente: huggingface)

Liquid AI 发布最强 3B 模型

Informe de Epoch AI: la adopción de la AI bate récords históricos, pero el motor está cambiando: Un estudio reciente muestra que la velocidad de adopción de la AI supera a casi cualquier tecnología en la historia, con un 57% de los estadounidenses utilizando chatbots semanalmente. Sin embargo, la proporción de uso profundo (como suscripciones o conversaciones largas frecuentes) sigue siendo inferior al 10%. El estudio señala que la adopción temprana fue impulsada por la curiosidad, mientras que el crecimiento futuro dependerá de si la AI puede ofrecer un valor sustancial e insustituible en escenarios de productividad (Fuente: ajeya_cotra)

Epoch AI 报告

🧰 Herramientas

LightX2V: Framework de inferencia ligero para generación de video con soporte multiplataforma: LightX2V es una plataforma unificada diseñada para ofrecer soluciones eficientes de síntesis de video, soportando la generación a partir de texto o imágenes. El framework ya es compatible con diversas plataformas de computación chinas como AMD ROCm, Huawei Ascend 910B y Haiguang DCU. Mediante una tecnología de destilación de 4 pasos, puede acelerar 25 veces el proceso de inferencia original de 50 pasos, y permite ejecutar modelos de 14B parámetros en una RTX 4090 de 24GB, ampliando enormemente el rango de hardware apto para la generación de video de alta calidad (Fuente: GitHub)

LightX2V

CosyVoice 3.0: Gran modelo de generación de voz multilingüe con soporte para 18 dialectos: FunAudioLLM ha lanzado CosyVoice 3.0, con mejoras significativas en consistencia de contenido, similitud del hablante y naturalidad prosódica. El modelo cubre 9 idiomas principales y más de 18 dialectos chinos (como cantonés, sichuanés, del noreste, etc.), soportando Zero-shot voice cloning. Su tecnología de inferencia fluida bidireccional logra latencias de hasta 150ms y permite controlar emociones, velocidad y volumen mediante instrucciones, posicionándose como un fuerte competidor para TTS de nivel de producción (Fuente: GitHub)

CosyVoice 3.0

Alpha Engine: Generación automática de modelos URDF para robots mediante lenguaje natural: Alpha Engine es una herramienta para investigadores de Reinforcement Learning (RL) que busca resolver el tedioso proceso de generación de morfologías robóticas en entornos de simulación. Los usuarios solo necesitan ingresar una descripción (ej. “un rover de cuatro ruedas con alta capacidad de paso”) y la AI, mediante razonamiento LLM, ensamblaje de piezas discretas y resolución de restricciones, genera un modelo URDF que cumple con las leyes físicas y carece de auto-colisiones, listo para ser entrenado en Isaac Sim o Gazebo (Fuente: Reddit)

Impulso para el E-commerce: Convierte manuales de productos en videotutoriales de AI con un clic: Ante el problema de que los usuarios no suelen leer manuales en PDF, se están utilizando herramientas de AI como HeyGen, Leadde AI y Synthesia para automatizar la creación de guías de instalación. Leadde AI permite subir directamente manuales en PDF/PPT y generar videos con explicaciones automáticas; HeyGen destaca en traducción multilingüe y sincronización labial, ayudando al comercio transfronterizo a construir rápidamente bibliotecas de videos de atención al cliente en varios idiomas, reduciendo eficazmente la tasa de consultas postventa (Fuente: Reddit)

📚 Aprendizaje

SWE-EVO: Evaluando la capacidad de los agentes de AI en la evolución de software de ciclo largo: Los benchmarks de programación actuales suelen centrarse en la corrección de un solo bug, mientras que SWE-EVO se enfoca en tareas de ciclo largo. Basado en el historial de versiones de 7 proyectos maduros de Python, requiere que los agentes realicen modificaciones en múltiples pasos en bases de código que abarcan un promedio de 21 archivos. Los experimentos muestran que incluso los modelos de primer nivel flaquean en el razonamiento de ciclo largo, con tasas de éxito muy inferiores a las de tareas únicas, revelando las limitaciones actuales de los agentes de AI en la ingeniería de software continua (Fuente: Arxiv)

Dataset YearGuessr: Revelando el sesgo de popularidad en los Vision Language Models (VLM): Investigadores han lanzado el dataset YearGuessr, que contiene 55,000 imágenes de edificios de 157 países para probar la capacidad de los modelos para predecir la época de construcción. Los resultados mostraron que la precisión de los VLM en edificios famosos es un 34% mayor que en edificios comunes, lo que indica que los modelos dependen en gran medida de la “memoria” de los datos de entrenamiento en lugar de una verdadera comprensión y razonamiento general. Este benchmark ofrece una nueva perspectiva para evaluar la capacidad de generalización real de la AI (Fuente: HuggingFace)

TokSuite: Desacoplando el impacto del Tokenizer en el comportamiento de los modelos de lenguaje: El Tokenizer es la base del procesamiento de texto en las LLM, pero su impacto específico ha sido ignorado durante mucho tiempo. TokSuite, mediante el entrenamiento de 14 modelos que solo difieren en su Tokenizer, mide sistemáticamente el impacto de la elección de tokenización en el rendimiento y la robustez del modelo. El estudio encontró que los Tokenizers se comportan de manera distinta ante perturbaciones del mundo real, proporcionando una base experimental para el diseño de estrategias de tokenización más eficientes y robustas en el futuro (Fuente: Arxiv)

Algoritmo AMD: Logrando un 92.86% de precisión en CIFAR-100 en menos de 10 minutos: Un desarrollador compartió un método llamado “Analytical Manifold Expansion (AMD)”, que extrae características mediante un modelo ViT preentrenado y utiliza una fórmula matemática de un solo paso para calcular directamente los pesos, saltándose por completo el lento ciclo de entrenamiento por Backpropagation. En una instancia gratuita de Google Colab, el cálculo se completa en solo 8 minutos, demostrando la eficiencia extrema de las soluciones analíticas frente al tradicional descenso de gradiente en escenarios específicos (Fuente: Reddit)

AMD 算法

💼 Negocios

Se intensifica la guerra AI to C de las grandes tecnológicas: Tencent y Alibaba se posicionan contra Doubao: Con Doubao (de ByteDance) superando los 100 millones de usuarios activos diarios, Tencent y Alibaba están ajustando rápidamente sus estrategias. Alibaba ha establecido el grupo de negocios Qwen C-end, mientras que Tencent ha nombrado a un científico jefe de AI y está acelerando la integración de Yuanbao con el ecosistema de WeChat. Los gigantes se han dado cuenta de que la puerta de entrada a la era de la AI se ha desplazado a “el diálogo como interfaz”; esta batalla no es solo por el derecho de distribución de tráfico, sino una lucha por la supervivencia que definirá el panorama de Internet en la próxima década (Fuente: 36氪)

大厂 AI to C 战事升级

El ejército de EE. UU. incorpora el Grok de Elon Musk a su “arsenal de AI”: A pesar de la controversia, el Pentágono ha añadido oficialmente a Grok a su conjunto de herramientas de AI. Los análisis sugieren que los militares valoran la capacidad de Grok para procesar datos de redes sociales en tiempo real, con el fin de utilizarlo para el monitoreo de la opinión pública o como apoyo en la guerra de información. Sin embargo, los críticos temen que las posturas políticas personales de Musk y su actitud casual hacia los hechos puedan afectar la objetividad y seguridad de las decisiones militares (Fuente: Reddit)

美国军方将 Elon Musk 的 Grok 纳入“AI 军火库”

Media maratón de robots humanoides en Beijing Yizhuang 2026: Recompensa de millones por navegación autónoma: Beijing Yizhuang anunció que celebrará una media maratón de robots humanoides en abril de 2026, estableciendo por primera vez una “categoría de navegación autónoma” para impulsar la transición de los robots del control remoto a la toma de decisiones completamente autónoma. La competencia no solo pondrá a prueba la autonomía y la marcha antropomórfica de los robots, sino que también ofrece recompensas en forma de pedidos millonarios, acelerando la industrialización de los humanoides en escenarios reales como el rescate de emergencia (Fuente: 36氪)

2026 北京亦庄人形机器人半马

🌟 Comunidad

Alerta por trastornos mentales inducidos por AI: la dependencia excesiva de chatbots provoca alucinaciones: La comunidad debate varios casos de brotes psicóticos causados por el uso excesivo de ChatGPT como “psicólogo”. En estados de aislamiento prolongado, los usuarios ven a la AI como su único confidente, y la naturaleza sumisa de la AI, que tiende a confirmar constantemente las creencias del usuario, puede exacerbar la paranoia y la pérdida del sentido de la realidad. Los expertos advierten que, aunque la AI puede ayudar a organizar pensamientos, nunca debe sustituir el tratamiento psicológico profesional, especialmente para personas vulnerables (Fuente: Reddit)

El duelo de “personalidad” entre Claude 4.5 y ChatGPT: ¿Por qué los usuarios prefieren al primero?: Muchos usuarios veteranos de AI comparten en Reddit sus impresiones, considerando que Claude (especialmente Opus 4.5) se comporta más como un “adulto racional y maduro”, mientras que ChatGPT parece un “joven de hip-hop que habla por hablar”. Los usuarios señalan que el entrenamiento de “Constitutional AI” de Claude lo hace más propenso a la autocorrección en lugar de encubrir errores; esta “groundedness” (fiabilidad/realismo) ofrece una ventaja clara al escribir código complejo y realizar análisis profundos (Fuente: Reddit)

Ansiedad de los usuarios de LLM locales: arrepentimiento por no “acumular” memoria antes de la subida de precios: Con la popularidad de los modelos de código abierto de grandes parámetros, la demanda de VRAM y memoria del sistema para ejecutar AI localmente se ha disparado. Usuarios de la comunidad LocalLLaMA lamentan haber perdido la ventana de precios bajos de la memoria, especialmente tras descubrir que 128GB de RAM se han convertido en el estándar para ejecutar modelos cuantizados de alto rendimiento con fluidez; el costo del hardware es ahora el mayor obstáculo para los entusiastas individuales (Fuente: Reddit)

本地 LLM 玩家的焦虑

De capas manuales a flujos de prompts: la revolución del flujo de trabajo en edición de imágenes: La comunidad observa que la edición de imágenes está pasando de las operaciones tradicionales de máscaras y capas a flujos de trabajo basados completamente en Prompts. Herramientas como Hifun.ai permiten a los usuarios completar segmentaciones y transformaciones complejas mediante descripciones directas. Aunque los profesionales aún mantienen reservas sobre el control a nivel de píxel, para los usuarios comunes que buscan velocidad y menor barrera de entrada, esta edición “orientada a resultados” está reemplazando rápidamente al software tradicional (Fuente: Reddit)

💡 Otros

La demanda energética de la AI impulsa la inversión en la próxima generación de energía limpia: Aunque el consumo de cómputo de la AI es enorme, se ha convertido inesperadamente en el “salvador” de la energía limpia. Gigantes tecnológicos como Google y Microsoft, para alcanzar sus objetivos de cero emisiones, están invirtiendo fuertemente en energía geotérmica y nuclear. Por ejemplo, Google firmó un acuerdo para reiniciar una planta nuclear en Iowa, mientras que Meta invierte en generación geotérmica. Este flujo de capital impulsado por la AI podría ser más efectivo que cualquier subsidio gubernamental para madurar las tecnologías de red de próxima generación (Fuente: MIT)

AI 能源需求助推清洁能源投资

Grok muestra potencial en la investigación matemática: ayudando a descubrir funciones relacionadas con la Hipótesis de Riemann: Un físico compartió su experiencia utilizando Grok para descubrir una reformulación equivalente de la Hipótesis de Riemann. Grok identificó con precisión la relación de la función de Takagi (Takagi function) en imágenes fractales y pruebas matemáticas. Esto sugiere que las LLM están acelerando el proceso de descubrimiento científico mediante la conexión potente de conocimientos interdisciplinarios, ayudando a los investigadores a encontrar vínculos lógicos ignorados en la vasta literatura (Fuente: Yuhu_ai_)

Grok 在数学研究中展现潜力

Creatividad 3D sin gafas: utilizando Nano Banana Pro para generar imágenes 3D de ojos cruzados: Un usuario de Reddit mostró una técnica para generar imágenes 3D de tipo “Cross-eye” mediante AI. A través de restricciones específicas en el Prompt, el modelo puede generar dos imágenes paralelas con una ligera disparidad visual; el usuario solo necesita usar el método de observación de ojos cruzados para obtener un efecto de visión estereoscópica en una pantalla normal. Este juego creativo de bajo costo demuestra una vez más las infinitas posibilidades de la AI generativa en la exploración de las artes visuales (Fuente: Reddit)