Diario de IA - 2026-01-18(Edición vespertina)

Palabras clave：AGI, Carrera de IA, DeepMind, Capacidad de interrogación autónoma, Modelo del mundo, Arquitectura original Transformer

🔥 Enfoque

El CEO de DeepMind desglosa las cuatro claves de la evolución de la AGI: Demis Hassabis señaló en una entrevista que el núcleo de la AGI no reside en la emergencia por escala, sino en dotar a la AI de capacidades de “auto-cuestionamiento” y un “world model”. Destacó que en el futuro la inteligencia será equivalente a la energía, y DeepMind está buscando soluciones de nuevas energías como la fusión nuclear a través de la AI. Asimismo, considera que los laboratorios chinos están solo unos meses por detrás en capacidad de replicación, y que la verdadera competencia radica en lograr avances en arquitecturas originales similares a Transformer. Esto marca que la carrera de la AI ha pasado de una simple competencia de rendimiento a un desafío integral de eficiencia energética, viabilidad comercial e innovación nativa (Fuente: )

OpenAI prueba el modelo publicitario y la evolución de niveles comerciales: OpenAI anunció pruebas de publicidad en ChatGPT y lanzó un plan de suscripción de bajo costo llamado “ChatGPT Go” por 8 dólares. Esta medida busca monetizar el valor del 95% de los usuarios no remunerados mediante un modelo híbrido de “publicidad + suscripción”, aliviando la presión de los gastos de computación de nivel billonario. Los anuncios aparecerán como “nodos de conversación” al final del texto, permitiendo preguntas de seguimiento. Esto indica que las aplicaciones nativas de AI están siguiendo el antiguo camino de monetización de las plataformas de búsqueda y redes sociales, intentando construir una plataforma de distribución de tráfico sostenible bajo una expectativa de valoración de 830.000 millones de dólares (Fuente: OpenAI)

NVIDIA construye un ecosistema de Physical AI e inferencia mediante “contratación por adquisición”: Jensen Huang ha realizado adquisiciones intensivas de startups en 2025 (como Nexusflow, CentML, LeptonAI, Groq) para absorber equipos principales. Estos movimientos refuerzan con precisión las debilidades de NVIDIA en áreas como AI Agent, compresión de modelos, alquiler de computación en la nube e inferencia de alta velocidad. Especialmente su preferencia por equipos fundadores chinos muestra que NVIDIA está transformándose de “vender chips” a “vender sistemas”, intentando mantener su hegemonía global en AI controlando la cadena de herramientas de software y la arquitectura subyacente (Fuente: Liangziwei)

La salida a bolsa de Zhipu y el efecto referente de la transferencia de resultados de AI universitaria en China: Tras su salida a bolsa en Hong Kong, la valoración de Zhipu superó los 110.000 millones de HKD. Sus orígenes se remontan al laboratorio KEG de la Universidad de Tsinghua. Este caso demuestra el enorme poder de la integración profunda entre “industria, academia e investigación”; la Universidad de Tsinghua logró retornos contables de miles de millones de HKD a través de la plataforma tecnológica Huakong. No es solo un caso de salida masiva para el sector de capital de riesgo, sino que vaticina que el emprendimiento tecnológico en China entra en una era de “incubación universitaria”, donde la innovación original acelera su paso del laboratorio al mercado de capitales (Fuente: Pedaily)

🎯 Tendencias

DeepSeek lanza la arquitectura Engram introduciendo memoria de búsqueda O(1): DeepSeek presentó un nuevo módulo llamado Engram, que logra una memoria de búsqueda con complejidad O(1) mediante embeddings de hash N-gram modernos. Estudios de interpretabilidad mecánica (LogitLens y CKA) muestran que Engram puede aliviar eficazmente la carga de almacenamiento de memoria en las capas intermedias del modelo, permitiendo que las capas se enfoquen más en el razonamiento lógico. Este intento de aplicar la interpretabilidad mecánica para mejorar capacidades es visto por la comunidad como un importante cambio de paradigma en la investigación de arquitecturas de AI (Fuente: Lisan al Gaib)

Actualización integral de la matriz de Google AI y Beta de inteligencia personal: Google lanzó la versión Beta de inteligencia personal en la Gemini App, permitiendo a los usuarios conectar Gmail y Photos para obtener respuestas personalizadas. También se lanzaron el modelo de traducción TranslateGemma, que soporta 55 pares de idiomas, MedGemma 1.5 para mejorar el razonamiento en imágenes médicas 3D, y la función de upsampling de video 4K en Veo 3.1. Google está utilizando su vasto ecosistema de usuarios para ejecutar un ataque de reducción de dimensionalidad contra sus competidores a través de la penetración de AI en toda su línea de productos (Fuente: JeffDean)

El ritmo de desarrollo de Qwen 4 se ralentiza para enfocarse en la calidad del modelo: El responsable del equipo Qwen de Alibaba declaró que “desacelerarán” para concentrarse en la mejora de la calidad en lugar de buscar simplemente la frecuencia de lanzamiento. Rumores en la comunidad sugieren que Qwen 3.5 ya ha logrado internamente ventanas de contexto de nivel de millones. Este ajuste estratégico podría reflejar que, ante las limitaciones de potencia de cómputo, los equipos de modelos líderes en China están pasando de “alcanzar la escala” a “pulir la eficiencia de ingeniería extrema” y la “profundidad de razonamiento en textos largos” (Fuente: Reddit)

Sakana AI propone el mecanismo RePo para optimizar la atención en textos largos: Sakana AI introdujo el mecanismo de Contextual Repositioning (RePo), rompiendo la dependencia rígida del modelo del orden secuencial 1-2-3 de la entrada. RePo puede aprender posiciones basadas en la estructura del contexto, capturando las asociaciones reales entre la información. Los experimentos muestran que este mecanismo reduce significativamente el desperdicio de atención del modelo al procesar entradas largas y ruidosas, manteniendo un rendimiento sólido en textos cortos, ofreciendo una nueva vía para el razonamiento de contexto largo (Fuente: TheTuringPost)

🧰 Herramientas

La disputa de experiencia de desarrollador entre Claude Code y Codex: Los desarrolladores han comparado ambos y encontraron que, aunque la cadena de herramientas CLI de Codex es algo tosca, su modelo tiene ventajas en la robustez de la escritura de código y el manejo de grandes volúmenes de Token; por otro lado, Claude Code destaca en la ejecución de tareas generales y la experiencia de interacción. Han aparecido scripts en la comunidad para espejar Claude Skills en Codex, intentando combinar las fortalezas de ambos. El auge de esta cultura de “Vibe Coding” está remodelando el flujo de trabajo de los desarrolladores individuales (Fuente: dotey)

Implementación de un framework de automatización financiera basado en Claude Code: Un desarrollador mostró cómo utilizar Claude Code y su sistema de plugins para construir un agente financiero inteligente, reduciendo el tiempo de contabilidad mensual de 3 días a medio día. Mediante subagents se logró la entrada de facturas (de 2 horas a 2 minutos) y la conciliación bancaria (de medio día a 5 minutos). Este caso demuestra que la implementación de agentes LLM en nichos verticales (como finanzas o legal) ya posee un ROI extremadamente alto (Fuente: dotey)

Temple Bridge: Una capa de memoria de AI local basada en el sistema de archivos: Para abordar el problema de la pérdida de estado en LLM locales, un desarrollador construyó el servidor Temple Bridge MCP. Utiliza la estructura de directorios del sistema de archivos como portador de memoria de la AI, solicitando aprobación humana a través de un “protocolo de gobernanza” antes de ejecutar comandos peligrosos. Este paradigma de “sistema de archivos como circuito” evita el mantenimiento complejo de bases de datos vectoriales, proporcionando a los usuarios de Apple Silicon un asistente de AI 100% offline y con “conciencia” (Fuente: Reddit)

LlamaParse + Claude Agent SDK para el llenado de formularios complejos: Un desarrollador lanzó un AI Agent capaz de extraer automáticamente información de documentos no estructurados, como escaneos de recibos, y completar formularios complejos. La herramienta combina la capacidad de análisis de documentos de LlamaParse con la comprensión semántica de Claude, soportando correcciones mediante diálogos de múltiples turnos y procesamiento concurrente de archivos. Esto resuelve el problema de la “última milla” de pasar del documento a la acción en el campo de RAG (Fuente: jerryjliu0)

📚 Aprendizaje

MIPRO: Optimizador de propuestas de instrucciones de múltiples prompts: Investigaciones de Stanford y otras instituciones presentaron el framework MIPRO, que puede optimizar automáticamente los prompts, logrando un rendimiento un 13% superior a los diseñados manualmente. MIPRO utiliza optimización bayesiana y muestreo de LLM para encontrar la combinación óptima de instrucciones en tareas complejas. Esto vaticina que la “ingeniería de prompts” está acelerando su evolución de la alquimia manual a la automatización algorítmica (Fuente: dl_weekly)

GU: Aprendizaje de desaprendizaje geométrico desacoplado para eliminar efectos secundarios: Ante el problema de que los modelos “dañan conocimientos beneficiosos al olvidar conocimientos perjudiciales”, investigadores propusieron el algoritmo GU. Mediante el análisis de gradiente de primer orden, descompone la actualización de olvido en componentes ortogonales, garantizando de forma demostrable que el conocimiento retenido no se vea afectado. El algoritmo logró mejoras de Pareto en conjuntos de datos como TOFU y MUSE, proporcionando garantías matemáticas para el alineamiento de seguridad y el borrado de privacidad en LLM (Fuente: mmitchell_ai)

Hoja de ruta para ingenieros de AI autodidactas y “arbitraje de dominio”: La comunidad compartió una ruta exitosa para pasar del sector inmobiliario a la AI. El punto central es utilizar el “arbitraje de dominio”: combinar la tecnología de AI con conocimientos especializados de una industria específica. Los recursos de aprendizaje enfatizan comenzar con proyectos de LangChain y construir aplicaciones que resuelvan puntos de dolor reales de la industria (como CondoGPT) para acumular credibilidad, en lugar de obsesionarse con las matemáticas subyacentes, ofreciendo una guía de transición pragmática para no especialistas (Fuente: LangChain)

💼 Negocios

La investigación de antecedentes de empleados de OpenAI revela el monopolio de universidades de élite: Los datos muestran que los empleados de OpenAI están altamente concentrados en Stanford (230 personas), Berkeley (151 personas) y el MIT (100 personas). Los graduados de estas tres escuelas representan más del 13% del total. Aunque Sam Altman promueve la idea de que “los títulos no sirven”, el foso que OpenAI ha construido realmente es el monopolio extremo del talento de las mejores facultades de ciencias de la computación del mundo, formando un ciclo de retroalimentación de élite que se refuerza a sí mismo (Fuente: 36Kr)

El bloqueo de cuentas de desarrolladores por parte de Anthropic provoca protestas en la comunidad de código abierto: El conocido desarrollador Doodlestein reveló que sus 22 cuentas Max fueron bloqueadas por Anthropic debido al desarrollo de herramientas de Agent de código abierto. A pesar de pagar miles de dólares mensuales en suscripciones y contribuir con datos de RL de alta calidad, recibió este trato. El incidente ha generado dudas generalizadas sobre los gigantes de la AI que “desechan a quienes les ayudaron” y el control excesivo sobre el ecosistema de desarrolladores; algunos han declarado que se pasarán a OpenAI o a modelos locales (Fuente: doodlestein)

Explosión de la valoración de Zhipu tras su salida a bolsa y apuestas comerciales: En la semana posterior a su salida a bolsa, la valoración de Zhipu se disparó de 50.000 millones a 110.000 millones de HKD, impulsada principalmente por su cooperación estratégica con Didi y su modelo de código abierto GLM-Image que lidera los rankings. Más de 80 accionistas (incluyendo Alibaba, Tencent, Meituan y capital estatal local) lograron enormes retornos contables. Esto marca un punto de inflexión crucial para los grandes modelos nacionales, pasando de la “competencia por financiamiento” a la “realización de valoraciones en el mercado secundario” (Fuente: Pedaily)

🌟 Comunidad

Debate social sobre la visión de abundancia de la AGI y el neofeudalismo: La comunidad debate intensamente sobre la “abundancia post-AGI” de Elon Musk frente a la visión de “neofeudalismo” de George Hotz. Los defensores creen que la AI eliminará la escasez, mientras que los opositores temen que el poder del capital se consolide aún más a través de la AI, dejando al 99% de la población como una clase baja permanente. Esta discusión refleja la profunda ansiedad humana sobre la reconfiguración del contrato social ante la proximidad de la singularidad tecnológica (Fuente: Reddit)

Críticas colectivas por la “erosión de la experiencia” causada por la publicidad en ChatGPT: La comunidad de Reddit reaccionó violentamente a la introducción de anuncios por parte de OpenAI; algunos usuarios bromearon diciendo que AGI significa “Ad Generated Income” (Ingresos Generados por Anuncios). Los usuarios rechazan generalmente el tono “moralista” y las respuestas pretenciosas de los asistentes de AI, considerando que la presión comercial está volviendo la interacción, antes pura, en algo pesado e hipócrita. Algunos usuarios Plus ya consideran cambiarse a Perplexity o al despliegue local (Fuente: Reddit)

Controversia ambiental por la comparación del consumo energético de la AI con “hamburgueserías”: Ante las críticas por el consumo de agua y electricidad de los centros de datos de AI, un análisis señaló que el consumo de agua del centro de datos de AI más grande equivale solo a 2,5 locales de In-N-Out Burger. Esta comparación se volvió viral en redes sociales; los defensores creen que la amenaza ambiental de la AI se ha exagerado, mientras que los críticos sostienen que esto desdibuja la diferencia esencial entre el consumo de nivel industrial y el de subsistencia civil (Fuente: AymericRoucher)

El “Flow State” de los desarrolladores en la colaboración con AI y la alienación de la eficiencia: Muchos programadores compartieron experiencias de entrar en un “estado de flujo” extremo con la ayuda de herramientas como Claude Code, llegando a levantarse a las 4 a.m. para programar. Sin embargo, también hay voces de alerta sobre la presión de “ejecutar Agents 24/7”, considerando que esto podría llevar a la alienación de la fuerza laboral humana, degradando al desarrollador de “creador” a “supervisor de colas de AI” (Fuente: blader)

💡 Otros

Atlas de Boston Dynamics logra operaciones en estanterías y evolución de plegado: Un video reciente muestra la versión eléctrica del robot Atlas evolucionando de simplemente caminar a realizar tareas complejas de organización de estanterías, volteo de neumáticos e incluso plegado para almacenamiento como el perro Spot. Esto marca que los robots humanoides están acelerando su paso de las “acrobacias de laboratorio” a las “operaciones reales” en logística industrial (Fuente: Ronald_vanLoon)

Yunpeng Technology lanza nuevos productos de cocina inteligente con AI+Salud: Yunpeng Technology presentó un refrigerador inteligente equipado con un gran modelo de salud de AI, que ofrece gestión nutricional personalizada a través del “asistente de salud Xiaoyun”. Esto muestra que la AI está penetrando desde la interacción digital pura hacia el espacio físico de la vida, logrando una gestión de ciclo cerrado de los datos de salud de los residentes a través de terminales de electrodomésticos (Fuente: 36Kr)

MIT desarrolla estructuras 3D deformables que se “forman bajo demanda”: Investigadores del MIT desarrollaron una estructura plana que puede transformarse instantáneamente en formas 3D complejas mediante una única fuerza de tracción. Esta combinación de ciencia de materiales y algoritmos geométricos ofrece una nueva vía para la fabricación rápida de estructuras espaciales desplegables, implantes médicos y robots blandos (Fuente: Ronald_vanLoon)

🔥 Enfoque

🎯 Tendencias

🧰 Herramientas

📚 Aprendizaje

💼 Negocios

🌟 Comunidad

💡 Otros

Etiquetas relacionadas

Related Posts

Diario de IA – 2026-07-20

Diario de IA – 2026-07-19

Diario de IA – 2026-07-18