🚨 ÚLTIMA HORA: Un investigador de Google y un ganador del Premio Turing acaban de publicar un artículo que expone la verdadera crisis en la IA. No es el entrenamiento. Es la inferencia. Y el hardware que estamos utilizando nunca fue diseñado para ello. El artículo es de Xiaoyu Ma y David Patterson. Aceptado por IEEE Computer, 2026. Sin exageraciones. Sin lanzamiento de productos. Solo un desglose frío de por qué servir LLMs está fundamentalmente roto a nivel de hardware. El argumento central es brutal: → Los FLOPS de GPU crecieron 80X de 2012 a 2022 → El ancho de banda de memoria creció solo 17X en ese mismo período → Los costos de HBM por GB están SUBIENDO, no bajando → La fase de Decodificación está limitada por la memoria, no por el cómputo → Estamos construyendo inferencia en chips diseñados para entrenamiento Aquí está la parte más loca: OpenAI perdió aproximadamente $5B sobre $3.7B en ingresos. El cuello de botella no es la calidad del modelo. Es el costo de servir cada token a cada usuario. La inferencia está drenando a estas empresas. Y cinco tendencias están empeorando la situación simultáneamente: → Modelos MoE como DeepSeek-V3 con 256 expertos explotando la memoria → Modelos de razonamiento generando enormes cadenas de pensamiento antes de responder → Entradas multimodales (imagen, audio, video) superando al texto → Ventanas de contexto largo estresando las cachés KV → Pipelines RAG inyectando más contexto por solicitud Sus cuatro cambios propuestos en hardware: → Flash de Alto Ancho de Banda: pilas de 512GB con ancho de banda a nivel de HBM, 10X más memoria por nodo → Procesamiento-Cerca-de-Memoria: circuitos lógicos colocados junto a la memoria, no en el mismo chip → Apilamiento de Memoria-Lógica 3D: conexiones verticales que ofrecen 2-3X menos consumo de energía que HBM...