🚨 NOTIZIA DELL'ULTIMA ORA: Un ricercatore di Google e un vincitore del premio Turing hanno appena pubblicato un documento che espone la vera crisi nell'IA. Non è l'addestramento. È l'inferenza. E l'hardware che stiamo usando non è mai stato progettato per questo. Il documento è di Xiaoyu Ma e David Patterson. Accettato da IEEE Computer, 2026. Nessun clamore. Nessun lancio di prodotto. Solo un'analisi fredda del perché servire LLM è fondamentalmente rotto a livello hardware. L'argomento principale è brutale: → I FLOPS delle GPU sono cresciuti 80 volte dal 2012 al 2022 → La larghezza di banda della memoria è cresciuta solo 17 volte nello stesso periodo → I costi dell'HBM per GB stanno aumentando, non diminuendo → La fase di decodifica è limitata dalla memoria, non dal calcolo → Stiamo costruendo l'inferenza su chip progettati per l'addestramento Ecco la parte più incredibile: OpenAI ha perso circa 5 miliardi di dollari su 3,7 miliardi di dollari di entrate. Il collo di bottiglia non è la qualità del modello. È il costo di servire ogni singolo token a ogni singolo utente. L'inferenza sta prosciugando queste aziende. E cinque tendenze stanno rendendo tutto peggio simultaneamente: → Modelli MoE come DeepSeek-V3 con 256 esperti che esplodono la memoria → Modelli di ragionamento che generano enormi catene di pensiero prima di rispondere → Input multimodali (immagine, audio, video) che sovrastano il testo → Finestre di contesto lunghe che mettono a dura prova le cache KV → Pipeline RAG che iniettano più contesto per richiesta Le loro quattro proposte di cambiamento hardware: → Flash ad alta larghezza di banda: stack da 512 GB con larghezza di banda a livello HBM, 10 volte più memoria per nodo → Elaborazione vicino alla memoria: circuiti logici posizionati accanto alla memoria, non sullo stesso chip → Impilamento 3D memoria-logica: connessioni verticali che forniscono 2-3 volte meno potenza rispetto all'HBM...