🚨 BREAKING: Дослідник Google і лауреат премії Тюрінга щойно опублікував статтю, яка викриває справжню кризу в ШІ. Це не тренування. Це висновок. І апаратне забезпечення, яке ми використовуємо, ніколи не було розроблене для цього. Статтю написали Сяою Ма та Девід Паттерсон. Прийнято IEEE Computer, 2026. Без ажіотажу. Запуску продукту немає. Просто короткий розбір того, чому обслуговування LLM фундаментально зламане на апаратному рівні. Основний аргумент жорсткий: → GPU FLOPS зріс у 80 разів з 2012 по 2022 рік → Пропускна здатність пам'яті зросла лише у 17 разів за той самий період → витрати на HBM за GB ЗРОСТАЮТЬ, а не знижуються → Фаза декодування обмежена пам'яттю, а не обчисленням → Ми будуємо висновки на чипах, призначених для навчання Ось найдивовижніше: OpenAI втратила приблизно $5 млрд при $3.7 млрд доходу. Вузьке місце — не якість моделі. Це вартість обслуговування кожного токена кожному користувачу. Висновок виснажує ці компанії. І п'ять тенденцій одночасно погіршують ситуацію: → моделі MoE, такі як DeepSeek-V3, з 256 експертами з вибуховою пам'яттю → Моделі мислення, що генерують масивні ланцюги думок перед відповіддю → Мультимодальні входи (зображення, аудіо, відео) затуманюють текст → Вікна з довгим контекстом, що напружують кеші KV → RAG-конвеєри, які впроваджують більше контексту на кожен запит Чотири запропоновані апаратні зміни: → Флеш-пам'ять високої пропускної здатності: 512 ГБ стеків на рівні HBM, у 10 разів більше пам'яті на вузол → Обробка-близька до пам'яті: логічні кристали розміщуються поруч із пам'яттю, а не на тому ж чипі → 3D Memory-Logic Stacking: вертикальні з'єднання забезпечують у 2-3 рази менше енергії, ніж HBM...