Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 PRZEŁOM: Badacz Google'a i laureat Nagrody Turinga właśnie opublikowali artykuł, który ujawnia prawdziwy kryzys w AI.
To nie jest trening. To wnioskowanie. A sprzęt, którego używamy, nigdy nie był do tego zaprojektowany.
Artykuł jest autorstwa Xiaoyu Ma i Davida Pattersona. Przyjęty przez IEEE Computer, 2026.
Bez hype'u. Bez premiery produktu. Tylko zimne rozbicie tego, dlaczego obsługa LLM-ów jest zasadniczo zepsuta na poziomie sprzętowym.
Główna teza jest brutalna:
→ FLOPS GPU wzrosły 80 razy od 2012 do 2022
→ Przepustowość pamięci wzrosła tylko 17 razy w tym samym okresie
→ Koszty HBM za GB rosną, a nie maleją
→ Faza dekodowania jest ograniczona przez pamięć, a nie przez obliczenia
→ Budujemy wnioskowanie na chipach zaprojektowanych do treningu
Oto najdziksza część:
OpenAI straciło około 5 miliardów dolarów przy 3,7 miliardach dolarów przychodu. Wąskie gardło nie leży w jakości modelu. To koszt obsługi każdego pojedynczego tokena dla każdego pojedynczego użytkownika. Wnioskowanie wyczerpuje te firmy.
A pięć trendów jednocześnie pogarsza sytuację:
→ Modele MoE, takie jak DeepSeek-V3 z 256 ekspertami, eksplodujące pamięć
→ Modele rozumowania generujące ogromne łańcuchy myślowe przed odpowiedzią
→ Multimodalne wejścia (obraz, dźwięk, wideo) przytłaczające tekst
→ Długie okna kontekstowe obciążające pamięci KV
→ RAG pipeline'y wprowadzające więcej kontekstu na żądanie
Ich cztery proponowane zmiany sprzętowe:
→ Wysoka przepustowość Flash: 512GB stosy przy przepustowości na poziomie HBM, 10 razy więcej pamięci na węzeł
→ Przetwarzanie blisko pamięci: układy logiczne umieszczone obok pamięci, a nie na tym samym chipie
→ 3D Stacking Pamięci-Logiki: pionowe połączenia dostarczające 2-3 razy niższe zużycie energii niż HBM...


Najlepsze
Ranking
Ulubione
