🚨 SON VERİCİ: Bir Google araştırmacısı ve Turing Ödülü sahibi bir kişi, yapay zekadaki gerçek krizi ortaya çıkaran bir makale yayımladı. Bu eğitim değil. Bu çıkarım. Ve kullandığımız donanım hiç bunun için tasarlanmamıştı. Makale Xiaoyu Ma ve David Patterson tarafından hazırlanmıştır. IEEE Computer tarafından kabul edildi, 2026. Hiçbir abartı yok. Ürün lansmanı yok. LLM'lere hizmet vermenin donanım seviyesinde neden temelde bozuk olduğuna dair bir soğuk özet. Temel argüman acımasız: → GPU FLOPS'u 2012'den 2022'ye kadar 80 kat arttı → Bellek bant genişliği aynı dönemde sadece 17 kat arttı → GB başına HBM maliyetleri ARTIYOR, düşmek yerine → Kod çözme aşaması belleğe bağlıdır, hesaplama sınırlıdır → Eğitim için tasarlanmış çipler üzerinde çıkarım yapıyoruz İşte en çılgın kısım: OpenAI, yaklaşık 5 milyar dolar zarar vererek 3,7 milyar dolar gelir elde etti. Dar boğaz model kalitesi değil. Bu, her kullanıcıya her token sunmanın maliyetidir. Çıkarımlar bu şirketleri tamamen tüketiyor. Ve beş trend aynı anda durumu daha da kötüleştiriyor: → MoE modelleri, DeepSeek-V3 gibi 256 uzmanın patlayan belleği ile → Cevaplamadan önce devasa düşünce zincirleri oluşturan akıl yürütme modelleri → Çok modlu girişler (görüntü, ses, video) metni gölgede bırakıyor → Uzun bağlamlı pencereler KV önbelleklerini zorlamaktadır → RAG pipeline'lar istek başına daha fazla bağlam enjekte ediyor Dört önerdikleri donanım değişikliği: → Yüksek Bant Genişliği Flashı: HBM seviyesinde 512GB yığınlar, düğüm başına 10 kat daha fazla bellek → İşleme-Yakın Bellek: mantık kalıpları aynı çip üzerinde değil, belleğin yanına yerleştirilir → 3D Bellek-Mantık Yığma: HBM'den 2-3 kat daha az güç sağlayan dikey bağlantılar...