🚨 عاجل: نشر باحث في جوجل وحائز على جائزة تورينغ بحثا بحثيا يكشف الأزمة الحقيقية في الذكاء الاصطناعي. ليس تدريبا. إنه استنتاج. والأجهزة التي نستخدمها لم تصمم أبدا لهذا الغرض. الورقة من تأليف شيايو ما وديفيد باترسون. تم قبوله من قبل IEEE Computer، 2026. لا يوجد مبالغة. لا إطلاق منتج. مجرد تفصيل بسيط لسبب تعطل خدمة نماذج اللغة الكبيرة بشكل أساسي على مستوى العتاد. الحجة الأساسية قاسية: → نما عدد بطاقات الرسومات 80 مرة من 2012 إلى 2022 → نما عرض النطاق الترددي للذاكرة بمقدار 17 ضعف فقط في نفس الفترة → تكلفة ال HBM لكل جيجابايت ترتفع وليس تنخفض → مرحلة فك الترميز مرتبطة بالذاكرة وليست بالحساب → نحن نبني الاستدلالات على شرائح مصممة للتدريب إليكم الجزء الأكثر جنونا: خسرت OpenAI حوالي 5 مليارات دولار مقابل إيرادات بلغت 3.7 مليار دولار. عنق الزجاجة ليس في جودة العارضات. إنها تكلفة تقديم كل رمز لكل مستخدم. الاستنتاج يستنزف هذه الشركات حتى الجفاف. وخمسة اتجاهات تزيد الأمر سوءا في الوقت نفسه: → نماذج وزارة السحر مثل DeepSeek-V3 مع 256 خبيرا في ذاكرة الانفجار → نماذج التفكير التي تولد سلاسل فكرية ضخمة قبل الإجابة → المدخلات متعددة الوسائط (صورة، صوت، فيديو) تضخم النص → نوافذ السياق الطويل التي تجهد ذاكرة KV المؤقتة → خطوط أنابيب RAG التي تضخ المزيد من السياق لكل طلب التغييرات الأربع المقترحة في الأجهزة التي اقترحوها: → فلاش عالي النطاق الترددي: 512 جيجابايت مكدس عند عرض النطاق الترددي على مستوى HBM، وزيادة الذاكرة بمقدار 10 مرات لكل عقدة → المعالجة بالقرب من الذاكرة: المنطق يوضع بجانب الذاكرة، وليس على نفس الشريحة → تكديس الذاكرة ثلاثية الأبعاد والمنطق: اتصالات رأسية توفر طاقة أقل بمقدار 2-3 مرات من HBM...