🚨 速報:Googleの研究者でありチューリング賞受賞者の人物が、AIの真の危機を暴露する論文を発表しました。 それは訓練じゃない。それは推測です。そして、私たちが使っているハードウェアは、決してそのために設計されたものではありません。 論文は馬小雨とデイビッド・パターソンによるものです。IEEE Computerに承認、2026年。 誇張はない。製品発売もありません。ハードウェアレベルでLLMの提供が根本的に壊れている理由を、簡潔に説明します。 核心的な主張は残酷です: → GPU FLOPSは2012年から2022年の間に80倍に成長しました → 同じ期間にメモリ帯域幅はわずか17倍に増加しました → HBMの1GBあたりのコストは下がるのではなく上昇しています → デコードフェーズはメモリに縛られ、計算に縛られるわけではありません → トレーニング用に設計されたチップで推論を構築しています ここが一番驚くべき部分です: OpenAIは収益37億ドルに対し、約50億ドルの損失を出しました。ボトルネックはモデルの品質ではありません。すべてのトークンをすべてのユーザーに配信するコストです。推論はこれらの企業を搾り取っています。 そして、同時に状況を悪化させている5つの傾向があります: →DeepSeek-V3のようなMoEモデル、256人のエキスパーソンがメモリを爆発的に使っています → 回答前に大規模な思考連鎖を生成する推論モデル → マルチモーダル入力(画像、音声、映像)がテキストを小さくする → KVキャッシュをストレインする長コンテキストウィンドウ → リクエストごとにより多くのコンテキストを注入するRAGパイプライン 彼らが提案した4つのハードウェア転換案: → 高帯域幅フラッシュ:HBMレベルの帯域幅で512GBスタック、ノードあたり10倍のメモリ増加 → プロセッシング・ニアメモリ:同じチップ上ではなくメモリの隣に配置される論理ダイ → 3Dメモリロジック積み重ね:HBMの2〜3倍低い電力を垂直接続で提供します...