Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 NOTÍCIA DE ÚLTIMA HORA: Um pesquisador do Google e um vencedor do Prêmio Turing acabaram de publicar um artigo que expõe a verdadeira crise na IA.
Não é o treinamento. É a inferência. E o hardware que estamos usando nunca foi projetado para isso.
O artigo é de Xiaoyu Ma e David Patterson. Aceito pela IEEE Computer, 2026.
Sem exageros. Sem lançamento de produto. Apenas uma análise fria de por que servir LLMs é fundamentalmente quebrado a nível de hardware.
O argumento central é brutal:
→ FLOPS de GPU cresceram 80X de 2012 a 2022
→ A largura de banda de memória cresceu apenas 17X no mesmo período
→ Os custos de HBM por GB estão subindo, não descendo
→ A fase de Decodificação é limitada pela memória, não pela computação
→ Estamos construindo inferência em chips projetados para treinamento
Aqui está a parte mais louca:
A OpenAI perdeu cerca de $5B em $3.7B de receita. O gargalo não é a qualidade do modelo. É o custo de servir cada único token a cada único usuário. A inferência está drenando essas empresas.
E cinco tendências estão tornando isso pior simultaneamente:
→ Modelos MoE como o DeepSeek-V3 com 256 especialistas explodindo a memória
→ Modelos de raciocínio gerando cadeias de pensamento massivas antes de responder
→ Entradas multimodais (imagem, áudio, vídeo) ofuscando o texto
→ Janelas de contexto longo sobrecarregando caches KV
→ Pipelines RAG injetando mais contexto por solicitação
Suas quatro propostas de mudanças de hardware:
→ Flash de Alta Largura de Banda: pilhas de 512GB com largura de banda a nível de HBM, 10X mais memória por nó
→ Processamento Perto da Memória: circuitos lógicos colocados ao lado da memória, não no mesmo chip
→ Empilhamento de Memória-Lógica 3D: conexões verticais entregando 2-3X menos energia do que HBM...


Top
Classificação
Favoritos
