Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
🚨 ÚLTIMA HORA: Um pesquisador do Google e vencedor do Prêmio Turing acaba de publicar um artigo que expõe a verdadeira crise da IA.
Não é treinamento. É inferência. E o hardware que estamos usando nunca foi projetado para isso.
O artigo é de Xiaoyu Ma e David Patterson. Aceito pela IEEE Computer, 2026.
Sem alarde. Sem lançamento de produto. Apenas uma explicação fria do porquê atender LLMs é fundamentalmente quebrado no nível do hardware.
O argumento central é brutal:
→ o FLOPS da GPU cresceu 80 vezes de 2012 a 2022
→ A largura de banda da memória cresceu apenas 17 vezes nesse mesmo período
→ custos de HBM por GB estão subindo, não diminuindo
→ A fase de Decodificação é limitada à memória, não à computação
→ Estamos construindo inferência em chips projetados para treinamento
Aqui está a parte mais louca:
A OpenAI perdeu cerca de US$ 5 bilhões em US$ 3,7 bilhões de receita. O gargalo não é a qualidade do modelo. É o custo de servir cada token para cada usuário. A inferência está esgotando essas empresas.
E cinco tendências estão piorando tudo simultaneamente:
→ modelos MoE como o DeepSeek-V3 com 256 especialistas explodindo memória
→ Modelos de raciocínio gerando cadeias massivas de pensamentos antes de responder
→ Entradas multimodais (imagem, áudio, vídeo) ofuscando o texto
→ Janelas de longo contexto que sobrecarregam caches KV
→ pipelines RAG injetando mais contexto por requisição
As quatro mudanças de hardware propostas por eles:
→ Flash de alta largura de banda: pilhas de 512GB em largura de banda HBM, 10 vezes mais memória por nó
→ Processamento Próximo à Memória: dados lógicos colocados ao lado da memória, não no mesmo chip
→ Empilhamento 3D de Memória-Lógica: conexões verticais que entregam 2-3 vezes menos de potência que o HBM...


Melhores
Classificação
Favoritos
