Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
PRZEŁOM: Alibaba przetestowała 18 agentów AI do kodowania na 100 rzeczywistych bazach kodu, przez 233 dni każda. spektakularnie zawiodły.
okazuje się, że zdanie testów raz jest łatwe. utrzymanie kodu przez 8 miesięcy bez zepsucia wszystkiego to moment, w którym AI całkowicie się załamuje.
SWE-CI to pierwszy benchmark, który mierzy długoterminowe utrzymanie kodu zamiast jednorazowych poprawek błędów. każde zadanie śledzi 71 kolejnych commitów rzeczywistej ewolucji.
75% modeli psuje wcześniej działający kod podczas utrzymania. tylko Claude Opus 4.5 i 4.6 utrzymują powyżej 50% wskaźnika zerowej regresji. każdy inny model gromadzi dług technologiczny, który narasta z każdą iteracją.
oto brutalna część:
- HumanEval i SWE-bench mierzą "czy działa teraz"
- SWE-CI mierzy "czy nadal działa po 8 miesiącach zmian"
agenci zoptymalizowani pod kątem testowania snapshotów piszą kruchy kod, który przechodzi testy dzisiaj, ale staje się całkowicie niemożliwy do utrzymania jutro.
otworzyli EvoScore, aby obciążyć późniejsze iteracje bardziej niż wcześniejsze. agenci, którzy poświęcają jakość kodu dla szybkich zysków, są karani, gdy konsekwencje się kumulują.
narracja o kodowaniu AI stała się bardziej szczera.
większość modeli potrafi pisać kod. prawie żaden nie potrafi go utrzymać.

Najlepsze
Ranking
Ulubione
