Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

СРОЧНО: Alibaba протестировала 18 AI-агентов по кодированию на 100 реальных кодовых базах, охватывающих 233 дня каждая. они провалились с треском. оказалось, что пройти тесты один раз легко. поддерживать код в течение 8 месяцев, не сломав всё, — вот где AI полностью проваливается. SWE-CI — это первая оценка, которая измеряет долгосрочное обслуживание кода, а не одноразовые исправления ошибок. каждая задача отслеживает 71 последовательный коммит реальной эволюции. 75% моделей ломают ранее работающий код во время обслуживания. только Claude Opus 4.5 и 4.6 остаются выше 50% нулевой регрессии. каждая другая модель накапливает технический долг, который усугубляется с каждой итерацией. вот жестокая часть: - HumanEval и SWE-bench измеряют "работает ли это прямо сейчас" - SWE-CI измеряет "работает ли это всё ещё после 8 месяцев изменений" агенты, оптимизированные для тестирования снимков, пишут хрупкий код, который проходит тесты сегодня, но становится совершенно непригодным для обслуживания завтра. они создали EvoScore, чтобы оценивать более поздние итерации тяжелее, чем ранние. агенты, которые жертвуют качеством кода ради быстрых побед, получают наказание, когда последствия накапливаются. наратив о кодировании AI стал более честным. большинство моделей могут писать код. почти ни одна не может его поддерживать.

Топ

Рейтинг

Избранное