gik|iewicz

szukaj
Temat: benchmark AI

SWE-bench Verified: 5 powodów, dla których ten benchmark już nie działa

Dlaczego SWE-bench Verified przestał być wiarygodnym testem? SWE-bench Verified osiągnął punkt, w którym wyniki bliskie 90% przestały mieć znaczenie praktyczne. Claude Mythos Preview zanotował 93,9% na tym benchmarku w 2026 roku, co brzmi imponująco, ale w rzeczywistości obnaża fundamentalny problem z pomiarem zdolności programistycznych AI. Testujemy narzędzia, które rozwiązują setki zadań z repozytoriów open source, […]