gik|iewicz

szukaj
Temat: swe-bench

SWE-bench Verified: 5 powodów, dla których ten benchmark już nie działa

Dlaczego SWE-bench Verified przestał być wiarygodnym testem? SWE-bench Verified osiągnął punkt, w którym wyniki bliskie 90% przestały mieć znaczenie praktyczne. Claude Mythos Preview zanotował 93,9% na tym benchmarku w 2026 roku, co brzmi imponująco, ale w rzeczywistości obnaża fundamentalny problem z pomiarem zdolności programistycznych AI. Testujemy narzędzia, które rozwiązują setki zadań z repozytoriów open source, […]

MiniMax M2.7: Czy Chiński Model AI z Self-Evolving Capability Dogoni Claude i GPT-5?

Chińska firma MiniMax właśnie wypuściła M2.7 — pierwszy komercyjny model AI, który według twórców potrafi „głęboko uczestniczyć we własnej ewolucji”. Na benchmarku SWE-Bench Pro osiągnął 56.22%, prawie równając się z Claude Opus 4.6 (MiniMax, 2026). Czy to początek ery AI, które same się ulepszają? TL;DR: MiniMax M2.7 to chiński model AI osiągający 56.22% na SWE-Bench […]