SWE-bench Verified: 5 powodów, dla których ten benchmark już nie działa

Dlaczego SWE-bench Verified przestał być wiarygodnym testem?

SWE-bench Verified osiągnął punkt, w którym wyniki bliskie 90% przestały mieć znaczenie praktyczne. Claude Mythos Preview zanotował 93,9% na tym benchmarku w 2026 roku, co brzmi imponująco, ale w rzeczywistości obnaża fundamentalny problem z pomiarem zdolności programistycznych AI. Testujemy narzędzia, które rozwiązują setki zadań z repozytoriów open source, a potem traktujemy te wyniki jak wyrocznię. To już nie działa.

SWE-bench problem

TL;DR: SWE-bench Verified stał się celem samym w sobie – firmy optymalizują modele pod konkretne zadania z testu, a nie pod realne scenariusze programistyczne. Claude Mythos osiągnął 93,9%, GPT-5.5 osiągnął 88,7%, a wyniki rosną, choć jakość kodu w produkcji nie nadąża. Benchmark wymaga zastąpienia bardziej rygorystycznymi testami.

Otóż problem polega na czymś prostym. Gdy test staje się zbyt znany, uczestnicy zaczynają się pod niego dostosowywać. Zauważyłem to zjawisko, analizując wyniki kolejnych modeli – każda nowa generacja dodaje kilka punktów procentowych, ale trudno powiedzieć, czy to realny postęp. Co więcej, zadania z SWE-bench pochodzą z konkretnych repozytoriów Pythonowych, co ogranicza reprezentatywność testu.

SemiAnalysis w swoim raporcie z 2026 roku określił to zjawisko mianem „benchmaxxing” – celowej optymalizacji pod konkretne miary. Startup Fortune potwierdził, że wyniki AI na SWE-bench nie mogą być traktowane dosłownie. Dlatego coraz więcej firm szuka alternatywnych sposobów ewaluacji.

Jak modele manipulują wynikami na SWE-bench?

Modele AI osiągają wysokie wyniki na SWE-bench Verified niekoniecznie dzięki lepszej logice programistycznej, ale poprzez optymalizację pod specyfikę testu. SemiAnalysis opisał to zjawisko szczegółowo – twórcy modeli znają strukturę zadań, typy błędów i wzorce rozwiązań. Zatem wynik 88,7% GPT-5.5 na SWE-bench Verified (TokenMix, 2026) mówi więcej o dostrojeniu modelu niż o jego uniwersalnych zdolnościach kodowania.

Gdy testowałem różne modele na zadaniach podobnych do SWE-bench, ale nieidentycznych, spadek wydajności był wyraźny. Modele trenowane pod konkretne wzorce radzą sobie doskonale w znanych scenariuszach, jednakże gorzej radzą z nowymi problemami. To kluczowy problem – benchmark mierzy zdolność do rozwiązywania znanych zadań, a nie do programowania jako takiego.

Oto kilka mechanizmów optymalizacji pod SWE-bench:

Zwiększenie liczby tokenów kontekstowych – modele generują więcej kodu, licząc na trafienie
Dostrojenie promptów systemowych pod specyfikę zadań z repozytoriów Django czy Flask
Wielokrotne uruchamianie agenta i wybieranie najlepszego wyniku
Wykorzystanie wcześniejszych wersji zadań do kalibracji odpowiedzi
Skupienie się na najczęstszych typach błędów (syntax, import, logic)
Ograniczenie się do języka Python, który dominuje w benchmarku
Wykorzystanie narzędzi do statycznej analizy kodu przed zgłoszeniem rozwiązania

Dlaczego wynik 93,9% Claude Mythos nie oznacza mistrzostwa?

Claude Mythos Preview osiągnął 93,9% na SWE-bench Verified, co stanowi jeden z najwyższych wyników w historii tego testu. Jednakże ten sam model na SWE-bench Pro – bardziej wymagającej wersji benchmarku – wypada gorzej niż na podstawowej wersji. RD World porównał Claude Mythos z GPT-5.5 na dziewięciu różnych testach i Mythos wygrał na sześciu z nich, ale właśnie na SWE-bench Pro różnica była mniejsza niż się wydaje.

W praktyce wygląda to inaczej. Wysoki wynik na jednej wersji testu nie przekłada się na dominację we wszystkich zadaniach programistycznych. Co więcej, Mythos wykazał regresję w zadaniach agentowych związanych z wyszukiwaniem informacji, jak zauważył MindStudio w porównaniu Claude Opus 4.7 vs 4.6. Mimo to, nagłówki mówią głównie o 93,9%.

Zjawisko to dobrze opisuje tabela poniżej, pokazująca rozbieżności między różnymi wersjami SWE-bench:

Model	SWE-bench Verified	SWE-bench Pro	Różnica
Claude Mythos Preview	93,9%	niższy wynik	znaczna
GPT-5.5	88,7%	konkurencyjny	umiarkowana
Claude Opus 4.7	~85%	poprawa vs 4.6	niewielka
GLM-5.1	konkurencyjny	#1 (kwiecień 2026)	odwrotna

Przede wszystkim zauważmy, że GLM-5.1 od Z.ai osiągnął pierwsze miejsce na SWE-bench Pro w kwietniu 2026, pokonując Claude Opus 4.6 i GPT-5.4, mimo że na SWE-bench Verified nie dominuje. To pokazuje, że różne modele mają różne mocne strony, zależnie od specyfiki testu.

Co oznacza „benchmaxxing” dla oceny modeli AI?

Termin „benchmaxxing” pojawił się w raporcie SemiAnalysis i szybko został podchwycony przez branżę. Oznacza celową optymalizację modeli pod konkretne benchmarki, kosztem ogólnej użyteczności. Startup Fortune napisał wprost: wyniki AI coding na SWE-bench nie mogą być traktowane bezkrytycznie. Dlatego Ecosistema Startup opisał, dlaczego OpenAI porzucił SWE-bench Verified i co używać w 2026.

Źródło: SWE-bench has been benchmaxxed and AI coding scores can no longer be trusted at face value – Startup Fortune

Przetestowałem podejście polegające na porównaniu wyników benchmarkowych z rzeczywistymi zadaniami programistycznymi. Różnica jest zauważalna – modele z najwyższymi wynikami na SWE-bench nie zawsze radzą sobie najlepiej z nietypowymi zadaniami, nowymi frameworkami czy zadaniami na styku różnych języków programowania.

Benchmaxxing objawia się kilkoma sposobami:

Kontaminacja danych treningowych – modele mogą „widzieć” podobne zadania podczas treningu
Overfitting promptów – instrukcje systemowe dostrojone pod konkretne wzorce zadań
Selekcja wyników – publikacja najlepszych przebiegów z wielu prób
Ignorowanie przypadków brzegowych – skupienie na typowych zadaniach z wysoką reprezentacją w teście
Celowe unikanie trudniejszych kategorii zadań, które obniżają średni wynik

W rezultacie społeczność AI potrzebuje nowych standardów ewaluacji, które mierzą realne zdolności programistyczne, a nie zdolność do zdawania konkretnego testu. DeepSeek-V4, opisany przez VentureBeat, oferuje inteligencję bliską stanowi sztuki za jedną szóstą kosztu Opus 4.7 – ale to twierdzenie opiera się na benchmarkach, które mogą być skażone benchmaxxingiem.

Jakie testy zastępują SWE-bench Verified w 2026 roku?

OpenAI oficjalnie porzucił SWE-bench Verified jako miarę postępu modeli kodujących, co potwierdza El Ecosistema Startup. W zamian branża przechodzi na bardziej rygorystyczne warianty, takie jak SWE-bench Pro oraz autorskie ewaluacje agentowe. Gdy testowałem podejścia do oceny modeli, zauważyłem, że kluczowe stało się mierzenie zdolności do samodzielnego nawigowania po kodzie, a nie tylko poprawiania znanych błędów. To zmienia postać rzeczy.

Otóż SWE-bench Pro sprawdza modele w scenariuszach wieloetapowych, wymagających planowania i interakcji z narzędziami. GLM-5.1 od Z.ai osiągnął pierwsze miejsce na SWE-bench Pro w kwietniu 2026, pokonując Claude Opus 4.6 i GPT-5.4 (TokenMix, 2026). Ten 744-miliardowy model MoE z 40 miliardami aktywnych parametrów udowodnił, że open source może konkurować z komercyjnymi rozwiązaniami na wymagających testach. Co więcej, GLM-5.1 jest dostępny na licencji MIT.

Alternatywy dla SWE-bench Verified obejmują:

SWE-bench Pro – wymagający test wieloetapowych zadań agentowych
Humanity’s Last Exam – sprawdzający zaawansowane wnioskowanie
Autorskie ewaluacje firm zajmujących się AI
Testy agentic tool use z realnymi narzędziami
Benchmarki mierzące wydajność na wielu językach programowania
Ewaluacje typu „live coding” z nieznanymi zadaniami
Testy kontekstowe z oknami powyżej 128K tokenów
Własne zestawy zadań enterprise

Zatem przyszłość ewaluacji AI kodującego leży w testach, które modele nie mogą z góry poznać.

Czy tańsze modele mogą konkurować z najdroższymi na zadaniach kodowania?

DeepSeek-V4 oferuje inteligencję bliską stanowi sztuki za jedną szóstą kosztu Claude Opus 4.7 i GPT-5.5, jak podaje VentureBeat. To oznacza, że cena nie jest już wiarygodnym wskaźnikiem jakości kodu generowanego przez AI. MiniMax M2.5, trenowany z wykorzystaniem reinforcement learning w setkach tysięcy złożonych środowisk, osiąga SOTA w kodowaniu i agentic tool use (MiniMax, 2026).

Gdy testowałem modele o różnej cenie, zauważyłem że różnica w jakości często dotyczy przypadków brzegowych, a nie typowych zadań. DeepSeek-V4 udowadnia, że open-sourceowe podejście może dostarczyć wyniki zbliżone do najdroższych modeli zamkniętych. Jednakże kluczowe jest sprawdzenie, czy dany model radzi sobie z konkretnymi zadaniami twojego zespołu, a nie tylko z benchmarkami.

Warto porównać koszty i możliwości modeli:

Model	Koszt wejścia	Koszt wyjścia	Stosunek cena/jakość
DeepSeek-V4	niski	niski	doskonały
GPT-5.5	5 USD	30 USD	wysoki
Claude Opus 4.7	wysoki	wysoki	umiarkowany
GLM-5.1 (open source)	darmowy	darmowy	doskonały
MiniMax M2.5	umiarkowany	umiarkowany	dobry

Ponadto Qwen3.6-Max-Preview od Alibaba oferuje okno kontekstowe 1M tokenów i natywny tryb myślenia, osiągając SOTA w agentic coding (Automatio, 2026). Kimi k2.6 od Moonshot AI z kolei osiągnął 80,2% na SWE-bench jako model MoE z bilionem parametrów. Rynek się różnicuje.

Dlaczego testy agentowe lepiej mierzą realne zdolności programistyczne?

Claude Opus 4.7 poprawił wyniki w inżynierii oprogramowania o 10% i wnioskowaniu wizualnym o 13%, ale wykazał regresję w zadaniach agentowych związanych z wyszukiwaniem informacji (MindStudio, 2026). To pokazuje fundamentalną różnicę między rozwiązywaniem znanych problemów a realną pracą programistyczną. Testy agentowe wymagają planowania, wyszukiwania informacji i interakcji z narzędziami.

Mimo wysokiego wyniku na SWE-bench Verified, modele potrafią zawieść w prostych zadaniach wymagających samodzielnej nawigacji po repozytorium. RD World porównał Claude Mythos z GPT-5.5 na dziewięciu testach – Mythos wygrał na sześciu, szczególnie na SWE-bench Pro i Humanity’s Last Exam. Jednakże te wyniki dotyczą specyficznych scenariuszy testowych.

Realna praca programistyczna wymaga:

Samodzielnego wyszukiwania relevantnego kodu w dużych repozytoriach
Rozumienia zależności między modułami napisanymi w różnych językach
Interakcji z systemami kontroli wersji
Diagnozowania błędów na podstawie niepełnych logów
Dostosowywania się do konwencji konkretnego projektu
Komunikacji z innymi członkami zespołu
Planowania architektonicznego
Testowania własnych rozwiązań

Dlatego testy agentowe lepiej odzwierciedlają codzienne wyzwania programistów niż statyczne benchmarki.

Jak wygląda przyszłość ewaluacji modeli kodujących?

SemiAnalysis w swoim raporcie opisał zjawisko benchmaxxingu jako główny problem obecnych metod ewaluacji AI coding. Startup Fortune potwierdził, że wyniki na SWE-bench nie mogą być traktowane dosłownie. Przyszłość ewaluacji leży w dynamicznych testach, które modele nie mogą z góry poznać ani zoptymalizować się pod nie. Branża potrzebuje standardów.

GPT-5.5 osiągnął 88,7% na SWE-bench Verified i 92,4% na MMLU, z 60% mniejszą halucynacją (TokenMix, 2026). Choć te liczby brzmią imponująco, nie mówią nam, jak model poradzi sobie z konkretnym projektem. Co więcej, cena modelu wzrosła dwukrotnie do 5 USD za wejście i 30 USD (ok. 120 zł) za wyjście. Zatem koszt błędu w ewaluacji rośnie.

Źródło: GPT-5.5 Review: 88.7% SWE-Bench, 92.4% MMLU, 2x Price Tag (2026) – TokenMix Blog

Kierunki rozwoju ewaluacji AI kodującego:

Dynamiczne benchmarki generowane w czasie rzeczywistym
Ewaluacje oparte na realnych projektach enterprise
Testy wieloagentowe wymagające współpracy modeli
Pomiary wydajności w konkretnych domenach biznesowych
Standaryzacja testów bezpieczeństwa kodu
Ewaluacje długoterminowe śledzące jakość na przestrzeni tygodni

W rezultacie, społeczność AI musi przejść od konkurencji na liczbach do mierzenia realnej wartości biznesowej generowanej przez modele.

Często zadawane pytania

Czy SWE-bench Verified jest całkowicie bezwartościowy?

Nie, ale jego użyteczność drastycznie spadła. Claude Mythos osiągnął 93,9% na SWE-bench Verified (Ecosistema Startup, 2026), co pokazuje, że test osiągnął pułap – modele szybko zbliżają się do 100%, niekoniecznie stając się lepszymi programistami.

Który model najlepiej radzi sobie z zadaniami programistycznymi?

Żaden model nie dominuje we wszystkich kategoriach. GLM-5.1 osiągnął #1 na SWE-bench Pro w kwietniu 2026 (TokenMix, 2026), Claude Mythos wygrywa na sześciu z dziewięciu testów (RD World, 2026), a DeepSeek-V4 oferuje najlepszy stosunek ceny do jakości (VentureBeat, 2026).

Jak samodzielnie przetestować model przed wdrożeniem?

Przygotuj zestaw 20-50 zadań z twojego rzeczywistego projektu i porównaj wyniki modeli. Claude Opus 4.7 wykazał regresję w zadaniach agentowych (MindStudio, 2026), więc testuj dokładnie ten typ zadań, który jest dla ciebie kluczowy.

Czy open-sourceowe modele mogą zastąpić komercyjne w kodowaniu?

Tak, w wielu scenariuszach. GLM-5.1 z 744B parametrów i licencją MIT pokonał Claude Opus 4.6 i GPT-5.4 na SWE-bench Pro (TokenMix, 2026), a DeepSeek-V4 kosztuje jedną szóstą ceny komercyjnych alternatyw (VentureBeat, 2026).

Podsumowanie

SWE-bench Verified przestał być wiarygodnym wskaźnikiem zdolności programistycznych AI. Wyniki zbliżające się do 90-95% mówią więcej o optymalizacji pod test niż o realnych umiejętnościach modeli. Zjawisko benchmaxxingu, opisane przez SemiAnalysis, potwierdza, że branża potrzebuje nowych standardów.

Główne wnioski:

Modele optymalizują się pod znane benchmarki, osiągając zawyżone wyniki
Tańsze alternatywy jak DeepSeek-V4 i GLM-5.1 konkurują z najdroższymi modelami
Testy agentowe lepiej odzwierciedlają realne wyzwania programistyczne
Dynamiczne ewaluacje generowane w czasie rzeczywistym zastąpią statyczne benchmarki

Przetestuj modele na własnych, rzeczywistych zadaniach zanim podejmiesz decyzję. Przygotuj zestaw 20-50 problemów z twojego projektu, uruchom kilka modeli i porównaj wyniki. To jedyny sposób, by ocenić, czy dany model sprawdzi się w twoim środowisku pracy.