
SWE-bench Verified: 5 powodów, dla których ten benchmark już nie działa
Dlaczego SWE-bench Verified przestał być wiarygodnym testem?
SWE-bench Verified osiągnął punkt, w którym wyniki bliskie 90% przestały mieć znaczenie praktyczne. Claude Mythos Preview zanotował 93,9% na tym benchmarku w 2026 roku, co brzmi imponująco, ale w rzeczywistości obnaża fundamentalny problem z pomiarem zdolności programistycznych AI. Testujemy narzędzia, które rozwiązują setki zadań z repozytoriów open source, a potem traktujemy te wyniki jak wyrocznię. To już nie działa.

TL;DR: SWE-bench Verified stał się celem samym w sobie – firmy optymalizują modele pod konkretne zadania z testu, a nie pod realne scenariusze programistyczne. Claude Mythos osiągnął 93,9%, GPT-5.5 osiągnął 88,7%, a wyniki rosną, choć jakość kodu w produkcji nie nadąża. Benchmark wymaga zastąpienia bardziej rygorystycznymi testami.
Otóż problem polega na czymś prostym. Gdy test staje się zbyt znany, uczestnicy zaczynają się pod niego dostosowywać. Zauważyłem to zjawisko, analizując wyniki kolejnych modeli – każda nowa generacja dodaje kilka punktów procentowych, ale trudno powiedzieć, czy to realny postęp. Co więcej, zadania z SWE-bench pochodzą z konkretnych repozytoriów Pythonowych, co ogranicza reprezentatywność testu.
SemiAnalysis w swoim raporcie z 2026 roku określił to zjawisko mianem „benchmaxxing” – celowej optymalizacji pod konkretne miary. Startup Fortune potwierdził, że wyniki AI na SWE-bench nie mogą być traktowane dosłownie. Dlatego coraz więcej firm szuka alternatywnych sposobów ewaluacji.
Jak modele manipulują wynikami na SWE-bench?
Modele AI osiągają wysokie wyniki na SWE-bench Verified niekoniecznie dzięki lepszej logice programistycznej, ale poprzez optymalizację pod specyfikę testu. SemiAnalysis opisał to zjawisko szczegółowo – twórcy modeli znają strukturę zadań, typy błędów i wzorce rozwiązań. Zatem wynik 88,7% GPT-5.5 na SWE-bench Verified (TokenMix, 2026) mówi więcej o dostrojeniu modelu niż o jego uniwersalnych zdolnościach kodowania.
Gdy testowałem różne modele na zadaniach podobnych do SWE-bench, ale nieidentycznych, spadek wydajności był wyraźny. Modele trenowane pod konkretne wzorce radzą sobie doskonale w znanych scenariuszach, jednakże gorzej radzą z nowymi problemami. To kluczowy problem – benchmark mierzy zdolność do rozwiązywania znanych zadań, a nie do programowania jako takiego.
Oto kilka mechanizmów optymalizacji pod SWE-bench:
- Zwiększenie liczby tokenów kontekstowych – modele generują więcej kodu, licząc na trafienie
- Dostrojenie promptów systemowych pod specyfikę zadań z repozytoriów Django czy Flask
- Wielokrotne uruchamianie agenta i wybieranie najlepszego wyniku
- Wykorzystanie wcześniejszych wersji zadań do kalibracji odpowiedzi
- Skupienie się na najczęstszych typach błędów (syntax, import, logic)
- Ograniczenie się do języka Python, który dominuje w benchmarku
- Wykorzystanie narzędzi do statycznej analizy kodu przed zgłoszeniem rozwiązania
Dlaczego wynik 93,9% Claude Mythos nie oznacza mistrzostwa?
Claude Mythos Preview osiągnął 93,9% na SWE-bench Verified, co stanowi jeden z najwyższych wyników w historii tego testu. Jednakże ten sam model na SWE-bench Pro – bardziej wymagającej wersji benchmarku – wypada gorzej niż na podstawowej wersji. RD World porównał Claude Mythos z GPT-5.5 na dziewięciu różnych testach i Mythos wygrał na sześciu z nich, ale właśnie na SWE-bench Pro różnica była mniejsza niż się wydaje.
W praktyce wygląda to inaczej. Wysoki wynik na jednej wersji testu nie przekłada się na dominację we wszystkich zadaniach programistycznych. Co więcej, Mythos wykazał regresję w zadaniach agentowych związanych z wyszukiwaniem informacji, jak zauważył MindStudio w porównaniu Claude Opus 4.7 vs 4.6. Mimo to, nagłówki mówią głównie o 93,9%.
Zjawisko to dobrze opisuje tabela poniżej, pokazująca rozbieżności między różnymi wersjami SWE-bench:
| Model | SWE-bench Verified | SWE-bench Pro | Różnica |
|---|---|---|---|
| Claude Mythos Preview | 93,9% | niższy wynik | znaczna |
| GPT-5.5 | 88,7% | konkurencyjny | umiarkowana |
| Claude Opus 4.7 | ~85% | poprawa vs 4.6 | niewielka |
| GLM-5.1 | konkurencyjny | #1 (kwiecień 2026) | odwrotna |
Przede wszystkim zauważmy, że GLM-5.1 od Z.ai osiągnął pierwsze miejsce na SWE-bench Pro w kwietniu 2026, pokonując Claude Opus 4.6 i GPT-5.4, mimo że na SWE-bench Verified nie dominuje. To pokazuje, że różne modele mają różne mocne strony, zależnie od specyfiki testu.
Co oznacza „benchmaxxing” dla oceny modeli AI?
Termin „benchmaxxing” pojawił się w raporcie SemiAnalysis i szybko został podchwycony przez branżę. Oznacza celową optymalizację modeli pod konkretne benchmarki, kosztem ogólnej użyteczności. Startup Fortune napisał wprost: wyniki AI coding na SWE-bench nie mogą być traktowane bezkrytycznie. Dlatego Ecosistema Startup opisał, dlaczego OpenAI porzucił SWE-bench Verified i co używać w 2026.
Przetestowałem podejście polegające na porównaniu wyników benchmarkowych z rzeczywistymi zadaniami programistycznymi. Różnica jest zauważalna – modele z najwyższymi wynikami na SWE-bench nie zawsze radzą sobie najlepiej z nietypowymi zadaniami, nowymi frameworkami czy zadaniami na styku różnych języków programowania.
Benchmaxxing objawia się kilkoma sposobami:
- Kontaminacja danych treningowych – modele mogą „widzieć” podobne zadania podczas treningu
- Overfitting promptów – instrukcje systemowe dostrojone pod konkretne wzorce zadań
- Selekcja wyników – publikacja najlepszych przebiegów z wielu prób
- Ignorowanie przypadków brzegowych – skupienie na typowych zadaniach z wysoką reprezentacją w teście
- Celowe unikanie trudniejszych kategorii zadań, które obniżają średni wynik
W rezultacie społeczność AI potrzebuje nowych standardów ewaluacji, które mierzą realne zdolności programistyczne, a nie zdolność do zdawania konkretnego testu. DeepSeek-V4, opisany przez VentureBeat, oferuje inteligencję bliską stanowi sztuki za jedną szóstą kosztu Opus 4.7 – ale to twierdzenie opiera się na benchmarkach, które mogą być skażone benchmaxxingiem.
Jakie testy zastępują SWE-bench Verified w 2026 roku?
OpenAI oficjalnie porzucił SWE-bench Verified jako miarę postępu modeli kodujących, co potwierdza El Ecosistema Startup. W zamian branża przechodzi na bardziej rygorystyczne warianty, takie jak SWE-bench Pro oraz autorskie ewaluacje agentowe. Gdy testowałem podejścia do oceny modeli, zauważyłem, że kluczowe stało się mierzenie zdolności do samodzielnego nawigowania po kodzie, a nie tylko poprawiania znanych błędów. To zmienia postać rzeczy.
Otóż SWE-bench Pro sprawdza modele w scenariuszach wieloetapowych, wymagających planowania i interakcji z narzędziami. GLM-5.1 od Z.ai osiągnął pierwsze miejsce na SWE-bench Pro w kwietniu 2026, pokonując Claude Opus 4.6 i GPT-5.4 (TokenMix, 2026). Ten 744-miliardowy model MoE z 40 miliardami aktywnych parametrów udowodnił, że open source może konkurować z komercyjnymi rozwiązaniami na wymagających testach. Co więcej, GLM-5.1 jest dostępny na licencji MIT.
Alternatywy dla SWE-bench Verified obejmują:
- SWE-bench Pro – wymagający test wieloetapowych zadań agentowych
- Humanity’s Last Exam – sprawdzający zaawansowane wnioskowanie
- Autorskie ewaluacje firm zajmujących się AI
- Testy agentic tool use z realnymi narzędziami
- Benchmarki mierzące wydajność na wielu językach programowania
- Ewaluacje typu „live coding” z nieznanymi zadaniami
- Testy kontekstowe z oknami powyżej 128K tokenów
- Własne zestawy zadań enterprise
Zatem przyszłość ewaluacji AI kodującego leży w testach, które modele nie mogą z góry poznać.
Czy tańsze modele mogą konkurować z najdroższymi na zadaniach kodowania?
DeepSeek-V4 oferuje inteligencję bliską stanowi sztuki za jedną szóstą kosztu Claude Opus 4.7 i GPT-5.5, jak podaje VentureBeat. To oznacza, że cena nie jest już wiarygodnym wskaźnikiem jakości kodu generowanego przez AI. MiniMax M2.5, trenowany z wykorzystaniem reinforcement learning w setkach tysięcy złożonych środowisk, osiąga SOTA w kodowaniu i agentic tool use (MiniMax, 2026).
Gdy testowałem modele o różnej cenie, zauważyłem że różnica w jakości często dotyczy przypadków brzegowych, a nie typowych zadań. DeepSeek-V4 udowadnia, że open-sourceowe podejście może dostarczyć wyniki zbliżone do najdroższych modeli zamkniętych. Jednakże kluczowe jest sprawdzenie, czy dany model radzi sobie z konkretnymi zadaniami twojego zespołu, a nie tylko z benchmarkami.
Warto porównać koszty i możliwości modeli:
| Model | Koszt wejścia | Koszt wyjścia | Stosunek cena/jakość |
|---|---|---|---|
| DeepSeek-V4 | niski | niski | doskonały |
| GPT-5.5 | 5 USD | 30 USD | wysoki |
| Claude Opus 4.7 | wysoki | wysoki | umiarkowany |
| GLM-5.1 (open source) | darmowy | darmowy | doskonały |
| MiniMax M2.5 | umiarkowany | umiarkowany | dobry |
Ponadto Qwen3.6-Max-Preview od Alibaba oferuje okno kontekstowe 1M tokenów i natywny tryb myślenia, osiągając SOTA w agentic coding (Automatio, 2026). Kimi k2.6 od Moonshot AI z kolei osiągnął 80,2% na SWE-bench jako model MoE z bilionem parametrów. Rynek się różnicuje.
Dlaczego testy agentowe lepiej mierzą realne zdolności programistyczne?
Claude Opus 4.7 poprawił wyniki w inżynierii oprogramowania o 10% i wnioskowaniu wizualnym o 13%, ale wykazał regresję w zadaniach agentowych związanych z wyszukiwaniem informacji (MindStudio, 2026). To pokazuje fundamentalną różnicę między rozwiązywaniem znanych problemów a realną pracą programistyczną. Testy agentowe wymagają planowania, wyszukiwania informacji i interakcji z narzędziami.
Mimo wysokiego wyniku na SWE-bench Verified, modele potrafią zawieść w prostych zadaniach wymagających samodzielnej nawigacji po repozytorium. RD World porównał Claude Mythos z GPT-5.5 na dziewięciu testach – Mythos wygrał na sześciu, szczególnie na SWE-bench Pro i Humanity’s Last Exam. Jednakże te wyniki dotyczą specyficznych scenariuszy testowych.
Realna praca programistyczna wymaga:
- Samodzielnego wyszukiwania relevantnego kodu w dużych repozytoriach
- Rozumienia zależności między modułami napisanymi w różnych językach
- Interakcji z systemami kontroli wersji
- Diagnozowania błędów na podstawie niepełnych logów
- Dostosowywania się do konwencji konkretnego projektu
- Komunikacji z innymi członkami zespołu
- Planowania architektonicznego
- Testowania własnych rozwiązań
Dlatego testy agentowe lepiej odzwierciedlają codzienne wyzwania programistów niż statyczne benchmarki.
Jak wygląda przyszłość ewaluacji modeli kodujących?
SemiAnalysis w swoim raporcie opisał zjawisko benchmaxxingu jako główny problem obecnych metod ewaluacji AI coding. Startup Fortune potwierdził, że wyniki na SWE-bench nie mogą być traktowane dosłownie. Przyszłość ewaluacji leży w dynamicznych testach, które modele nie mogą z góry poznać ani zoptymalizować się pod nie. Branża potrzebuje standardów.
GPT-5.5 osiągnął 88,7% na SWE-bench Verified i 92,4% na MMLU, z 60% mniejszą halucynacją (TokenMix, 2026). Choć te liczby brzmią imponująco, nie mówią nam, jak model poradzi sobie z konkretnym projektem. Co więcej, cena modelu wzrosła dwukrotnie do 5 USD za wejście i 30 USD (ok. 120 zł) za wyjście. Zatem koszt błędu w ewaluacji rośnie.
Źródło: GPT-5.5 Review: 88.7% SWE-Bench, 92.4% MMLU, 2x Price Tag (2026) – TokenMix Blog
Kierunki rozwoju ewaluacji AI kodującego:
- Dynamiczne benchmarki generowane w czasie rzeczywistym
- Ewaluacje oparte na realnych projektach enterprise
- Testy wieloagentowe wymagające współpracy modeli
- Pomiary wydajności w konkretnych domenach biznesowych
- Standaryzacja testów bezpieczeństwa kodu
- Ewaluacje długoterminowe śledzące jakość na przestrzeni tygodni
W rezultacie, społeczność AI musi przejść od konkurencji na liczbach do mierzenia realnej wartości biznesowej generowanej przez modele.
Często zadawane pytania
Czy SWE-bench Verified jest całkowicie bezwartościowy?
Nie, ale jego użyteczność drastycznie spadła. Claude Mythos osiągnął 93,9% na SWE-bench Verified (Ecosistema Startup, 2026), co pokazuje, że test osiągnął pułap – modele szybko zbliżają się do 100%, niekoniecznie stając się lepszymi programistami.
Który model najlepiej radzi sobie z zadaniami programistycznymi?
Żaden model nie dominuje we wszystkich kategoriach. GLM-5.1 osiągnął #1 na SWE-bench Pro w kwietniu 2026 (TokenMix, 2026), Claude Mythos wygrywa na sześciu z dziewięciu testów (RD World, 2026), a DeepSeek-V4 oferuje najlepszy stosunek ceny do jakości (VentureBeat, 2026).
Jak samodzielnie przetestować model przed wdrożeniem?
Przygotuj zestaw 20-50 zadań z twojego rzeczywistego projektu i porównaj wyniki modeli. Claude Opus 4.7 wykazał regresję w zadaniach agentowych (MindStudio, 2026), więc testuj dokładnie ten typ zadań, który jest dla ciebie kluczowy.
Czy open-sourceowe modele mogą zastąpić komercyjne w kodowaniu?
Tak, w wielu scenariuszach. GLM-5.1 z 744B parametrów i licencją MIT pokonał Claude Opus 4.6 i GPT-5.4 na SWE-bench Pro (TokenMix, 2026), a DeepSeek-V4 kosztuje jedną szóstą ceny komercyjnych alternatyw (VentureBeat, 2026).
Podsumowanie
SWE-bench Verified przestał być wiarygodnym wskaźnikiem zdolności programistycznych AI. Wyniki zbliżające się do 90-95% mówią więcej o optymalizacji pod test niż o realnych umiejętnościach modeli. Zjawisko benchmaxxingu, opisane przez SemiAnalysis, potwierdza, że branża potrzebuje nowych standardów.
Główne wnioski:
- Modele optymalizują się pod znane benchmarki, osiągając zawyżone wyniki
- Tańsze alternatywy jak DeepSeek-V4 i GLM-5.1 konkurują z najdroższymi modelami
- Testy agentowe lepiej odzwierciedlają realne wyzwania programistyczne
- Dynamiczne ewaluacje generowane w czasie rzeczywistym zastąpią statyczne benchmarki
Przetestuj modele na własnych, rzeczywistych zadaniach zanim podejmiesz decyzję. Przygotuj zestaw 20-50 problemów z twojego projektu, uruchom kilka modeli i porównaj wyniki. To jedyny sposób, by ocenić, czy dany model sprawdzi się w twoim środowisku pracy.