Temat: swe-bench | gikiewicz.eu

Microsoft MAI-Code-1-Flash: kodowanie z 60% oszczędnością tokenów

Microsoft zaprezentował na Build 2026 model MAI-Code-1-Flash, który zużywa o 60% mniej tokenów niż porównywalne rozwiązania przy trudnych zadaniach programistycznych. Ten niewielki model kodujący został wytrenowany bezpośrednio w środowisku produkcyjnym GitHub Copilot, co odróżnia go od konkurencji testowanej wyłącznie na statycznych benchmarkach. Rozwiązanie jest już dostępne w model pickerze Copilota dla użytkowników VS Code. TL;DR: […]

SWE-bench Verified: 5 powodów, dla których ten benchmark już nie działa

Dlaczego SWE-bench Verified przestał być wiarygodnym testem? SWE-bench Verified osiągnął punkt, w którym wyniki bliskie 90% przestały mieć znaczenie praktyczne. Claude Mythos Preview zanotował 93,9% na tym benchmarku w 2026 roku, co brzmi imponująco, ale w rzeczywistości obnaża fundamentalny problem z pomiarem zdolności programistycznych AI. Testujemy narzędzia, które rozwiązują setki zadań z repozytoriów open source, […]

MiniMax M2.7: Czy Chiński Model AI z Self-Evolving Capability Dogoni Claude i GPT-5?

Chińska firma MiniMax właśnie wypuściła M2.7 — pierwszy komercyjny model AI, który według twórców potrafi „głęboko uczestniczyć we własnej ewolucji”. Na benchmarku SWE-Bench Pro osiągnął 56.22%, prawie równając się z Claude Opus 4.6 (MiniMax, 2026). Czy to początek ery AI, które same się ulepszają? TL;DR: MiniMax M2.7 to chiński model AI osiągający 56.22% na SWE-Bench […]