Temat: Gemini 3.1 Pro | gikiewicz.eu

Claude Opus 4.8 vs GPT-5.5: nowe wyniki i porównanie

Anthropic wydał Claude Opus 4.8 z wynikiem 69.2% na SWE-bench Pro – o 4.9 punktu procentowego więcej niż Opus 4.7. Model wyprzedza GPT-5.5 w rankingach kodowania, choć OpenAI wciąż prowadzi w wybranych kategoriach. Gemini 3.1 Pro pozostaje w tyle w testach agentowych. TL;DR: Claude Opus 4.8 uzyskał 69.2% na SWE-bench Pro, 1890 Elo na GDPval-AA […]