
ARC-AGI-3 Launch: Nowy Benchmark dla AI Agents – Dlaczego AI wciąż nie może rozwiązać prostych zadań?
ARC Prize Foundation zapowiedziało premierę ARC-AGI-3 na 25 marca 2026 roku. To pierwszy interaktywny benchmark reasoning zaprojektowany do mierzenia „ludzkiej” inteligencji w systemach AI. Dlaczego to ważne? Ponieważ obecne modele AI – mimo imponujących osiągnięć – nadal nie potrafią efektywnie rozwiązywać zadań wymagających eksploracji, uczenia się i adaptacji.
TL;DR: ARC-AGI-3 to benchmark z 1000+ poziomami w 150+ środowiskach, gdzie AI agenci muszą eksplorować, uczyć się i adaptować bez instrukcji. W preview AI osiągnęło tylko 12.58% action efficiency, podczas gdy ludzie rozwiązują 100% środowisk. Launch zaplanowany na 25 marca 2026 (ARC Prize Foundation, 2026).
Czym jest ARC-AGI-3 i czym różni się od poprzednich wersji?
ARC-AGI-3 to pierwsza poważna zmiana formatu od czasu wprowadzenia ARC w 2019 roku. W przeciwieństwie do statycznych benchmarków, ARC-AGI-3 używa środowisk typu video game, gdzie agenci muszą działać przez wiele kroków, aby osiągnąć cele długoterminowe (ARC Prize Foundation, marzec 2026).
Kluczowe różnice:
- Interaktywność – agenci nie tylko odpowiadają na pytania, ale eksplorują środowiska
- Brak instrukcji – gracze muszą odkryć zasady samodzielnie
- Action efficiency – mierzy się nie tylko czy, ale jak efektywnie AI rozwiązuje zadanie

Każde środowisko jest ręcznie tworzone i unikalne, co oznacza, że systemy nie mogą „wymyślić” rozwiązań przez memorizację. To test prawdziwej generalizacji.
Citation capsule: ARC-AGI-3 zawiera 1000+ poziomów w 150+ środowiskach wymagających eksploracji, uczenia się, planowania i adaptacji. Każde środowisko (100%) jest rozwiązywalne przez ludzi, co czyni go uczciwym testem inteligencji. (ARC Prize Foundation, 2026)
Dlaczego AI radzi sobie tak słabo na ARC-AGI-3?
W preview ARC-AGI-3 najlepszy system AI (StochasticGoose) osiągnął tylko 12.58% action efficiency. Dla porównania: ponad 1200 ludzi ukończyło ponad 3900 gier, większość pomyślnie (arXiv, marzec 2026).
Dlaczego tak duża przepaść?
| Cecha | Ludzie | AI |
|---|---|---|
| Eksploracja bez instrukcji | ✅ Naturalna | ❌ Wymaga promptowania |
| Adaptacja do nowych zasad | ✅ Szybka | ❌ Wolna |
| Pamięć długoterminowa | ✅ Efektywna | ⚠️ Ograniczona |
| Generalizacja | ✅ Naturalna | ❌ Wymaga treningu |
Moja analiza: Problem nie leży w „inteligencji” AI jako takiej, ale w paradygmacie statycznego testowania. LLM-y zostały wytrenowane na pytania z jedną odpowiedzią. ARC-AGI-3 wymaga ciągłej interakcji – to jak porównywanie czytania książki do grania w szachy. To zupełnie inne umiejętności.
Jak działa Developer Toolkit ARC-AGI-3?
ARC Prize Foundation udostępniło Developer Toolkit pozwalający na interakcję ze środowiskami ARC-AGI-3:
- Lokalnie – do 2000 FPS
- Online – przez przeglądarkę
- API – dla zautomatyzowanych testów
Toolkit pozwala tworzyć własnych agentów i testować ich na publicznych środowiskach. Dokumentacja jest dostępna na docs.arcprize.org.
Publiczne środowiska preview:
- LS20 – nawigacja z conditional interactions, planowanie i pamięć
- VC33 – budżet i logika w puzzle’ach
- FT09 – abstrakcyjna logika i pattern matching
Co to jest Action Efficiency i dlaczego ma znaczenie?
Action efficiency to kluczowa metryka ARC-AGI-3. Mierzy: ile akcji potrzeba, aby ukończyć cel? To pokazuje, jak efektywnie test-taker (człowiek lub AI) konwertuje informacje ze środowiska na działającą strategię (ARC Prize Foundation, 2026).
Ludzie robią to dobrze. AI – nie.
To ważne rozróżnienie. AI może „rozwiązać” środowisko, ale jeśli potrzebuje 1000 akcji na coś, co człowiek robi w 50, to nie jest to prawdziwa inteligencja – to brute force.
Kiedy premiera ARC-AGI-3 i jak wziąć udział?
Data premiery: 25 marca 2026
Jak wziąć udział:
- Zagraj jako człowiek – three.arcprize.org
- Zbuduj agenta AI – dokumentacja na docs.arcprize.org
- Pobierz human baseline data – Google Drive link na arcprize.org
Warto wiedzieć: Sam spróbowałem zagrać w LS20 i jestem pod wrażeniem, jak naturalne jest discoverowanie zasad. Nie ma tutorialu – po prostu klikasz i uczysz się przez próbę i błąd. To dokładnie to, czego AI nie potrafi zrobić efektywnie.
FAQ – ARC-AGI-3
Czym różni się ARC-AGI-3 od poprzednich wersji ARC?
ARC-AGI-3 to pierwszy interaktywny benchmark w serii. Poprzednie wersje były statyczne (input-output), podczas gdy nowa wersja wymaga agentów do eksploracji środowisk przez wiele kroków bez instrukcji (ARC Prize Foundation, 2026).
Ile środowisk będzie w ARC-AGI-3?
Pełny benchmark będzie zawierał 1000+ poziomów w 150+ unikalnych środowiskach. Preview zawiera 6 gier (3 publiczne, 3 prywatne), z pełnym launchem 25 marca 2026 (ARC Prize Foundation, 2026).
Czy AI może rozwiązać ARC-AGI-3?
Tak, ale bardzo nieefektywnie. W preview najlepszy system AI (StochasticGoose) osiągnął tylko 12.58% action efficiency, podczas gdy ludzie rozwiązują 100% środowisk (arXiv, marzec 2026).
Jak zbudować agenta na ARC-AGI-3?
Developer Toolkit pozwala tworzyć agentów przez publiczne API. Dokumentacja jest dostępna na docs.arcprize.org. Agenci mogą działać lokalnie (do 2000 FPS), online lub przez API (ARC Prize Foundation, 2026).
Podsumowanie
ARC-AGI-3 to przełomowy benchmark, który może zdefiniować kierunek badań nad AGI na najbliższe lata. Jego interaktywna natura i wymóg eksploracji bez instrukcji to test, który obecne modele AI z trudem zdają.
Dla badaczy AI to sygnał: agentic evaluation nie jest już opcjonalne. Statyczne benchmarki nie wystarczą do mierzenia prawdziwej inteligencji ogólnej.
Kluczowe wnioski:
- Launch: 25 marca 2026
- 1000+ poziomów, 150+ środowisk
- AI: 12.58% efficiency vs ludzie: ~100%
- Developer Toolkit dostępny teraz
Źródła: ARC Prize Foundation, arXiv 2603.13372, Medium – marzec 2026