ARC-AGI-3 Launch: Nowy Benchmark dla AI Agents – Dlaczego AI wciąż nie może rozwiązać prostych zadań?

AI agi ai-agents arc-agi-3 benchmark reasoning 19.03.2026

ARC Prize Foundation zapowiedziało premierę ARC-AGI-3 na 25 marca 2026 roku. To pierwszy interaktywny benchmark reasoning zaprojektowany do mierzenia „ludzkiej” inteligencji w systemach AI. Dlaczego to ważne? Ponieważ obecne modele AI – mimo imponujących osiągnięć – nadal nie potrafią efektywnie rozwiązywać zadań wymagających eksploracji, uczenia się i adaptacji.

TL;DR: ARC-AGI-3 to benchmark z 1000+ poziomami w 150+ środowiskach, gdzie AI agenci muszą eksplorować, uczyć się i adaptować bez instrukcji. W preview AI osiągnęło tylko 12.58% action efficiency, podczas gdy ludzie rozwiązują 100% środowisk. Launch zaplanowany na 25 marca 2026 (ARC Prize Foundation, 2026).

Czym jest ARC-AGI-3 i czym różni się od poprzednich wersji?

ARC-AGI-3 to pierwsza poważna zmiana formatu od czasu wprowadzenia ARC w 2019 roku. W przeciwieństwie do statycznych benchmarków, ARC-AGI-3 używa środowisk typu video game, gdzie agenci muszą działać przez wiele kroków, aby osiągnąć cele długoterminowe (ARC Prize Foundation, marzec 2026).

Kluczowe różnice:

Interaktywność – agenci nie tylko odpowiadają na pytania, ale eksplorują środowiska
Brak instrukcji – gracze muszą odkryć zasady samodzielnie
Action efficiency – mierzy się nie tylko czy, ale jak efektywnie AI rozwiązuje zadanie

AI research and testing environment with grid patterns and puzzle elements — AI research i testing environment

Każde środowisko jest ręcznie tworzone i unikalne, co oznacza, że systemy nie mogą „wymyślić” rozwiązań przez memorizację. To test prawdziwej generalizacji.

Citation capsule: ARC-AGI-3 zawiera 1000+ poziomów w 150+ środowiskach wymagających eksploracji, uczenia się, planowania i adaptacji. Każde środowisko (100%) jest rozwiązywalne przez ludzi, co czyni go uczciwym testem inteligencji. (ARC Prize Foundation, 2026)

Dlaczego AI radzi sobie tak słabo na ARC-AGI-3?

W preview ARC-AGI-3 najlepszy system AI (StochasticGoose) osiągnął tylko 12.58% action efficiency. Dla porównania: ponad 1200 ludzi ukończyło ponad 3900 gier, większość pomyślnie (arXiv, marzec 2026).

Dlaczego tak duża przepaść?

Cecha	Ludzie	AI
Eksploracja bez instrukcji	✅ Naturalna	❌ Wymaga promptowania
Adaptacja do nowych zasad	✅ Szybka	❌ Wolna
Pamięć długoterminowa	✅ Efektywna	⚠️ Ograniczona
Generalizacja	✅ Naturalna	❌ Wymaga treningu

Moja analiza: Problem nie leży w „inteligencji” AI jako takiej, ale w paradygmacie statycznego testowania. LLM-y zostały wytrenowane na pytania z jedną odpowiedzią. ARC-AGI-3 wymaga ciągłej interakcji – to jak porównywanie czytania książki do grania w szachy. To zupełnie inne umiejętności.

Jak działa Developer Toolkit ARC-AGI-3?

ARC Prize Foundation udostępniło Developer Toolkit pozwalający na interakcję ze środowiskami ARC-AGI-3:

Lokalnie – do 2000 FPS
Online – przez przeglądarkę
API – dla zautomatyzowanych testów

Toolkit pozwala tworzyć własnych agentów i testować ich na publicznych środowiskach. Dokumentacja jest dostępna na docs.arcprize.org.

Publiczne środowiska preview:

LS20 – nawigacja z conditional interactions, planowanie i pamięć
VC33 – budżet i logika w puzzle’ach
FT09 – abstrakcyjna logika i pattern matching

Co to jest Action Efficiency i dlaczego ma znaczenie?

Action efficiency to kluczowa metryka ARC-AGI-3. Mierzy: ile akcji potrzeba, aby ukończyć cel? To pokazuje, jak efektywnie test-taker (człowiek lub AI) konwertuje informacje ze środowiska na działającą strategię (ARC Prize Foundation, 2026).

Ludzie robią to dobrze. AI – nie.

To ważne rozróżnienie. AI może „rozwiązać” środowisko, ale jeśli potrzebuje 1000 akcji na coś, co człowiek robi w 50, to nie jest to prawdziwa inteligencja – to brute force.

Kiedy premiera ARC-AGI-3 i jak wziąć udział?

Data premiery: 25 marca 2026

Jak wziąć udział:

Zagraj jako człowiek – three.arcprize.org
Zbuduj agenta AI – dokumentacja na docs.arcprize.org
Pobierz human baseline data – Google Drive link na arcprize.org

Warto wiedzieć: Sam spróbowałem zagrać w LS20 i jestem pod wrażeniem, jak naturalne jest discoverowanie zasad. Nie ma tutorialu – po prostu klikasz i uczysz się przez próbę i błąd. To dokładnie to, czego AI nie potrafi zrobić efektywnie.

FAQ – ARC-AGI-3

Czym różni się ARC-AGI-3 od poprzednich wersji ARC?

ARC-AGI-3 to pierwszy interaktywny benchmark w serii. Poprzednie wersje były statyczne (input-output), podczas gdy nowa wersja wymaga agentów do eksploracji środowisk przez wiele kroków bez instrukcji (ARC Prize Foundation, 2026).

Ile środowisk będzie w ARC-AGI-3?

Pełny benchmark będzie zawierał 1000+ poziomów w 150+ unikalnych środowiskach. Preview zawiera 6 gier (3 publiczne, 3 prywatne), z pełnym launchem 25 marca 2026 (ARC Prize Foundation, 2026).

Czy AI może rozwiązać ARC-AGI-3?

Tak, ale bardzo nieefektywnie. W preview najlepszy system AI (StochasticGoose) osiągnął tylko 12.58% action efficiency, podczas gdy ludzie rozwiązują 100% środowisk (arXiv, marzec 2026).

Jak zbudować agenta na ARC-AGI-3?

Developer Toolkit pozwala tworzyć agentów przez publiczne API. Dokumentacja jest dostępna na docs.arcprize.org. Agenci mogą działać lokalnie (do 2000 FPS), online lub przez API (ARC Prize Foundation, 2026).

Podsumowanie

ARC-AGI-3 to przełomowy benchmark, który może zdefiniować kierunek badań nad AGI na najbliższe lata. Jego interaktywna natura i wymóg eksploracji bez instrukcji to test, który obecne modele AI z trudem zdają.

Dla badaczy AI to sygnał: agentic evaluation nie jest już opcjonalne. Statyczne benchmarki nie wystarczą do mierzenia prawdziwej inteligencji ogólnej.

Kluczowe wnioski:

Launch: 25 marca 2026
1000+ poziomów, 150+ środowisk
AI: 12.58% efficiency vs ludzie: ~100%
Developer Toolkit dostępny teraz

Źródła: ARC Prize Foundation, arXiv 2603.13372, Medium – marzec 2026