gik|iewicz

szukaj
Temat: reasoning

Lambda Calculus Benchmark: 5 modeli AI i test logicznego myślenia

32 modele sztucznej inteligencji, 8 dostawców, jeden ranking. LMArena ELO, MMLU, HumanEval, MATH, GPQA – tyle wskaźników wystarczy, by wyłonić lidera. Gemini 2.5 Pro z wynikiem 1370 ELO prowadzi w zestawieniu Lambda Finance, ale czy to oznacza dominację we wszystkich kategoriach? TL;DR: Gemini 2.5 Pro osiągnął 1370 punktów ELO na leaderboardze LMArena, prowadząc w rankingach […]

ARC-AGI-3 Launch: Nowy Benchmark dla AI Agents – Dlaczego AI wciąż nie może rozwiązać prostych zadań?

ARC Prize Foundation zapowiedziało premierę ARC-AGI-3 na 25 marca 2026 roku. To pierwszy interaktywny benchmark reasoning zaprojektowany do mierzenia „ludzkiej” inteligencji w systemach AI. Dlaczego to ważne? Ponieważ obecne modele AI – mimo imponujących osiągnięć – nadal nie potrafią efektywnie rozwiązywać zadań wymagających eksploracji, uczenia się i adaptacji. TL;DR: ARC-AGI-3 to benchmark z 1000+ poziomami […]