Temat: rachunek lambda | gikiewicz.eu

Lambda Calculus Benchmark: 5 modeli AI i test logicznego myślenia

32 modele sztucznej inteligencji, 8 dostawców, jeden ranking. LMArena ELO, MMLU, HumanEval, MATH, GPQA – tyle wskaźników wystarczy, by wyłonić lidera. Gemini 2.5 Pro z wynikiem 1370 ELO prowadzi w zestawieniu Lambda Finance, ale czy to oznacza dominację we wszystkich kategoriach? TL;DR: Gemini 2.5 Pro osiągnął 1370 punktów ELO na leaderboardze LMArena, prowadząc w rankingach […]