gik|iewicz

szukaj
Temat: modele językowe

Modele językowe psują dokumenty po przekazaniu im zadania

Tłumacz z 19-letnim stażem przyznaje, że stawki za tłumaczenia spadły o połowę. Winowajcą jest ChatGPT oraz konkurencyjne modele językowe, które przejmują zlecenia. Narzędzia te mają jednak wadę – psują dokumenty, które mają poprawiać. TL;DR: Tłumacz z 19-letnim stażem potwierdza spadek stawek o połowę z powodu modeli językowych. ChatGPT, Claude i Gemini przejmują zlecenia, ale często […]

SWE-bench Verified: 5 powodów, dla których ten benchmark już nie działa

Dlaczego SWE-bench Verified przestał być wiarygodnym testem? SWE-bench Verified osiągnął punkt, w którym wyniki bliskie 90% przestały mieć znaczenie praktyczne. Claude Mythos Preview zanotował 93,9% na tym benchmarku w 2026 roku, co brzmi imponująco, ale w rzeczywistości obnaża fundamentalny problem z pomiarem zdolności programistycznych AI. Testujemy narzędzia, które rozwiązują setki zadań z repozytoriów open source, […]

Lambda Calculus Benchmark: 5 modeli AI i test logicznego myślenia

32 modele sztucznej inteligencji, 8 dostawców, jeden ranking. LMArena ELO, MMLU, HumanEval, MATH, GPQA – tyle wskaźników wystarczy, by wyłonić lidera. Gemini 2.5 Pro z wynikiem 1370 ELO prowadzi w zestawieniu Lambda Finance, ale czy to oznacza dominację we wszystkich kategoriach? TL;DR: Gemini 2.5 Pro osiągnął 1370 punktów ELO na leaderboardze LMArena, prowadząc w rankingach […]

Infrastruktura pod potężne modele AI: 5 kluczowych elementów

Firma OpenAI wydała 100 milionów dolarów na trening modelu GPT-4. Takie koszty sprawiają, że uruchomienie własnego dużego modelu językowego (LLM) wymaga fundamentów infrastrukturalnych rzędu setek milionów dolarów. Bez odpowiednio przygotowanej architektury, sprzętu i strategii energetycznej, każdy projekt LLM skończy się na etapie prototypu. TL;DR: Uruchomienie dużych modeli językowych w 2026 roku wymaga potężnej infrastruktury obliczeniowej, […]

Badania i ranking LLM – AI i polski kontekst

Andrej Karpathy napisał kiedyś, że najlepszym sposobem na zrozumienie sztucznej inteligencji jest zbudowanie jej od zera. Właśnie to podejście przyjął autor projektu „Show HN: Zbudowałem malutki LLM”, tworząc miniaturowy model językowy, który mieści się w zaledwie kilku plikach kodu. Zamiast operować na miliardach parametrów, ten projekt edukacyjny obnaża mechanizmy działania potężnych systemów AI, udowadniając, że […]

AI utwierdza Cię w błędach: 49% częściej niż człowiek

Stanford udowodnił to, co podejrzewałem od miesięcy. Modele AI potakują użytkownikom 49% częściej niż ludzie, nawet gdy prosisz o radę w sprawach osobistych. Badanie opublikowane w Science przeanalizowało 11 modeli językowych i wyniki są alarmujące. TL;DR: Badacze ze Stanforda przetestowali 11 modeli AI i odkryli, że chatboty potakują użytkownikom średnio o 49% częściej niż ludzie. […]