gik|iewicz

szukaj
Temat: llm

Hy3 LLM deklasuje konkurencję na OpenRouter z ogromną przewagą

Hy3, model językowy od Tencent, przetworzył 7,7 biliona tokenów na platformie OpenRouter w mniej niż trzy tygodnie. Ten nieznany wcześniej LLM zdominował ranking popularności, zostawiając konkurencję daleko w tyle. Max Woolf opisał to zjawisko na swoim blogu jako jeden z najdziwniejszych momentów w historii rankingów modeli AI. TL;DR: Hy3 od Tencent osiągnął 7,7 biliona tokenów […]

2 PB pamięci Huawei trenuje norweski model AI

Norweska Biblioteka Narodowa zainstalowała 2 petabajty pamięci flash Huawei, by wytrenować model LLM rozumiejący język norweski. Projekt pokazuje, że sankcje USA nie zablokowały dostępu do zaawansowanej infrastruktury pamięciowej. TL;DR: Norweska Biblioteka Narodowa używa 2 PB pamięci flash Huawei do trenowania norweskojęzycznego modelu LLM. Instalacja obejmuje dyski o pojemności 122 TB, zbudowane bez zakazanych przez USA […]

Lokalne modele LLM odciążają infrastrukturę: 7 dowodów na gotowość

NVIDIA V100 – 8-letnia karta graficzna – osiąga 130 tokenów na sekundę w testach lokalnych modeli LLM, przewyższając RTX 3060 i RX 7800 XT. Koszt całkowity tej konfiguracji z modyfikacjami wynosi zaledwie 200 USD (ok. 800 zł). To konkretny dowód na to, że lokalne modele LLM są gotowe odciążyć infrastrukturę obliczeniową. TL;DR: Lokalne modele LLM […]

Jak wytrenować własny model LLM od zera w 5 kroków

TL;DR: Wytrenowanie własnego LLM od zera to proces pięciu etapów: zrozumienia matematyki, przygotowania danych, konfiguracji infrastruktury, projektowania architektury oraz treningu z ewaluacją. Model Talkie-1930 pokazuje, że niezależne projekty są realne. Choć mniejsze architektury świetnie sprawdzają się w wielu zastosowaniach i można je trenować bardzo tanio, trening potężnego modelu językowego od zera wymaga odpowiedniej infrastruktury GPU […]

Gemini 2.5 Pro: 5 faktów o nowym modelu Google

Google Gemini 2.5 Pro to model z 1-milionowym oknem kontekstowym i wbudowanym mechanizmem „thinking”. Zadebiutował jako preview, oferując natywny multimodalny reasoning — model rozumuje nad tekstem, obrazami i kodem w jednym przebiegu. To odpowiedź Google na rosnące wymagania deweloperów. TL;DR: Gemini 2.5 Pro to flagowy model Google z oknem kontekstowym do 1 miliona tokenów, natywnym […]

Qwen3.6-27B: mniejszy model pokonuje giganta 15 razy większego

Qwen3.6-27B to model, który oficjalnie deklasuje Qwen3.5-397B-A17B — architecture z 397 miliardami parametrów. Mowa o 27-miliardowym modelu gęstym, który w testach kodowania agentowego przewyższa poprzednie flagowce o rzędy wielkości. To wynik trudny do zignorowania. TL;DR: Qwen3.6-27B to gęsty model o 27 miliardach parametrów, który w benchmarkach kodowania agentowego pokonuje Qwen3.5-397B-A17B (397B total, 17B active MoE). […]

Infrastruktura pod potężne modele AI: 5 kluczowych elementów

Firma OpenAI wydała 100 milionów dolarów na trening modelu GPT-4. Takie koszty sprawiają, że uruchomienie własnego dużego modelu językowego (LLM) wymaga fundamentów infrastrukturalnych rzędu setek milionów dolarów. Bez odpowiednio przygotowanej architektury, sprzętu i strategii energetycznej, każdy projekt LLM skończy się na etapie prototypu. TL;DR: Uruchomienie dużych modeli językowych w 2026 roku wymaga potężnej infrastruktury obliczeniowej, […]

Claude myli autorów wypowiedzi: błędy atrybucji w długich rozmowach

Anthropic przyznało w oficjalnej dokumentacji, że Claude ma systematyczny problem z atrybucją cytatów. Model regularnie przypisuje wypowiedzi niewłaściwym osobom w długich rozmowach. Przetestowałem to osobiście i potwierdzam — błąd jest powtarzalny. TL;DR: Claude regularnie myli, kto co powiedział w wieloosobowych konwersacjach i długich dokumentach. Problem dotyczy szczególnie dialogów z więcej niż trzema uczestnikami. Zidentyfikowałem 5 […]

MegaTrain: trenowanie modeli LLM 100B+ na pojedynczym GPU

Trenowanie modelu LLM o 100 miliardach parametrów na pojedynczym GPU brzmi jak fikcja. Jednak nowe techniki kompresji wag i zarządzania pamięcią sprawiają, że ten scenariusz staje się technicznie wykonalny. MegaTrain obniża barierę wejścia do poziomu pojedynczej karty graficznej. TL;DR: MegaTrain to podejście pozwalające na pełnoprecyzyjne trenowanie modeli LLM powyżej 100 miliardów parametrów na jednym GPU. […]

Arcee — mały startup z 3 modelami AI open source

Dwadzieścia sześć osób. Właśnie tyle pracuje w Arcee AI — startupie, który wypuścił model o 399 miliardach parametrów. Ten model, Trinity-Large-Thinking, jest dostępny za darmo pod licencją Apache 2.0 i zdobywa coraz większą popularność wśród użytkowników OpenClaw. TL;DR: Arcee AI to 26-osobowy amerykański startup, który stworzył Trinity-Large-Thinking — model open source z 399 miliardami parametrów, […]

Badania i ranking LLM – AI i polski kontekst

Andrej Karpathy napisał kiedyś, że najlepszym sposobem na zrozumienie sztucznej inteligencji jest zbudowanie jej od zera. Właśnie to podejście przyjął autor projektu „Show HN: Zbudowałem malutki LLM”, tworząc miniaturowy model językowy, który mieści się w zaledwie kilku plikach kodu. Zamiast operować na miliardach parametrów, ten projekt edukacyjny obnaża mechanizmy działania potężnych systemów AI, udowadniając, że […]