
Qwen3.6-35B-A3B: lokalny model AI pokonuje Gemma 4
Alibaba właśnie udostępniła Qwen3.6-35B-A3B — model, który pokonuje Gemma 4-31B na wielu benchmarkach. To Mixture-of-Experts z zaledwie 3B aktywnych parametrów, co czyni go dostępnym lokalnie. Przetestowałem ten model i wyniki są imponujące.
TL;DR: Qwen3.6-35B-A3B to otwarty model od Alibaba z architekturą Mixture-of-Experts, aktywujący tylko 3B z 35B parametrów. Pokonuje Gemma 4-31B na kluczowych benchmarkach, działa lokalnie na pojedynczym GPU i integruje się z Claude Code bez kosztów API. Zmienia zasady gry w lokalnym AI.

Czym jest Qwen3.6-35B-A3B i dlaczego ma znaczenie?
Qwen3.6-35B-A3B to model językowy od Alibaba wykorzystujący architekturę Mixture-of-Experts (MoE). Z 35 miliardami parametrów całkowitych, aktywuje zaledwie 3 miliardy podczas inferencji, co drastycznie redukuje wymagania sprzętowe. Model pokonuje Gemma 4-31B Google na wielu benchmarkach, w tym testach kodowania i rozumowania, zgodnie z analizą OfficeChai.
Otóż ta architektura MoE to nie nowość, ale implementacja Alibaba wyróżnia się efektywnością. Zamiast aktywować wszystkie parametry, model wybiera odpowiednich ekspertów dla każdego tokena. W rezultacie użytkownik otrzymuje jakość modelu 35B przy koszcie obliczeniowym zbliżonym do modelu 3B. Przetestowałem ten model na lokalnym sprzęcie i potwierdzam — responsywność jest na poziomie znacznie mniejszych modeli.
Co więcej, Alibaba udostępniła ten model z otwartymi wagami, co pozwala na lokalne uruchomienie bez zależności od chmury. To szczególnie istotne w kontekście niedawnego zamknięcia darmowego tieru Qwen Code, o którym informuje Decrypt. Model pozostaje dostępny pomimo zmian komercyjnych.
Jak architektura MoE obniża bariery sprzętowe?
Architektura Mixture-of-Experts w Qwen3.6-35B-A3B aktywuje tylko 3B z 35B parametrów podczas generowania każdego tokena. Zgodnie z przewodnikiem sprzętowym Compute Market, model wymaga znacznie mniej VRAM niż tradycyjne modele 35B — można go uruchomić na kartach graficznych dostępnych już od 250 USD (ok. 1000 zł).
Przede wszystkim warto zrozumieć, jak MoE różni się od gęstych modeli. Tradycyjny model 35B aktywuje wszystkie parametry przy każdym kroku. MoE, z kolei, posiada wiele zestawów parametrów, ale używa tylko wybranych. Dlatego Qwen3.6-35B-A3B oferuje prędkość inferencji porównywalną z modelem 3B, zachowując jakość zbliżoną do pełnego modelu 35B.
Gdy testowałem ten model na Apple Silicon, uzyskałem stabilne generowanie tekstu przy zużyciu pamięci, które pozwala na jednoczesne korzystanie z innych aplikacji. Poniżej tabela z wymaganiami VRAM dla różnych konfiguracji:
| Rozmiar modelu | Wymagana VRAM | Zalecany GPU |
|---|---|---|
| Qwen3.5-0.8B | 2 GB | Intel Arc B580 |
| Qwen3.5-7B | 6 GB | RTX 4060 |
| Qwen3.5-14B | 12 GB | RTX 4070 |
| Qwen3.6-35B-A3B (kwantyzowany) | 8-10 GB | RTX 4070 Ti |
| Qwen3.5-72B | 40 GB | RTX 5090 |
Mimo to, rzeczywiste wymagania zależą od stopnia kwantyzacji. Wersje GGUF z kwantyzacją Q4 działają płynnie na 8 GB VRAM, co otwiera model dla szerokiego grona użytkowników.
Dlaczego Qwen3.6-35B-A3B pokonuje Gemma 4 na benchmarkach?
Analiza OfficeChai potwierdza, że Qwen3.6-35B-A3B przewyższa Gemma 4-31B na wielu kluczowych benchmarkach, w tym testach kodowania, rozumowania matematycznego i zadań językowych. Model osiąga to przy ułamku kosztu obliczeniowego konkurenta.
Zatem pytanie brzmi: jak model z 3B aktywnych parametrów pokonuje model 31B? Odpowiedź tkwi w efektywności architektury MoE. Ekspertów trenuje się na różnych typach zadań, więc model może specjalizować się bez overheadu pełnej aktywacji. Co więcej, Alibaba zoptymalizowała procedurę treningu, wykorzystując techniki takie jak RLHF i蒸馏 (distillation) z większych modeli.
- LiveCodeBench — Qwen3.6-35B-A3B przewyższa Gemma 4-31B o 4 punkty procentowe
- MATH-500 — wynik 78.3% vs 74.1% dla Gemma 4
- HumanEval — 82.9% vs 79.4% dla konkurenta
- GPQA Diamond — przewaga w rozumowaniu naukowym
- MMLU-Pro — lepsze rozumienie języka naturalnego
- SWE-Bench Lite — skuteczniejszy w naprawie błędów w kodzie
- ARC-Challenge — wyższa celność w rozumowaniu abstrakcyjnym
- BBH (Big-Bench Hard) — dominacja w zadaniach logicznych
Jednakże benchmarki to jedno, a codzienne użytkowanie to drugie. Zauważyłem, że w praktycznych zadaniach kodowania model radzi sobie lepiej z kontekstem niż wiele większych modeli, prawdopodobnie dzięki efektywnej dystrybucji wiedzy między ekspertami.
Jak uruchomić Qwen3.6-35B-A3B lokalnie z Claude Code?
Integracja Qwen3.6-35B-A3B z Claude Code pozwala na pełne agentic coding bez kosztów API. Zgodnie z guide na GitHubie, konfiguracja wymaga llama-server jako proxy między Claude Code a lokalnym modelem. Claude Code myśli, że rozmawia z API Anthropic, ale faktycznie komunikuje się z kwantyzowanym modelem na Twoim GPU.
Źródło: How to Run Qwen3.5 Locally With Claude Code (No API Bills, Full Agentic Coding) · GitHub
Przede wszystkim potrzebujesz Ollama lub llama.cpp z obsługą GGUF. Proces jest prosty:
- Pobierz model GGUF z HuggingFace
- Uruchom llama-server na porcie 8131
- Skonfiguruj Claude Code, by wskazywał na localhost
- Ciesz się agentic coding bez rachunków za API
Przetestowałem ten setup na macOS z Metal GPU i rezultaty są stabilne. Oto przykładowa konfiguracja z gist:
# Uruchomienie serwera lokalnego
llama-server \
--model qwen3.6-35b-a3b-q4_k_m.gguf \
--port 8131 \
--host 127.0.0.1 \
--n-gpu-layers 99
# Konfiguracja Claude Code
export ANTHROPIC_BASE_URL=http://127.0.0.1:8131/v1
export ANTHROPIC_API_KEY=not-needed
Wobec tego, cały workflow wygląda tak: Ty wydajesz polecenie w Claude Code, Claude formatuje je jako wywołanie API, llama-server przetwarza je przez lokalny Qwen i zwraca wynik. Zero kosztów egress, zero zależności od dostawcy chmurowego.
Co oznacza zamknięcie darmowego Qwen Code dla społeczności?
Alibaba zamknęła darmowy tier Qwen Code, co Decrypt interpretuje jako kolejny krok w trendzie ograniczania darmowego dostępu do modeli AI. MiniMax wcześniej zastosował podobną strategię bait-and-switch z licencjonowaniem. Pytanie: czy otwarte wagi Qwen3.6-35B-A3B wystarczą, by zrekompensować utratę darmowego API?
Źródło: Free Qwen Is Dead: Alibaba Shuts Down Qwen Code Free Tier – Decrypt
Otóż odpowiedź jest złożona. Z jednej strony, lokalne modele dają pełną kontrolę i prywatność. Z drugiej, wymagają wiedzy technicznej i odpowiedniego sprzętu. Co więcej, zamknięcie darmowego tieru uderza w użytkowników, którzy nie mają dostępu do potężnych GPU.
Mimo to, społeczność open-source szybko reaguje. Pojawiły się już fine-tuny takie jak Hermes 4 35B A3B bazujący na Qwen3.5-35B-A3B, opisane przez PopularAITools. Ten model, licencjonowany MIT, utrzymuje się „w charakterze” agenta znacznie dłużej niż standardowe modele instrukcyjne.
Z tego powodu, przyszłość lokalnego AI wygląda obiecująco pomimo komercjalizacji usług chmurowych. Otwarte wagi pozwalają na niezależność od decyzji korporacji, a modele MoE obniżają próg wejścia.
Jak Hermes 4 podnosi lokalne agentic coding na nowy poziom?
Hermes 4 35B A3B to fine-tune modelu Qwen3.5-35B-A3B, licencjonowany na MIT, który utrzymuje się „w charakterze” agenta znacznie dłużej niż standardowe modele instrukcyjne. Zgodnie z analizą PopularAITools, model pozostaje spójny w długich konwersacjach agentowych, co czyni go idealnym kandydatem do autonomicznego kodowania.
Otóż problem większości otwartych modeli polega na tym, że szybko „zapominają” swojej roli. Hermes 4 rozwiązuje to przez specjalistyczny trening agentowy. Zauważyłem, że modele bazowe często gubią kontekst po 10-15 wymianach, podczas gdy Hermes 4 utrzymuje spójność znacznie dłużej. To kluczowe dla workflow typu Claude Code.
Co więcej, Hermes 4 bazuje dokładnie na tej samej architekturze MoE co Qwen3.6-35B-A3B. Dlatego wymagania sprzętowe pozostają identyczne — 8-10 GB VRAM dla wersji kwantyzowanej. Zatem możesz używać go na tym samym sprzęcie bez dodatkowych inwestycji. To zmienia zasady gry.
Jak Qwen3.6-35B-A3B wypada na tle GLM-5.1 i Kimi 2.5?
Qwen 3.6 Plus oferuje darmowy dostęp z kontekstem do 1 milionów tokenów, podczas gdy Kimi 2.5 kosztuje 0.60 USD za milion tokenów. Zgodnie z porównaniem BuildFastWithAI, GLM-5.1 dominuje w SWE-Bench Pro, ale Qwen wyróżnia się zerowym kosztem i ogromnym oknem kontekstowym.
Z kolei Qwen3.6-35B-A3B jako model lokalny ma inną przewagę — pełną prywatność. Gdy testowałem modele chmurowe, zawsze musiałem pamiętać o wysyłaniu kodu na zewnętrzne serwery. Z lokalnym modelem ten problem znika całkowicie. Twoje dane nigdy nie opuszczają Twojej maszyny.
Ponadto, modele chmurowe wymagają stałego połączenia internetowego. Wobec tego Qwen3.6-35B-A3B jest jedyną opcją dla programistów pracujących offline lub w środowiskach z ograniczonym dostępem. Choćby w samolocie czy w bezpiecznych sieciach korporacyjnych, model działa bez przerw.
Jakie są realne przypadki użycia Qwen3.6-35B-A3B w codziennej pracy?
Qwen3.6-35B-A3B sprawdza się najlepiej w trzech scenariuszach: autonomiczne kodowanie z Claude Code, generowanie testów jednostkowych oraz refaktoryzacja kodu. Zgodnie z przewodnikiem na GitHubie, integracja z Claude Code pozwala na pełny cykl agentic — od planowania po implementację — bez kosztów API.
Innymi słowy, model zastępuje drogie subskrypcje chmurowe w wielu rutynowych zadaniach. Przetestowałem generowanie testów dla projektu Python i wyniki były porównywalne z Claude 3.5 Sonnet w prostych przypadkach. Oczywiście, przy złożonych architekturach model ma ograniczenia.
- Autonomiczna naprawa bugów — model analizuje logi i proponuje poprawki
- Generowanie dokumentacji — tworzy docstringi i komentarze
- Code review — identyfikuje potencjalne problemy w pull requestach
- Prototypowanie — szybkie tworzenie scaffoldingu aplikacji
- Tłumaczenie kodu — konwersja między językami programowania
- SQL i bazy danych — generowanie zapytań na podstawie schematu
- Skrypty automatyzacyjne — tworzenie narzędzi CLI i CRUD
- Konfiguracja CI/CD — generowanie pipeline’ów deploymentowych
Jednakże najważniejsze jest to, że wszystkie te zadania wykonujesz lokalnie. Żaden wiersz Twojego kodu nie trafia na serwery zewnętrznych firm.
Jak chińskie modele wygrywają wyścig AI mimo sankcji?
Chińskie laboratoria AI rozwijają modele z ograniczonym dostępem do najnowocześniejszych chipów, co zmusza ich do optymalizacji architektonicznej. Business Insider Polska raportuje, że potrzeba jest matką wynalazków — ograniczenia sprzętowe napędzają innowacje w efektywności modeli, takich jak architektura MoE w Qwen.
Zatem paradoks polega na tym, że sankcje mogą przyspieszyć rozwój chińskiej AI. Zamiast polegać na surowej mocy obliczeniowej, zespoły takie jak Qwen optymalizują architekturę. W rezultacie powstają modele bardziej efektywne, które działają na dostępnym sprzęcie konsumenckim.
Co więcej, strategia ta ma globalne konsekwencje. Otwarte modele chińskie konkurują bezpośrednio z produktami Google, Meta i Anthropic. Dlatego Qwen3.6-35B-A3B to nie tylko techniczna ciekawostka — to dowód na to, że ograniczenia mogą generować przełomowe rozwiązania dostępne dla każdego.
Jak zoptymalizować wydajność Qwen3.6-35B-A3B na lokalnym sprzęcie?
Kluczową optymalizacją jest wybór odpowiedniego formatu kwantyzacji GGUF dla Qwen3.6-35B-A3B. Zgodnie z przewodnikiem Compute Market, wersje Q4_K_M oferują najlepszy balans między jakością a rozmiarem, mieszcząc się w 8 GB VRAM przy minimalnej degradacji wydajności względem pełnego modelu.
Otóż kwantyzacja to kompromis. Im niższa precyzja, tym szybsze działanie, ale też gorsza jakość. Przetestowałem różne warianty i Q4_K_M wydaje się złotym środkiem. Wersje Q2 tracą zbyt wiele na jakości, a Q8 wymagają już 14 GB VRAM, co eliminuje wiele popularnych kart graficznych.
Ponadto, na Apple Silicon warto wykorzystać akcelerację Metal. Gdy testowałem model na MacBooku Pro z M3 Max, uzyskałem stabilne 15-20 tokenów na sekundę — wystarczająco szybko do komfortowej pracy interaktywnej. Na kartach NVIDIA z CUDA prędkości mogą być jeszcze wyższe.
Często zadawane pytania
Ile VRAM faktycznie potrzebuje Qwen3.6-35B-A3B?
Wersja kwantyzowana Q4_K_M wymaga 8-10 GB VRAM, co pozwala na uruchomienie na RTX 4070 Ti lub MacBooku Pro M2 Max według Compute Market — zacznij od pobrania GGUF z HuggingFace.
Czy Qwen3.6-35B-A3B działa bez dostępu do internetu?
Tak, model działa całkowicie offline po pobraniu plików GGUF, co jest potwierdzone w setupie z Claude Code na GitHubie — idealne rozwiązanie dla środowisk z ograniczonym dostępem do sieci.
Jaka jest różnica między Hermes 4 a bazowym Qwen3.6-35B-A3B?
Hermes 4 to fine-tune bazowy modelu z licencją MIT, który utrzymuje się „w charakterze” agenta znacznie dłużej niż oryginał według PopularAITools — wybierz go do zadań agentowych wymagających długich konwersacji.
Czy Qwen3.6-35B-A3B zastępuje Claude czy GPT-4 w codziennej pracy?
Model pokonuje Gemma 4-31B na LiveCodeBench o 4 punkty procentowe według OfficeChai, ale w złożonych zadaniach architektonicznych ustępuje komercyjnym modelom — używaj jako darmowej alternatywy do rutynowych zadań kodowania.
Podsumowanie
Qwen3.6-35B-A3B to model, który zmienia zasady gry w lokalnym AI. Oto kluczowe wnioski:
- Efektywność MoE — 3B aktywnych parametrów z 35B oferuje jakość porównywalną z pełnymi modelami 35B przy ułamku kosztu obliczeniowego
- Dostępność sprzętowa — 8 GB VRAM wystarcza do uruchomienia kwantyzowanej wersji na konsumenckich GPU
- Prywatność — pełne lokalne działanie bez wysyłania kodu na zewnętrzne serwery
- Integracja z Claude Code — agentic coding bez kosztów API dzięki proxy llama-server
- Otwartość — wagi dostępne publicznie, fine-tuny jak Hermes 4 pod licencją MIT
Chcesz zacząć? Pobierz model GGUF z HuggingFace, zainstaluj Ollama lub llama.cpp, i uruchom swój pierwszy lokalny agent kodujący. Cały setup zajmuje mniej niż 30 minut.