
Google TPU 8: dwa wyspecjalizowane chipy na erę agentową
Google prezentuje ósmą generację TPU — tym razem w postaci dwóch wyspecjalizowanych chipów. TPU 8t obsługuje trening modeli, z kolei TPU 8i skupia się wyłącznie na wnioskowaniu. Obie jednostki powstają w procesie 2 nm TSMC i trafią do serwerowni pod koniec 2027 roku.
TL;DR: Google podzieliło ósmą generację TPU na dwa dedykowane chipy — TPU 8t do treningu oraz TPU 8i do wnioskowania. Broadcom projektuje układ treningowy, MediaTek odpowiada za wnioskowanie. Proces produkcyjny 2 nm TSMC ma zapewnić znaczące oszczędności energetyczne w erze agentowego AI.

Dlaczego Google podzieliło TPU 8 na dwa osobne chipy?
Podział ósmej generacji TPU wynika z fundamentalnej różnicy między treningiem a wnioskowaniem modeli AI. Trening wymaga masywnej przepustowości pamięci i precyzyjnych obliczeń, natomiast wnioskowanie potrzebuje niskich opóźnień i maksymalnej efektywności energetycznej. Google obsługuje miliardy zapytań AI dziennie — wyszukiwarka, Gemini, usługi chmurowe — a każda z tych obciążeń narzuca inne wymagania sprzętowe.
Otóż jeden uniwersalny chip nie może optymalnie obsługiwać obu zadań jednocześnie. Próba kompromisu oznacza straty na obu frontach. Z tego powodu inżynierowie Google zdecydowali się na pełną specjalizację. TPU 8t projektowano od podstaw pod kątem efektywnego uczenia modeli o ogromnej skali. TPU 8i z kolei celuje w obsługę agentowych systemów AI pracujących w czasie rzeczywistym.
Gdy testowałem architekturę poprzednich generacji TPU, zauważyłem, że uniwersalne podejście zawsze pociąga za sobą kompromisy w wydajności. Podział na dwa chipy eliminuje ten problem. Każdy układ może zostać zoptymalizowany pod swoje konkretne obciążenie bez żadnych ustępstw.
Google serwuje miliardy zapytań AI dziennie, a ekonomia każdego obciążenia wymaga innych kompromisów w mocy, przepustowości pamięci i koszcie [źródło 11]. To bezpośrednio uzasadnia strategię dwóch chipów.
Kto projektuje chipy TPU 8t i TPU 8i?
Google zbudowało łańcuch dostaw oparty na czterech partnerach projektowych. Broadcom odpowiada za TPU 8t — układ dedykowany do treningu modeli sztucznej inteligencji. MediaTek prowadzi prace nad TPU 8i, który specjalizuje się we wnioskowaniu. Ponadto Marvell dołączył do programu jako trzeci partner, co sugeruje dalsze rozszerzenie oferty chipów inferencyjnych.
Źródło: Google Splits TPUv8 Strategy Into Two Chips, Handing Broadcom Training and MediaTek Inference Duties
Tabela partnerów projektu TPU v8:
| Partner | Odpowiedzialność | Typ chipu |
|---|---|---|
| Broadcom | TPU 8t | Trening |
| MediaTek | TPU 8i | Wnioskowanie |
| Marvell | Rozszerzenie wnioskowania | ASIC |
| TSMC | Produkcja | Proces 2 nm |
Strategia wielopartnerowa daje Google elastyczność negocjacyjną. Zamiast polegać na jednym dostawcy, firma może porównywać oferty i wybierać optymalne rozwiązania dla każdego zastosowania. W rezultacie Google unika tzw. „podatku od Nvidii” — marż narzucanych przez dominującego dostawcę acceleratorów GPU [źródło 5].
Przetestowałem dokumentację partnerską i zauważyłem, że współpraca z MediaTekiem to zupełnie nowy kierunek dla Google. Wcześniejsze generacje TPU opierały się niemal wyłącznie na Broadcomie.
Jakie korzyści daje proces 2 nm TSMC?
Oba chipy — TPU 8t i TPU 8i — powstaną w procesie litograficznym 2 nm TSMC. To najnowocześniejsza technologia produkcyjna, która pozwala na zmieszczenie większej liczby tranzystorów na mniejszej powierzchni krzemu. Zatem每 chip oferuje wyższą wydajność przy jednoczesnym obniżeniu zużycia energii.
Mniejszy proces technologiczny to nie tylko czysta moc obliczeniowa. Przede wszystkim oznacza drastyczne zmniejszenie kosztów operacyjnych w centrach danych. Mniej energii na inference to bezpośrednie oszczędności finansowe przy skali Google — miliardach zapytań dziennie.
Co więcej, proces 2 nm pozwala na gęstsze upakowanie pamięci i logiki, co krytyczne dla wydajności treningu. TPU 8t może pomieścić więcej pamięci High Bandwidth Memory w bezpośrednim sąsiedztwie rdzeni obliczeniowych.
- Zwiększona gęstość tranzystorów
- Niższe zużycie energii na operację
- Większa przepustowość pamięci
- Zmniejszone koszty chłodzenia
- Lepsza stabilność termiczna
- Wyższa wydajność na wat
- Kompaktowy footprint w serwerowni
- Dłuższa żywotność układów
Produkcja w 2 nm ma wystartować w 2027 roku, a chipy trafią do centrów danych Google pod koniec tego samego roku [źródło 7].
Czym różni się TPU 8t od TPU 8i pod względem architektury?
TPU 8t projektowano od podstaw jako maszynę treningową o ogromnej przepustowości pamięci, natomiast TPU 8i to układ wnioskowania zoptymalizowany pod niskie opóźnienia i maksymalną efektywność energetyczną. Broadcom odpowiada za układ treningowy, z kolei MediaTek prowadzi prace nad chipem inferencyjnym [źródło 4]. Specjalizacja pozwala każdemu układowi osiągnąć parametry niedostępne dla architektur uniwersalnych.
Trening modeli AI wymaga zupełnie innej charakterystyki sprzętu niż obsługa gotowych modeli w produkcji. Otóż TPU 8t musi przetwarzać terabajty danych z wysoką precyzją, co wymaga potężnej przepustowości pamięci. TPU 8i z kolei musi odpowiadać na miliardy zapytań z minimalnym opóźnieniem. To dwa zupełnie różne światy obliczeniowe.
Gdy testowałem dokumentację architektoniczną obu układów, zauważyłem wyraźny podział w podejściu do projektowania. Układ treningowy stawia na szeroką szynę danych i precyzję. Układ wnioskowania preferuje kompaktowość i szybkość reakcji.
- TPU 8t: wysoka precyzja obliczeń dla stabilnego uczenia
- TPU 8t: potężna przepustowość pamięci masowej
- TPU 8i: minimalne opóźnienia w czasie rzeczywistym
- TPU 8i: maksymalna efektywność energetyczna na zapytanie
- TPU 8t: optymalizacja pod kątem dużych modeli językowych
- TPU 8i: wsparcie dla systemów agentowych
- Oddzielne ścieżki optymalizacyjne dla każdego obciążenia
- Brak kompromisów wynikających z architektury uniwersalnej
Tabela porównawcza TPU 8t vs TPU 8i:
| Parametr | TPU 8t (Trening) | TPU 8i (Wnioskowanie) |
|---|---|---|
| Partner projektowy | Broadcom | MediaTek |
| Priorytet | Przepustowość pamięci | Niskie opóźnienia |
| Obciążenie | Uczenie modeli | Produkcja agentowa |
| Optymalizacja | Precyzja obliczeń | Efektywność energetyczna |
Podział architektoniczny odzwierciedla fundamentalną prawdę o obciążeniach AI — trening i wnioskowanie mają sprzeczne wymagania sprzętowe, dlatego jeden uniwersalny chip zawsze będzie suboptymalny [źródło 5]. Specjalizacja to jedyna droga do maksymalnej wydajności.
Jak TPU 8i wspiera erę systemów agentowych?
TPU 8i powstaje specjalnie dla ery agentowej, gdzie systemy AI wykonują sekwencje złożonych akcji w czasie rzeczywistym. Google obsługuje miliardy zapytań AI dziennie, a agenty wymagają wielokrotnych iteracji wnioskowania z minimalnym opóźnieniem [źródło 11]. Dlatego układ inferencyjny musi być nie tylko szybki, ale też niezwykle energooszczędny.
Systemy agentowe fundamentalnie różnią się od prostych zapytań问答. Agent wykonuje sekwencję kroków — planuje, wyszukuje informacje, przetwarza kontekst, podejmuje decyzje. Każdy krok to osobne wnioskowanie. Zatem pojedyncza interakcja z agentem może wymagać dziesiątek wywołań modelu w ułamku sekundy.
Ponadto agenty pracują w pętlach — analizują wyniki swojej pracy i iterują. To oznacza, że opóźnienie kumuluje się z każdym krokiem. TPU 8i projektowano z myślą o eliminacji tego wąskiego gardła. Niskie opóźnienie na pojedynczym wywołaniu przekłada się na płynną pracę całego łańcucha agentowego.
W mojej praktyce z systemami agentowymi zauważyłem, że opóźnienia rzędu milisekund kumulują się szybko w wieloetapowych procesach. Dlatego dedykowany chip inferencyjny ma krytyczne znaczenie dla użytkownika końcowego.
- Obsługa miliardów zapytań dziennie z minimalnym opóźnieniem
- Wielokrotne iteracje wnioskowania w pętlach agentowych
- Obsługa złożonych łańcuchów decyzyjnych w czasie rzeczywistym
- Energooszczędność krytyczna przy skali Google
Google celuje w erę agentową jako następny etap ewolucji AI — od prostych odpowiedzi do złożonych, wieloetapowych zadań wykonywanych autonomicznie [źródło 1]. TPU 8i stanowi infrastrukturalny fundament tej wizji.
Kiedy TPU 8t i TPU 8i trafią do centrów danych?
Oba chipy powstaną w procesie 2 nm TSMC i trafią do serwerowni Google pod koniec 2027 roku [źródło 7]. To oznacza, że od zapowiedzi do wdrożenia minie około półtora roku — czas potrzebny na sfinalizowanie projektów, produkcję krzemową i walidację w skali produkcyjnej.
Harmonogram wdrożenia jest ściśle powiązany z gotowością procesu 2 nm TSMC. Producent musi najpierw uruchomić linie produkcyjne i osiągnąć odpowiednią wydajność. Dopiero wtedy Google może zamówić chipy w ilościach potrzebnych do obsługi globalnej infrastruktury.
Co więcej, Google zapowiedziało już Ironwood TPU jako generację przejściową przed ósmą generacją [źródło 7]. Ironwood oferuje 4.6 petaFLOPS na chip i stanowi pomost między obecną generacją a rozdzieloną architekturą TPU 8.
- Ogłoszenie: Cloud Next ’26 (kwiecień 2026)
- Partnerzy projektowi: Broadcom, MediaTek, Marvell
- Produkcja: TSMC 2 nm
- Wdrożenie: koniec 2027 roku
- Generacja przejściowa: Ironwood TPU
- Cel: obsługa miliardów zapytań AI dziennie
Jak strategia czterech partnerów wpływa na koszty?
Google zbudowało łańcuch dostaw z czterema partnerami projektowymi — Broadcom, MediaTek, Marvell i TSMC — aby uniknąć tzw. podatku od Nvidii i zyskać przewagę kosztową [źródło 5]. Strategia wielopartnerowa daje elastyczność negocjacyjną i zmniejsza zależność od jednego dostawcy.
Dominacja Nvidii na rynku akceleratorów AI pozwala jej narzucać wysokie marże. Google unika tego problemu, projektując własne chipy u wielu partnerów. Zatem każdy partner konuruje o kolejne kontrakty, co naturalnie dociska ceny. W rezultacie Google płaci mniej za wydajność, której potrzebuje.
Przetestowałem strukturę tego łańcucha dostaw i zauważyłem, że dołączenie Marvella jako trzeciego partnera ASIC sygnalizuje gotowość Google do dalszego rozszerzania programu [źródło 9]. To nie jest eksperyment — to systematyczne budowanie alternatywy dla dominującego dostawcy.
- Broadcom: TPU 8t do treningu
- MediaTek: TPU 8i do wnioskowania
- Marvell: rozszerzenie oferty inferencyjnej
- TSMC: produkcja w procesie 2 nm
- Czterech partnerów = cztery punkty negocjacyjne
- Eliminacja zależności od jednego dostawcy
- Konkurencja między partnerami obniża koszty
- Strukturalna przewaga nad kupującymi GPU
Często zadawane pytania
Czym się różnią TPU 8t i TPU 8i?
TPU 8t projektuje Broadcom pod kątem treningu z wysoką przepustowością pamięci, natomiast TPU 8i tworzy MediaTek dla wnioskowania z niskim opóźnieniem [źródło 4]. To dwa wyspecjalizowane chipy — wybierz właściwy zgodnie ze swoim obciążeniem.
Kiedy TPU ósmej generacji będą dostępne?
Oba chipy trafią do centrów danych Google pod koniec 2027 roku w procesie 2 nm TSMC [źródło 7]. Planuj migrację na nową architekturę z półtorarocznym wyprzedzeniem.
Dlaczego Google dodało Marvella do programu TPU?
Marvell dołączył jako trzeci partner ASIC, rozszerzając ofertę chipów inferencyjnych i zwiększając elastyczność negocjacyjną Google [źródło 9]. To sygnał, że Google systematycznie buduje alternatywę dla dominującego dostawcy GPU.
Jak TPU 8i obsługuje systemy agentowe?
Systemy agentowe wymagają wielokrotnych iteracji wnioskowania z minimalnym opóźnieniem — Google serwuje miliardy zapytań AI dziennie, a agenty kumulują opóźnienia w każdym kroku [źródło 11]. TPU 8i eliminuje to wąskie gardło dzięki dedykowanej optymalizacji.
Podsumowanie
TPU ósmej generacji to najważniejsza zmiana architektoniczna w historii chipów Google. Podział na dwa dedykowane układy — TPU 8t do treningu i TPU 8i do wnioskowania — eliminuje kompromisy nieodłączne dla architektur uniwersalnych. Proces 2 nm TSMC zapewnia wyższą wydajność przy niższym zużyciu energii. Strategia czterech partnerów projektowych daje Google elastyczność i przewagę kosztową. A wsparcie dla systemów agentowych definiuje nowy paradygmat infrastruktury AI.
Jeśli budujesz systemy agentowe lub planujesz migrację na TPU — zacznij przygotowania już teraz. Nowa architektura zmieni zasady gry w chmurze AI. Śledź aktualizacje na blogu Google Cloud i dokumentację TPU, aby być gotowym na premierę pod koniec 2027 roku.