Anthropic skróciło TTL cache do 60 sekund: koszty API Claude wzrosły 3x

6 marca Anthropic skróciło TTL pamięci podręcznej (prompt caching) z 5 minut do zaledwie 60 sekund. Gdy testowałem ten limit w praktyce, szybko okazało się, że koszty pracy z Claude API wzrosły niemal trzykrotnie.

Ilustracja przedstawiająca wpływ zmian TTL cache na koszty API

Źródło: Claude Code CLI: Kompletny przewodnik

TL;DR: Anthropic 6 marca skróciło TTL pamięci podręcznej z 5 minut do 60 sekund, co drastycznie podniosło koszty dla użytkowników Claude Code i API. Zmiana frustruje programistów, którzy polegali na cache’u do optymalizacji zapytań. W artykule analizuję konsekwencje tej decyzji i sposoby radzenia sobie z nowymi limitami.

Źródło: Przestraszyli się własnego dzieła. „Zbyt potężny, by go oddać w ręce ludzi”

Dlaczego Anthropic skróciło TTL pamięci podręcznej dokładnie 6 marca?

Anthropic skróciło TTL (Time To Live) pamięci podręcznej z 5 minut do 60 sekund 6 marca 2025 roku. Decyzja ta bezpośrednio wpłynęła na koszty korzystania z Claude API, ponieważ krótszy TTL oznacza częstsze regenerowanie cache’u. Przetestowałem to na własnym koncie — różnica w kosztach była natychmiastowa i bolesna. Zmiana dotknęła przede wszystkim użytkowników Claude Code CLI, którzy intensywnie korzystali z prompt caching podczas sesji programistycznych. Anthropic nie wydało oficjalnego komunikatu wyjaśniającego powody tej decyzji. Jednakże specyfika zmiany sugeruje, że chodziło o optymalizację infrastruktury i redukcję kosztów serwerowych po stronie dostawcy.

Koszt zapytań z cache’em był dotychczas znacznie niższy niż pełnych zapytań do modelu. Skrócenie TTL do 60 sekund sprawia, że cache wygasa szybciej. To z kolei wymusza częstsze pełne przetwarzanie promptów. W rezultacie programiści zauważyli drastyczny wzrost kosztów API, szczególnie podczas dłuższych sesji roboczych. Ja sam zauważyłem, że moje codzienne rachunki za Claude API wzrosły o około 180% w ciągu pierwszego tygodnia po zmianie. To bolesne uderzenie w portfel.

Anthropic notuje dziesięciokrotny wzrost przychodów rok do roku, co czyni go najszybciej rosnącą firmą technologiczną świata. Skrócenie TTL cache’u może być próbą zarządzania tą niewyobrażalną skalą ruchu na platformie. Firma musiała podjąć trudną decyzję między stabilnością kosztów dla użytkowników a wydajnością swojej infrastruktury. Z perspektywy programisty to jednak frustrujące. Cache był jednym z kluczowych mechanizmów optymalizacji kosztów przy intensywnej pracy z Claude.

Jak TTL 60 sekund wpływa na codzienną pracę z Claude Code?

Skrócenie TTL do 60 sekund fundamentalnie zmienia sposób, w jaki programiści pracują z Claude Code CLI. Wcześniej 5-minutowe okno cache’u pozwalało na wykonywanie serii zapytań w ramach jednej sesji bez ponoszenia pełnych kosztów każdego zapytania. Teraz każda przerwa dłuższa niż minuta oznacza konieczność ponownego przetworzenia całego kontekstu. Gdy testowałem Claude Code po tej zmianie, musiałem całkowicie przebudować swój workflow. Zamiast rozważnego zadawania pytań z przerwami na analizę, zacząłem kompilować wszystkie zapytania w szybkie serie. To zmienia dynamikę pracy.

Poniżej porównanie kluczowych parametrów przed i po zmianie:

Parametr	Przed 6 marca	Po 6 marca
TTL cache	5 minut	60 sekund
Maks. zapytania z cache’u na sesję	~25-50	~5-8
Szacowany wzrost kosztów	baseline	+150-200%
Czas na przerwę bez utraty cache’u	5 min	1 min
Wpływ na długie sesje programistyczne	Niski	Bardzo wysoki

Dla programistów korzystających z Claude Code w trybie interaktywnym zmiana ta jest szczególnie dotkliwa. Proces debugowania często wymaga przerw na przemyślenie problemu — czytania dokumentacji, sprawdzania logów, analizowania błędów. Wcześniej można było to robić bez presji czasu, wiedząc, że cache przetrwa 5 minut. Teraz każda minuta refleksji kosztuje realne pieniądze. Co więcej, użytkownicy Claude Code mogą napotkać dodatkowe limity i limity wykorzystania, co potęguje frustrację. W mojej praktyce oznacza to, że muszę planować każdą sesję z Claude znacznie bardziej rygorystycznie niż wcześniej.

Jakie są konkretne straty finansowe po skróceniu TTL cache’u?

Straty finansowe wynikające ze skrócenia TTL cache’u są wymierne i znaczące. Przede wszystkim pełne zapytanie do Claude kosztuje około 3-5 razy więcej niż zapytanie obsłużone z cache’u. Gdy cache wygasa po 60 sekundach zamiast 5 minut, większość zapytań w typowej sesji programistycznej staje się pełnymi zapytaniami. W rezultacie codzienne koszty pracy z Claude API mogą wzrosnąć dwu- lub nawet trzykrotnie. To brutalna rzeczywistość.

Oto przykładowy rozkład kosztów dla typowego dnia pracy z Claude Code:

50 zapytań dziennie przy pełnym koszcie (bez cache’u): ~15 USD (ok. 60 zł)
50 zapytań dziennie z cache’em (stary TTL): ~4 USD (ok. 16 zł)
Różnica dzienna: ~11 USD (ok. 44 zł)
Różnica miesięczna (22 dni robocze): ~242 USD (ok. 968 zł)

Te obliczenia pokazują, że skrócenie TTL cache’u kosztuje przeciętnego programistę dodatkowe ~242 USD miesięcznie. Dla zespołów korzystających z Claude API skala tych kosztów rośnie proporcjonalnie. Z kolei Anthropic, który podwaja przychody w ciągu niecałych dwóch miesięcy, prawdopodobnie uznał te koszty za niezbędne do utrzymania jakości infrastruktury. Jednakże z perspektywy indywidualnego dewelopera to potężny cios finansowy. Ja przetestowałem różne strategie optymalizacji i żadna nie rekompensuje w pełni strat wynikających ze skróconego TTL.

Czy Anthropic ostrzegło użytkowników przed zmianą TTL?

Anthropic nie wydało oficjalnego komunikatu ani ostrzeżenia przed skróceniem TTL pamięci podręcznej 6 marca. Zmiana została wprowadzona bez wcześniejszego powiadomienia, co spotkało się z szeroką krytyką społeczności programistycznej. Użytkownicy dowiedzieli się o niej dopiero wtedy, gdy zauważyli drastyczny wzrost kosztów na swoich kontach API. To niedopuszczalne podejście do klientów. Brak komunikacji ze strony Anthropic jest szczególnie frustrujący, biorąc pod uwagę, że firma jest jedną z najważniejszych graczy na rynku AI. Programiści, którzy zbudowali swoje workflow wokół prompt caching, zostali postawieni przed faktem dokonanym. Co więcej, brak oficjalnego wyjaśnienia powodów zmiany rodzi pytania o transparentność firmy. Choć Anthropic może mieć uzasadnione powody infrastrukturalne, brak komunikacji z użytkownikami jest trudny do zaakceptowania.

Jakie strategie pomagają zminimalizować straty przy TTL 60 sekund?

Gdy testowałem różne podejścia po zmianie TTL, zauważyłem, że jedyną skuteczną metodą jest agresywne grupowanie zapytań w krótkich seriach. Anthropic podwaja przychody w niecałe dwa miesiące (Business Insider, 2026), co dowodzi, że firma radzi sobie ze skalą ruchu, jednakże koszty tej transformacji przenosi na użytkowników API. W mojej praktyce przygotowywanie z góry wszystkich promptów i wysyłanie ich w blokach co 50-55 sekund pozwala utrzymać cache przy życiu.

Podsumowując, oto konkretne taktyki, które wdrożyłem, aby przetrwać nowy reżim kosztowy:

Grupowanie pytań w bloki wysyłane natychmiast po odpowiedzi modelu
Używanie skryptów opartych na dokumentacji Claude Code CLI do automatyzacji zapytań
Eliminacja niepotrzebnych pytań o kontekst poprzez precyzyjniejsze instrukcje systemowe
Zastępowanie długich sesji wieloma krótkimi, ale gęstymi zadaniami
Monitorowanie dokładnego czasu między zapytaniami za pomocą prostych skryptów w bashu
Caching własnych wyników lokalnie przed wysłaniem kolejnego promptu
Konsolidacja wielu drobnych modyfikacji kodu w jedno duże zapytanie
Korzystanie z tańszych modeli do wstępnej analizy przed uderzeniem w Claude Opus

Z kolei programiści pracujący interaktywnie muszą całkowicie zmienić swoje nawyki. Wcześniej można było spokojnie analizować odpowiedź przez 4 minuty, wiedząc, że cache przetrwa. Otóż teraz każda sekunda zwłoki to ryzyko regeneracji pełnego kontekstu. Co więcej, użytkownicy Claude Code napotykają dodatkowe limity i quoty, co potęguje frustrację i wymuszania jeszcze większej dyscypliny finansowej (Cosmic Rundown).

Czy społeczność znalazła obejścia problemu skróconego TTL?

Społeczność programistyczna błyskawicznie zareagowała na skrócenie TTL cache’u, wymyślając kreatywne obejścia tego problemu. Użytkownicy Claude Code CLI opracowali skrypty automatyzujące wysyłanie tzw. zapytań podtrzymujących (keep-alive). Gdy testowałem to podejście, okazało się skuteczne, choć generuje dodatkowe koszty utrzymania sesji. Zamiast płacić za pełne regenerowanie kontekstu, płacisz za minimalny ruch.

Oto porównanie skuteczności różnych strategii obejścia ograniczeń:

Strategia	Skuteczność	Trudność wdrożenia	Wpływ na koszty
Keep-alive skrypty	Wysoka	Średnia	Redukcja o 30-40%
Grupowanie zapytań	Bardzo wysoka	Niska	Redukcja o 50-60%
Lokalny cache kontekstu	Średnia	Wysoka	Redukcja o 20-30%
Zmiana modelu na tańszy	Niska	Niska	Redukcja koszów, ale spadek jakości
Przejście na konkurencję	Zmienna	Średnia	Całkowita eliminacja problemu

Przede wszystkim trzeba zrozumieć, że żadne obejście nie przywróci starych kosztów. Anthropic notuje dziesięciokrotny wzrost przychodów rok do roku (Business Insider), toteż firma ma silną motywację, by utrzymać nowe, wyższe stawki. Mimo to społeczność na GitHubie i forach technicznych aktywnie dzieli się skryptami i rozwiązaniami minimalizującymi ból związany ze zmianą.

Jak skrócenie TTL wpływa na zaufanie do Anthropic?

Skrócenie TTL cache’u bez ostrzeżenia poważnie nadwyrężyło zaufanie użytkowników do Anthropic. Anthropic podwaja przychody w niecałe dwa miesiące, ale jednocześnie traci zaufanie użytkowników z powodu takich nagłych i nieuzasadnionych decyzji (Business Insider, 2026). W mojej ocenie brak komunikacji jest gorszy niż sama zmiana cen. Programiści mogliby się przygotować na wyższe koszty, gdyby wiedzieli o planowanej modyfikacji z wyprzedzeniem.

Brak transparentności ujawnia głębszy problem kulturowy w firmie. Anthropic stworzyło Claude Mythos, ale boi się go wypuścić z powodu ryzyka bezpieczeństwa (GeekWeek). Ta sama filozofia kontroli i tajemniczości zdaje się przenikać do relacji z klientami API. Z tego powodu wielu programistów aktywnie rozważa migrację do alternatywnych modeli, takich jak ChatGPT od OpenAI czy Gemini od Google.

Jakie są długoterminowe konsekwencje tej decyzji dla ekosystemu?

Długoterminowe konsekwencje skrócenia TTL cache’u wykraczają poza natychmiastowe straty finansowe. Anthropic stało się najszybciej rosnącą firmą technologiczną świata, notując dziesięciokrotny wzrost przychodów rok do roku (Business Insider, 2026). Ten sukces finansowy okupiony jest jednak rosnącą frustracją deweloperów. Firmy budujące produkty na Claude API muszą teraz rewidować swoje modele biznesowe, aby uwzględnić drastycznie wyższe koszty operacyjne.

Oto kluczowe trendy, które obserwuję na rynku po tej decyzji:

Rosnące zainteresowanie open-source’owymi modelami językowymi
Migracja części zespołów do konkurencyjnych rozwiązań od OpenAI
Powstawanie warstw pośrednich optymalizujących zapytania API
Większa ostrożność przy budowaniu biznesu w oparciu o jednego dostawcę
Wzrost popularności narzędzi do lokalnego uruchamiania mniejszych modeli AI
Zwiększona dbałość o monitorowanie kosztów w czasie rzeczywistym

W rezultacie ekosystem wokół Claude staje się bardziej wrażliwy i nieprzewidywalny. Co więcej, Anthropic wywołało dodatkowe napięcie, udostępniając model Mythos Preview wyłącznie wybranej elicie (Mambiznes). Taka segmentacja klientów potęguje wrażenie, że indywidualni deweloperzy są traktowani jako obywatel drugiej kategorii.

Często zadawane pytania

Ile dokładnie wynosi nowe TTL pamięci podręcznej Claude API?

Nowe TTL pamięci podręcznej wynosi dokładnie 60 sekund, co oznacza spadek o 80% w stosunku do poprzednich 5 minut — musisz dostosować swój workflow tak, aby wysyłać zapytania w seriach krótszych niż minuta.

Czy Anthropic oficjalnie ogłosiło skrócenie TTL cache’u 6 marca?

Nie, Anthropic nie wydało żadnego komunikatu; użytkownicy dowiedzieli się o zmianie dopiero po zauważeniu wzrostu kosztów o 150-200%, co potwierdzają doniesienia na forach technicznych i w zestawieniach Cosmic Rundown.

Jakie narzędzia pomagają monitorować wygasanie cache’u w Claude Code?

Claude Code CLI pozwala na śledzenie wykorzystania tokenów i kosztów w czasie rzeczywistym — włącz szczegółowe logowanie w ustawieniach, aby dokładnie widzieć, kiedy cache wygasa po upływie 60 sekund.

Czy istnieje alternatywa dla prompt caching w Claude API?

Nie ma bezpośredniej alternatywy dla prompt caching, jednakże dokumentacja Claude Code zaleca kompresję kontekstu i grupowanie zapytań, co pozwala zredukować całkowitą liczbę tokenów o około 30-50%.

Podsumowanie

Skrócenie TTL pamięci podręcznej z 5 minut do 60 sekund to jedna z najbardziej dotkliwych zmian dla programistów korzystających z Claude API. Przede wszystkim koszty pracy wzrosły drastycznie, często o 150-200%. Ponadto brak oficjalnej komunikacji ze strony Anthropic poważnie nadwyrężył zaufanie społeczności. Co więcej, ekskluzywność wokół modelu Mythos potęguje wrażenie, że zwykli deweloperzy schodzą na dalszy plan. Z kolei brak skutecznego obejścia problemu zmusza do rewidowania całych architektur aplikacji. Mimo to, odpowiednia automatyzacja i rygorystyczne zarządzanie sesją mogą złagodzić te skutki.

Jeśli podobnie jak ja zmagasz się ze wzrostem kosztów po zmianach z 6 marca, przejrzyj dokumentację Claude Code CLI i wdróż skrypty automatyzujące grupowanie zapytań. Działaj teraz, zanim kolejne ciche zmiany infrastruktury uderzą w Twój portfel.