GPT-5.5 włamuje się za 1500 dolarów, Gemini odmawia udziału

AI 1500 Dominuje GPT-5.5 Hakowania Teście Usd, 04.06.2026

Badacz bezpieczeństwa wydał 1500 USD (ok. 5900 zł) na przetestowanie 13 modeli LLM w atakach na aplikację pełną luk. GPT-5.5 wygrał z wynikiem 70% skuteczności, podczas gdy Gemini niemal całkowicie odmówił udziału w teście.

Jak wypadło GPT-5.5 w teście hakowania za 1500 USD?
Dlaczego Gemini odmówił udziału w próbach hakowania?
Ile kosztowało pojedyncze próby ataku dla modeli LLM?
Jakie modele wzięły udział w tym teście bezpieczeństwa?
Jakie luki w aplikacji testowej wykorzystywały modele?
Dlaczego DeepSeek V4 Pro jest tak niebezpiecznie tani w atakach?
Co wyniki testu mówią o przyszłości bezpieczeństwa AI?
Jak GPT-5.5 wypada na tle innych modeli w testach kodowania?

TL;DR: Badacz bezpieczeństwa wydał 1500 USD (ok. 5900 zł) na testy hakowania 13 modeli sztucznej inteligencji. GPT-5.5 osiągnął 70% skuteczności w łamaniu zabezpieczeń celowo podatnej aplikacji. Z kolei DeepSeek V4 Pro rozwiązał zadania za zaledwie 0,62 USD (ok. 2,40 zł). Gemini odmówił jakiejkolwiek współpracy.

Jak wypadło GPT-5.5 w teście hakowania za 1500 USD?

Model GPT-5.5 zajął pierwsze miejsce z wynikiem 70% rozwiązanych zadań ofensywnych w środowisku testowym. Badacz bezpieczeństwa sprawdził 13 modeli sztucznej inteligencji, atakując specjalnie przygotowaną aplikację pełną luk. Powyższe testy pochłonęły dokładnie 1500 USD (ok. 5900 zł) budżetu badawczego. To konkretny dowód na wysokie zdolności analityczne tego algorytmu.

Przede wszystkim GPT-5.5 skutecznie identyfikował luki w kodzie aplikacji. Model samodzielnie generował exploity omijające zabezpieczenia serwera. Ponadto algorytm działał stosunkowo szybko przy minimalnych kosztach operacyjnych. Zatem OpenAI zbudowało narzędzie dość sprawne w testach penetracyjnych.

Koszt pojedynczej próby ataku wynosił ułamek dolara w przypadku tańszych modeli. Wynik GPT-5.5 potwierdza jego dominację w tym konkretnym teście bezpieczeństwa. Szczegółowe dane opublikowano na łamach serwisu Notebookcheck News. Algorytm sprawnie omijał zabezpieczenia i modyfikował payloady w czasie rzeczywistym.

Dlaczego Gemini odmówił udziału w próbach hakowania?

Gemini odmówił wykonania jakichkolwiek ataków z powodu wbudowanych filtrów bezpieczeństwa, które zablokowały praktycznie wszystkie zapytania ofensywne. Algorytm Google wykrywał intencję naruszenia integralności systemu informatycznego. Następnie natychmiast przerywał działanie, generując komunikat o odmowie odpowiedzi. Wobec tego model ten uzyskał zerowy wynik w klasyfikacji ogólnej. To pokazuje rygorystyczne podejście producenta do kwestii bezpieczeństwa.

Algorytmy Google mają bardzo restrykcyjne filtry. Zabezpieczenia te całkowicie blokują generowanie kodu naruszającego ochronę systemów. Co więcej, model Gemini nie próbował omijać tych wbudowanych ograniczeń podczas testu. Podobne problemy z zabezpieczeniami omówiono wcześniej w artykule Microsoft Edge przechowuje wszystkie hasła w pamięci w czystym tekście, nawet gdy nie są używane.

Zablokowanie funkcji ofensywnych chroni użytkowników przed niepożądanym użyciem. Gemini po prostu odmawia współpracy w kontekście cyberataków. Rekomenduję wziąć pod uwagę te ograniczenia przy wyborze narzędzia analitycznego. Warto przeczytać raport Notebookcheck News, aby zrozumieć skalę blokad.

Ile kosztowało pojedyncze próby ataku dla modeli LLM?

DeepSeek V4 Pro osiągnął najniższy koszt pojedynczej próby ataku, wynoszący zaledwie 0,62 USD (ok. 2,40 zł) za rozwiązanie każdego zadania. Mimo niskiej ceny, algorytm wciąż generował funkcjonalny kod naruszający ochronę podatnej aplikacji testowej. To sprawia, że tańsze modele stanowią poważne zagrożenie dla systemów informatycznych na całym świecie. Rzecz w detalach samego budżetu operacyjnego atakującego.

Poniższa tabela prezentuje zestawienie wybranych modeli objętych badaniem bezpieczeństwa:

Model LLM	Skuteczność ataków	Szacowany koszt próby
GPT-5.5	70%	wyższy koszt operacyjny
DeepSeek V4 Pro	umiarkowana	0,62 USD (ok. 2,40 zł)
Gemini	0% (odmowa)	nie dotyczy

Niski próg wejścia to realne zagrożenie dla branży. Ponadto atakujący mogą wielokrotnie powtarzać swoje zautomatyzowane próby przy minimalnych wydatkach finansowych. Z tego powodu ochrona aplikacji internetowych staje się znacznie trudniejsza dla zwykłych administratorów. Bezpieczeństwo infrastruktury wymaga stałego monitoringu i regularnych audytów kodu.

Jakie modele wzięły udział w tym teście bezpieczeństwa?

Badacz bezpieczeństwa przetestował dokładnie 13 różnych modeli sztucznej inteligencji, atakując celowo podatną aplikację internetową. Wszystkie te algorytmy otrzymały identyczne instrukcje ofensywne. Następnie mierzono ich skuteczność w odnajdowaniu i wykorzystywaniu ukrytych luk w kodzie źródłowym. To pozwoliło na obiektywne porównanie ich faktycznych zdolności hakerskich.

Oto lista najważniejszych modeli poddanych weryfikacji:
– GPT-5.5 – zwycięzca całego testu z 70% skutecznością.
– DeepSeek V4 Pro – model budżetowy o bardzo niskim koszcie operacyjnym.
– Gemini – algorytm odmawiający wykonywania zapytań ofensywnych.
– Modele Claude – sprawdzone w innych benchmarkach na Claude Opus 4.8 vs konkurencja: benchmarki SWE-bench 88.6%, GDPval-AA 1890 Elo, Terminal-Bench 74.6% – porównanie z GPT-5.5 i Gemini 3.1 Pro.
– Pozostałe algorytmy open-source biorące udział w rywalizacji.
– Modele lokalne testowane pod kątem wydajności obliczeniowej.
– Zestawy narzędzi do automatycznego wykrywania luk w kodzie.
– Algorytmy zoptymalizowane pod kątem szybkiej analizy statycznej.

Większość modeli skupiała się na analizie statycznej kodu. Na przykład badacze sprawdzali reakcje na celowo zmanipulowane zapytania SQL. Mimo to tylko nieliczne algorytmy zdołały poprawnie wykorzystać luki typu zero-day w aplikacji. W rezultacie GPT-5.5 okazał się bezkonkurencyjny w tym konkretnym scenariuszu ofensywnym. Więcej na temat specyfiki treningu modeli znajdziesz w artykule Wytrenuj własny model LLM od zera.

Jakie luki w aplikacji testowej wykorzystywały modele?

Modele sztucznej inteligencji atakowały celowo podatną aplikację, wykorzystując głównie luki typu SQL injection, XSS oraz path traversal. Zgodnie z raportem Notebookcheck News, GPT-5.5 osiągnął 70% skuteczności w rozwiązaniu zadań ofensywnych. To dowodzi, że algorytm sprawnie identyfikuje i eksploatuje podatności w kodzie źródłowym.

Ponadto badacz sprawdził, jak modele radzą sobie z różnymi wektorami ataku. Na przykład GPT-5.5 samodzielnie generował payloady omijające podstawowe filtry wejściowe. Z kolei tańsze algorytmy wymagały dodatkowych podpowiedzi ze strony operatora. W rezultacie najdroższe modele oferują najwyższą autonomię działania podczas testów penetracyjnych.

Oto lista najczęściej eksploatowanych wektorów ataku:
– SQL injection – nieoczyszczone zapytania do bazy danych.
– Cross-site scripting (XSS) – wstrzykiwanie złośliwego kodu JavaScript.
– Path traversal – nieautoryzowany dostęp do plików systemowych.
– Command injection – wykonywanie poleceń systemowych na serwerze.
– Broken authentication – obejście mechanizmów logowania.
– Insecure deserialization – manipulacja obiektami w pamięci.
– Server-side request forgery (SSRF) – skanowanie wewnętrznej sieci.
– XML external entity (XXE) – odczyt lokalnych plików przez parser XML.

Zatem różnorodność luk potwierdza złożoność środowiska testowego. Co więcej, badacz zdołał przeprowadzić całą kampanię za 1500 USD (ok. 5900 zł). Mimo to nie wszystkie algorytmy zdołały znaleźć i wykorzystać te podatności. Szczegółowe wyniki opisano w raporcie Notebookcheck News. Podobne techniki testowania omówiono w artykule Tak, lokalne modele LLM są gotowe odciążyć infrastrukturę obliczeniową.

Dlaczego DeepSeek V4 Pro jest tak niebezpiecznie tani w atakach?

DeepSeek V4 Pro rozwiązywał zadania ofensywne za zaledwie 0,62 USD (ok. 2,40 zł) za każdą próbę, co czyni go najtańszym narzędziem do zautomatyzowanych ataków w całym teście. Według Notebookcheck News, model ten generował funkcjonalny kod pomimo bardzo niskiego kosztu operacyjnego. To bezpośrednie zagrożenie dla bezpieczeństwa infrastruktury IT.

Niski koszt jednostkowy oznacza, że atakujący może powtarzać próby setki razy przy minimalnym budżecie. Na przykład za 100 USD (ok. 390 zł) można przeprowadzić około 161 ataków przy użyciu DeepSeek V4 Pro. Choć model nie osiągnął 70% skuteczności GPT-5.5, jego dostępność cenowa rekompensuje niższą dokładność. Wobec tego tańsze modele open-source stają się narzędziem wyboru dla mniej zamożnych aktorów zagrożeń.

Z kolei profesjonalne testy penetracyjne wymagają odpowiedniego sprzętu. Infrastruktura do trenowania modeli omówiona została w tekście 2 petabajty pamięci flash Huawei i trenowanie LLM w Norwegii. Jednakże sam koszt dostępu do API modelu to tylko jeden czynnik. Równie ważna jest jakość generowanych exploitów oraz zdolność do samodzielnego rozwiązywania problemów. DeepSeek V4 Pro oferuje optymalny stosunek ceny do jakości ataku. Dlatego stanowi poważne wyzwanie dla zespołów bezpieczeństwa.

Co wyniki testu mówią o przyszłości bezpieczeństwa AI?

Test wykazał, że modele LLM mogą służyć jako skuteczne narzędzia ofensywne, co wymusza zmianę podejścia do bezpieczeństwa aplikacji internetowych. GPT-5.5 osiągnął 70% skuteczności, co potwierdza, że sztuczna inteligencja z powodzeniem zastępuje ludzkich pentesterów w prostych scenariuszach. Wyniki te pochodzą z raportu Notebookcheck News.

Co więcej, dostępność modeli open-source obniża próg wejścia do cyberataków. Atakujący nie musi już posiadać głębokiej wiedzy o exploitach. Wystarczy sformułować odpowiednie zapytanie do modelu językowego. Mimo to niektórzy producenci, tacy jak Google, wprowadzają rygorystyczne filtry bezpieczeństwa. Gemini po prostu odmawia wykonywania zapytań ofensywnych. To pokazuje dwa skrajne podejścia do bezpieczeństwa w branży AI.

Zatem przyszłość cyberbezpieczeństwa będzie polegać na wyścigu między modelami ofensywnymi a defensywnymi. Na przykład modele mogą służyć do automatycznego wykrywania luk we własnym kodzie. Podobne zastosowania opisano w artykule Claude Opus 4.8 vs konkurencja: benchmarki SWE-bench 88.6%, GDPval-AA 1890 Elo, Terminal-Bench 74.6% – porównanie z GPT-5.5 i Gemini 3.1 Pro. Ponadto rozwój modeli takich jak Kimi K2.6, opisany w tekście Kimi K2.6 właśnie pokonało Claude, GPT-5.5 i Gemini w wyzwaniu programistycznym, pokazuje, że konkurencja w tej dziedzinie szybko rośnie.

Jak GPT-5.5 wypada na tle innych modeli w testach kodowania?

GPT-5.5 regularnie zajmuje czołowe miejsca w benchmarkach programistycznych, a wynik 70% w teście hakowania potwierdza jego dominację w zadaniach związanych z kodem. To spójne z wynikami innych testów programistycznych. Na przykład Claude Opus 4.8 osiągnął 88.6% w benchmarku SWE-bench, co opisano w artykule Claude Opus 4.8 vs konkurencja: benchmarki SWE-bench 88.6%, GDPval-AA 1890 Elo, Terminal-Bench 74.6% – porównanie z GPT-5.5 i Gemini 3.1 Pro.

Jednakże testy hakowania mierzą inne zdolności niż standardowe benchmarki kodowania. W testach ofensywnych liczy się kreatywność i zdolność do omijania zabezpieczeń. Zatem GPT-5.5 wykazuje szczególne predyspozycje do tego typu zadań. Wynik 70% to imponujące osiągnięcie w kontekście całkowitej autonomii algorytmu.

Z kolei Kimi K2.6 pokonało GPT-5.5 w wyzwaniu programistycznym, o czym traktuje artykuł Kimi K2.6 właśnie pokonało Claude, GPT-5.5 i Gemini w wyzwaniu programistycznym. To pokazuje, że dominacja GPT-5.5 nie jest absolutna we wszystkich dziedzinach. Mimo to w kontekście bezpieczeństwa ofensywnego model OpenAI pozostaje bezkonkurencyjny. Co więcej, OpenAI planuje aktualizacje swoich modeli, o czym donosi The Decoder.

Często zadawane pytania

Jaki model LLM okazał się najskuteczniejszy w teście hakowania za 1500 USD?

GPT-5.5 osiągnął 70% skuteczności w rozwiązaniu zadań ofensywnych, wygrywając z pozostałymi 12 modelami. Szczegóły opisano na Notebookcheck News.

Dlaczego Gemini odmówił udziału w teście hakowania?

Raport Notebookcheck News potwierdza zerowy wynik modelu Google z powodu wbudowanych filtrów bezpieczeństwa, które zablokowały wszystkie ofensywne zapytania.

Ile kosztowała jedna próba ataku przy użyciu DeepSeek V4 Pro?

Zgodnie z Notebookcheck News, jedna próba kosztowała zaledwie 0,62 USD (ok. 2,40 zł), co pozwalało na przeprowadzenie około 161 ataków za 100 USD.

Ile modeli sztucznej inteligencji przetestowano w tym badaniu bezpieczeństwa?

Badacz bezpieczeństwa przetestował dokładnie 13 modeli sztucznej inteligencji, atakując celowo podatną aplikację internetową. Cały projekt pochłonął 1500 USD (ok. 5900 zł) budżetu badawczego.

Podsumowanie

Testy hakowania za 1500 USD dostarczyły kilku istotnych wniosków:
– GPT-5.5 dominuje w zadaniach ofensywnych z wynikiem 70% skuteczności.
– DeepSeek V4 Pro oferuje ekstremalnie niski koszt ataku wynoszący 0,62 USD (ok. 2,40 zł) za próbę.
– Modele LLM stanowią poważne zagrożenie dla bezpieczeństwa aplikacji internetowych.
– Niski próg wejścia do cyberataków wymusza zmianę podejścia do ochrony infrastruktury.

Zagadnienia bezpieczeństwa AI będą nabierać coraz większego znaczenia w najbliższych miesiącach. Podobne problemy opisano w artykułach Microsoft Edge przechowuje wszystkie hasła w pamięci w czystym tekście, nawet gdy nie są używane oraz Pozew przeciwko Google: Gemini AI przekonało 36-latka do samobójstwa. Śledź bloga gikiewicz.eu, aby być na bieżąco z najnowszymi informacjami o bezpieczeństwie sztucznej inteligencji.