OpenAI naprawiło WebRTC: jak działa głosowe AI na ogromną skalę

OpenAI obsługuje setki milionów użytkowników. Gdy firma wprowadziła głosowe interfejsy API oparte na WebRTC, okazało się, że ta technologia nie skaluje się na taką masę. Inżynierowie Yi Zhang i William McDonald musieli zaprojektować zupełnie nową architekturę przesyłu audio w czasie rzeczywistym.

TL;DR: OpenAI zderzyło się z ograniczeniami WebRTC przy skali rzędu setek milionów użytkowników. Technologia ta wymaga dedykowanych serwerów TURN, generuje wysokie koszty i nie radzi sobie z globalnym ruchem. Inżynierowie OpenAI opracowali czteroetapową architekturę, która zastępuje WebRTC dedykowanym systemem przesyłu audio z latencją poniżej 300 ms.

Dlaczego WebRTC nie wystarczyło na skalę globalną?

WebRTC to protokół peer-to-peer zaprojektowany do bezpośredniej komunikacji między przeglądarkami. Według analizy inżynierów OpenAI, Yi Zhanga i Williama McDonalda, protokół ten napotyka fundamentalne problemy przy skali przekraczającej setki milionów jednoczesnych połączeń. Głównym problemem jest wymóg serwerów TURN, które pośredniczą w ruchu, gdy bezpośrednie połączenie P2P jest niemożliwe. Koszty utrzymania serwerów TURN rosną liniowo z liczbą użytkowników.

Co więcej, WebRTC wymaga osobnego sygnalizowania połączeń przez zewnętrzne serwery, co dodaje warstwę złożoności operacyjnej. Protokół ten został stworzony do wideokonferencji z ograniczoną liczbą uczestników, a nie do masowych interfejsów głosowych AI. Zatem przy skali OpenAI, koszty infrastruktury TURN stają się nieopłacalne.

To nie jedyny problem.

Ponadto WebRTC używa kodowania Opus, które jest zoptymalizowane pod kątem ludzkiej mowy, a nie skompresowanego audio z modeli AI. Różnica w charakterystyce dźwięku powoduje niepotrzebne obciążenie sieci. Inżynierowie OpenAI musieli znaleźć alternatywę, która obsługuje ruch globalny bez pośredników.

Jak wygląda czteroetapowa architektura OpenAI?

Architektura opracowana przez zespół OpenAI składa się z czterech warstw, które eliminują zależność od serwerów TURN i bezpośrednich połączeń P2P. Pierwszym etapem jest WebSocket-based signaling, który zastępuje tradycyjne sesje SIP. Drugim etapem jest dedykowany load balancer, który kieruje ruch do najbliższego geograficznie punktu przetwarzania. Trzecim etapem jest bezpośredni streaming PCM audio przez WebSockets, bez kodowania Opus. Czwartym etapem jest przetwarzanie na GPU z modelami GPT-4o i GPT-Realtime-2, które generują odpowiedź głosową w czasie rzeczywistym.

Z kolei każda z tych warstw jest niezależnie skalowalna, co pozwala na dodawanie nowych węzłów przetwarzania bez przerywania istniejących sesji. Architektura ta eliminuje potrzebę serwerów TURN całkowicie, ponieważ cała komunikacja przechodzi przez serwery OpenAI.

Poniżej zestawienie głównych różnic między WebRTC a architekturą OpenAI:

Parametr	WebRTC	Architektura OpenAI
Protokół sygnalizacji	SIP/SDP	WebSocket
Kodek audio	Opus	PCM (raw audio)
Pośrednicy	Serwery TURN	Brak (bezpośredni streaming)
Skalowalność	Ograniczona (koszty TURN)	Horizontalna (dodawanie węzłów)
Latencja dodana	100-500 ms (TURN)	Poniżej 50 ms (bezpośredni)

Czym różni się Realtime API od tradycyjnego podejścia?

Realtime API OpenAI to interfejs speech-to-speech, który przetwarza audio wejściowe i generuje audio wyjściowe w jednym end-to-end procesie. Tradycyjne podejście wymaga łączenia osobnych systemów: speech-to-text (STT), modelu językowego (LLM) i text-to-speech (TTS). Każdy z tych etapów dodaje latencję rzędu 200-500 ms, co daje łączny czas odpowiedzi powyżej 1 sekundy.

Realtime API eliminuje te pośrednie etapy. Zamiast konwertować mowę na tekst, przetwarzać tekst przez LLM i konwertować z powrotem na mowę, model GPT-4o przetwarza audio bezpośrednio. Według dokumentacji OpenAI, podejście to redukuje latencję do poziomu poniżej 300 ms, co jest zbliżone do naturalnego tempa rozmowy ludzkiej.

To robi różnicę.

Dlatego Realtime API jest szczególnie odpowiednie dla aplikacji wymagających płynnej interakcji głosowej: agentów obsługi klienta, asystentów głosowych i systemów tłumaczenia na żywo. API obsługuje streaming audio w obu kierunkach jednocześnie, co pozwala na przerywanie modelu w trakcie generowania odpowiedzi.

Jak GPT-Realtime-2 zmienia zasady gry w voice AI?

GPT-Realtime-2 to zaktualizowana wersja modelu, która wprowadza kontekstowe okno o rozmiarze 128 000 tokenów – czterokrotnie więcej niż poprzednia generacja. Model ten zapewnia jakość rozumowania na poziomie GPT-5, co oznacza lepsze radzenie sobie z zapytaniami wieloetapowymi, kontekstowymi i narzędziami zewnętrznymi.

Zgodnie z informacjami od OpenAI, GPT-Realtime-2 obsługuje function calling w trakcie sesji głosowej, integrację z protokołem SIP, łączenie z serwerami MCP oraz strumieniowe transkrypcje. Model potrafi wykonywać te operacje bez przerywania sesji audio, co było niemożliwe w poprzedniej wersji.

Oto kluczowe możliwości GPT-Realtime-2:

Kontekstowe okno 128k tokenów dla długich rozmów
Function calling bez przerywania strumienia audio
Integracja z SIP dla połączeń telefonicznych VoIP
Obsługa serwerów MCP do zarządzania narzędziami
Strumieniowa transkrypcja w czasie rzeczywistym
Tłumaczenie na żywo między językami
Przerywanie modelu w trakcie generowania odpowiedzi
Zarządzanie governance i zgodnością regulacyjną

Więcej o modelach OpenAI można przeczytać w artykule o GPT-5.3 i GPT-5.4 w ChatGPT.

Choć GPT-Realtime-2 jest potężnym modelem, jego architektura nadal opiera się na infrastrukturze opracowanej przez Zhanga i McDonalda. Bez eliminacji WebRTC z łańcucha przesyłu, model nie mógłby osiągnąć satysfakcjonujących parametrów latencji na globalną skalę.

Jakie koszty generuje infrastruktura WebRTC?

Koszty serwerów TURN stanowią główną pozycję wydatków w architekturze WebRTC. Serwer TURN musi przekazywać cały ruch audio i wideo, co przy setkach milionów użytkowników generuje petabajty transferu miesięcznie. Według analizy inżynierów OpenAI, koszty te rosną liniowo z liczbą aktywnych połączeń, co sprawia, że model biznesowy oparty na WebRTC staje się nieopłacalny przy dużej skali.

Dodatkowo, WebRTC wymaga serwerów STUN do nawigacji przez NAT oraz serwerów sygnalizacyjnych do zestawiania połączeń. Każda z tych warstw dodaje koszty operacyjne i punkty awarii. Z kolei architektura OpenAI oparta na WebSocket eliminuje potrzebę utrzymywania trzech osobnych typów serwerów, zastępując je jednym zuniformizowanym systemem.

To ma znaczenie przy skali.

Mimo to, niektóre organizacje nadal korzystają z WebRTC ze względu na kompatybilność z przeglądarkami i istniejącymi systemami. Jednakże, dla firm operujących na skali globalnej, koszty TURN mogą stanowić barierę wejścia do rynku głosowego AI. Więcej o strategii OpenAI czytaj w: OpenAI closes funding round at an $852B valuation.

Jak inżynierowie OpenAI rozwiązali problem serwerów TURN?

Inżynierowie Yi Zhang i William McDonald z OpenAI udowodnili, że architektura oparta na WebSocket eliminuje konieczność stosowania serwerów TURN, co redukuje koszty infrastruktury proporcjonalnie do skali. Według analizy technicznej, serwery TURN generują ruch liniowo rosnący z liczbą połączeń, co przy setkach milionów użytkowników staje się nieopłacalne. Zastąpienie ich bezpośrednim streamingiem PCM przez WebSocket pozwala na pominięcie pośredników.

Oto kluczowe różnice w porównaniu do tradycyjnego podejścia:

Eliminacja serwerów STUN do nawigacji przez NAT
Brak konieczności utrzymywania dedykowanych serwerów TURN
Zastąpienie SIP/SDP prostym handshakiem przez WebSocket
Jednolity protokół sygnalizacji i transferu danych
Zmniejszenie liczby punktów awarii w infrastrukturze
Redukcja opóźnień związanych z przekazywaniem pakietów
Możliwość horyzontalnego skalowania bez limitów TURN
Mniejsza złożoność operacyjna całego systemu

To upraszcza architekturę.

Ponadto, takie podejście pozwala na lepszą kontrolę nad jakością połączenia, ponieważ cały ruch przechodzi przez własną infrastrukturę OpenAI. Zamiast polegać na zewnętrznych pośrednikach, load balancer kieruje ruch bezpośrednio do najbliższego geograficznie węzła GPU z modelem GPT-4o.

Dlaczego PCM audio jest lepsze od kodeka Opus?

Zrezygnowanie z kodeka Opus na rzecz surowego strumienia PCM to decyzja wynikająca z różnicy między ludzką mową a dźwiękiem generowanym przez modele AI. Opus został zoptymalizowany pod kątem kompresji głosu ludzkiego, podczas gdy audio z modeli GPT-4o ma inną charakterystykę częstotliwościową. Próba kompresji takiego sygnału kodekiem Opus dodaje niepotrzebną warstwę obliczeń i opóźnień bez zauważalnej poprawy jakości.

W rezultacie, streaming PCM eliminuje czas potrzebny na kodowanie i dekodowanie, co bezpośrednio przekłada się na niższą latencję całego systemu. Co więcej, surowe audio zachowuje pełną wierność sygnału, co ma znaczenie przy zastosowaniach wymagających wysokiej dokładności rozpoznawania mowy.

To ma sens technicznie.

Zatem architektura OpenAI omija problem niedopasowania kodeka do źródła dźwięku, przesyłając dane bezpośrednio do modelu. Dźwięk z GPT-4o trafia do użytkownika w formie nieprzetworzonej, z pominięciem stratnej kompresji. Więcej o modelach OpenAI można znaleźć w artykule o GPT-5.3 i GPT-5.4 w ChatGPT.

Jak wygląda routing ruchu w globalnej architekturze?

Globalny routing w architekturze OpenAI opiera się na dedykowanym load balancerze, który kieruje każde połączenie do najbliższego geograficznie punktu przetwarzania wyposażonego w klastry GPU. Według dokumentacji, takie podejście pozwala utrzymać latencję poniżej 300 ms nawet dla użytkowników oddalonych od głównych centrów danych. System dynamicznie ocenia obciążenie węzłów i przekierowuje sesje w czasie rzeczywistym.

Parametr routingu	WebRTC	Architektura OpenAI
Wybór węzła	Zależny od TURN	Dynamiczny load balancer
Latencja dodana	100-500 ms	Poniżej 50 ms
Skalowalność	Liniowa (koszty)	Horyzontalna
Punkty awarii	TURN + STUN + SIP	Pojedynczy load balancer

Routing jest kluczowy.

Dlatego system nie wymaga zestawiania połączeń P2P ani negocjacji ICE, które są standardem w WebRTC. Cały ruch jest kierowany przez własną sieć dystrybucyjną OpenAI, co daje pełną kontrolę nad jakością ścieżki. Więcej o strategii firmy czytaj w: OpenAI closes funding round at an $852B valuation.

Jak WebSocket zastępuje SIP w sygnalizacji?

WebSocket zastępuje protokół SIP w architekturze OpenAI jako mechanizm sygnalizacji, upraszczając proces zestawiania sesji audio do pojedynczego handshake’u. Tradycyjny SIP wymaga wymiany wiadomości SDP, negocjacji kodeków i zarządzania stanem sesji przez osobne serwery. Według analizy inżynierów OpenAI, złożoność ta jest zbędna przy komunikacji między klientem a serwerem przetwarzającym, gdzie obie strony są pod kontrolą jednego dostawcy.

Otóż WebSocket zapewnia stałe połączenie dwukierunkowe, które może przenosić zarówno sygnalizację, jak i dane audio w jednym strumieniu. Eliminuje to potrzebę utrzymywania osobnych kanałów dla sygnalizacji i mediów, co upraszcza infrastrukturę i zmniejsza latencję zestawienia połączenia.

To istotna przewaga.

Choć SIP jest standardem w telekomunikacji, jego złożoność jest uzasadniona tylko w środowiskach wielodostawców. Z kolei OpenAI kontroluje cały stos, więc może uprościć protokół do minimum wymaganego do działania. Więcej o partnerstwach czytaj w: Cirrus Labs dołącza do OpenAI.

Jak GPT-Realtime-2 radzi sobie z długimi rozmowami?

GPT-Realtime-2 obsługuje kontekstowe okno o rozmiarze 128 000 tokenów, czterokrotnie większe niż poprzednia generacja modelu. Według The New Stack, pozwala to na prowadzenie długich rozmów bez utraty kontekstu. Model zachowuje spójność tematyczną przez całą sesję głosową, co jest istotne dla agentów obsługi klienta, którzy muszą pamiętać detale z początku konwersacji.

Ponadto, większe okno kontekstowe umożliwia jednoczesne korzystanie z function calling, integracji z serwerami MCP i narzędziami zewnętrznymi bez konieczności kompresji historii rozmowy. Model przetwarza te informacje w tle, bez przerywania strumienia audio.

To rozwija możliwości voice AI.

Dlatego GPT-Realtime-2 jest odpowiedni dla zastosowań enterprise, gdzie pojedyncza sesja może trwać kilkadziesiąt minut i wymaga dostępu do zewnętrznych baz wiedzy. Więcej o zastosowaniach ChatGPT czytaj w: Amator uzbrojony w ChatGPT rozwiązuje problem Erdősa.

Jakie są przypadki użycia Realtime API?

Realtime API jest zaprojektowane dla aplikacji wymagających płynnej interakcji głosowej z latencją poniżej 300 ms. Według dokumentacji OpenAI, główne przypadki użycia obejmują agentów obsługi klienta, asystentów głosowych, systemy tłumaczenia na żywo i interfejsy voice-first. API obsługuje streaming audio w obu kierunkach jednocześnie, co pozwala na przerywanie modelu w trakcie generowania odpowiedzi.

Agenci obsługi klienta z dostępem do systemów CRM
Asystenci głosowi dla platform e-commerce
Tłumaczenie na żywo między językami
Systemy IVR nowej generacji
Asystenci edukacyjni z interfejsem głosowym
Narzędzia do transkrypcji spotkań w czasie rzeczywistym
Boty informacyjne dla instytucji publicznych
Voice-first dashboardy analityczne

To otwiera nowe możliwości.

Co więcej, API integruje się z SIP, co pozwala na podłączenie agentów AI bezpośrednio do firmowych central telefonicznych. Więcej o kierunkach rozwoju OpenAI w: ChatGPT z reklamami: Pilot OpenAI i Criteo.

Jak bezpieczeństwo wpływa na architekturę voice AI?

Bezpieczeństwo w architekturze Realtime API opiera się na pełnej kontroli nad ścieżką komunikacji, ponieważ cały ruch przechodzi przez serwery OpenAI bez pośredników P2P. Według dokumentacji, eliminacja serwerów TURN i bezpośrednich połączeń peer-to-peer zmniejsza powierzchnię ataku. Cały ruch audio jest szyfrowany w tranzycie, a sesje są izolowane na poziomie infrastruktury.

Z kolei centralizacja przetwarzania pozwala na wdrożenie spójnych polityk governance i zgodności regulacyjnej. GPT-Realtime-2 obsługuje mechanizmy kontroli treści, filtrowania danych wrażliwych i audytu sesji. Więcej o bezpieczeństwie w: Filtr prywatności OpenAI.

To ważny aspekt.

Ponadto, architektura oparta na WebSocket pozwala na szybszą reakcję na incydenty bezpieczeństwa, ponieważ cała komunikacja jest routowana przez scentralizowany system monitorowania.

Często zadawane pytania

Jaka jest latencja Realtime API w porównaniu do WebRTC?

Realtime API osiąga latencję poniżej 300 ms dzięki bezpośredniemu streamingowi PCM przez WebSocket, podczas gdy WebRTC z serwerami TURN dodaje 100-500 ms opóźnienia na każdym połączeniu.

Ile tokenów kontekstu obsługuje GPT-Realtime-2?

GPT-Realtime-2 obsługuje okno kontekstowe 128 000 tokenów, co odpowiada czterokrotności poprzedniej generacji modelu i pozwala na długie sesje głosowe bez utraty spójności.

Czy Realtime API obsługuje function calling?

Tak, GPT-Realtime-2 obsługuje function calling, integrację z serwerami MCP oraz protokołem SIP, wykonując te operacje bez przerywania strumienia audio.

Dlaczego OpenAI zrezygnowało z kodeka Opus?

Kodek Opus jest zoptymalizowany pod kątem ludzkiej mowy, podczas gdy audio z modeli AI ma inną charakterystykę – streaming PCM eliminuje niepotrzebną kompresję i zmniejsza latencję.

Podsumowanie

Architektura voice AI opracowana przez inżynierów OpenAI pokazuje, że WebRTC nie skaluje się na poziomie setek milionów użytkowników. Główne wnioski z analizy tego systemu to:

WebRTC wymaga serwerów TURN, których koszty rosną liniowo ze skalą – to nieopłacalne przy globalnym ruchu
Zastąpienie Opus surowym PCM audio eliminuje niepotrzebną kompresję i zmniejsza latencję
WebSocket jako protokół sygnalizacji upraszcza architekturę i eliminuje potrzebę SIP/SDP
GPT-Realtime-2 z oknem 128k tokenów umożliwia długie, złożone sesje głosowe z function calling
Dedykowany load balancer z routingiem geograficznym utrzymuje latencję poniżej 300 ms globalnie

Jeśli budujesz aplikacje voice-first i chcesz zrozumieć, jak wykorzystać Realtime API w praktyce, sprawdź artykuł o OpenAI Codex dla Mac: 2 Miliony Użytkowników w 5 Tygodni, aby zobaczyć, jak produkty OpenAI zdobywają skalę. Subskrybuj bloga, by nie przegapić kolejnych analiz architektury AI.