Proč WebRTC není správná volba pro hlasové AI aplikace

Autor projektu MoQ (Media over QUIC) — člověk s přímou zkušeností z implementace WebRTC SFU na Twitchi a v Discordu — napsal kritický rozbor proč WebRTC není dobrá volba pro hlasové AI aplikace jako je OpenAI Realtime API.

Čtyři problémy WebRTC pro voice AI

1. Agresivní zahazování paketů

WebRTC je navrženo pro videohovory kde je důležitá nízká latence — raději zahodí pakety než aby bufferovalo. Pro voice AI je ale přesnost důležitější než rychlost. Ztracené audio = ztracená informace pro model.

2. Žádné bufferování

Protokol neumožňuje bufferování. Při výpadku nebo zpomalení sítě data prostě zmizí, není způsob jak je dohnat.

3. Složité port management

WebRTC vyžaduje jeden port na každé spojení. To komplikuje škálování a naráží na firemní firewally.

4. Příliš mnoho round-tripů

Navázání spojení vyžaduje minimálně 8 RTT. Pro real-time AI komunikaci je to zbytečná zátěž.

Navrhované řešení: QUIC

Autor doporučuje jako základ QUIC protokol, případně s WebTransport API. Výhody oproti WebRTC:

Pouze 1 RTT pro navázání spojení
CONNECTION_ID umožňuje bezstavné load balancování
Anycast přístup bez potřeby load balancerů

MoQ (jeho vlastní projekt) staví na QUICu pro streamování médií — ale přiznává, že pro 1:1 audio komunikaci není ideální. QUIC samotný by ale měl být základem budoucích hlasových AI řešení.

Zdroj

WebRTC is the Problem — moq.dev