Proč WebRTC není správná volba pro hlasové AI aplikace
Autor MoQ projektu popisuje čtyři zásadní problémy WebRTC pro voice AI — a proč by QUIC byl lepší základ než protokol navržený pro videokonference.
Autor projektu MoQ (Media over QUIC) — člověk s přímou zkušeností z implementace WebRTC SFU na Twitchi a v Discordu — napsal kritický rozbor proč WebRTC není dobrá volba pro hlasové AI aplikace jako je OpenAI Realtime API.
Čtyři problémy WebRTC pro voice AI
1. Agresivní zahazování paketů
WebRTC je navrženo pro videohovory kde je důležitá nízká latence — raději zahodí pakety než aby bufferovalo. Pro voice AI je ale přesnost důležitější než rychlost. Ztracené audio = ztracená informace pro model.
2. Žádné bufferování
Protokol neumožňuje bufferování. Při výpadku nebo zpomalení sítě data prostě zmizí, není způsob jak je dohnat.
3. Složité port management
WebRTC vyžaduje jeden port na každé spojení. To komplikuje škálování a naráží na firemní firewally.
4. Příliš mnoho round-tripů
Navázání spojení vyžaduje minimálně 8 RTT. Pro real-time AI komunikaci je to zbytečná zátěž.
Navrhované řešení: QUIC
Autor doporučuje jako základ QUIC protokol, případně s WebTransport API. Výhody oproti WebRTC:
- Pouze 1 RTT pro navázání spojení
CONNECTION_IDumožňuje bezstavné load balancování- Anycast přístup bez potřeby load balancerů
MoQ (jeho vlastní projekt) staví na QUICu pro streamování médií — ale přiznává, že pro 1:1 audio komunikaci není ideální. QUIC samotný by ale měl být základem budoucích hlasových AI řešení.