Cloud vs Lokale Transcriptie

Waarom WhisperTyping in de cloud draait, niet op je PC

Een vraag die we vaak krijgen: waarom draait WhisperTyping in de cloud en niet op je eigen PC? Zou lokaal niet goedkoper en privater zijn?

Lokaal heeft twee echte voordelen: geen netwerkronde, en je audio verlaat nooit je machine. Op alle andere vlakken wint de cloud. Het is een kwestie van hardware-economie.

Het hardwareprobleem

Goede spraakherkenning heeft een krachtige GPU nodig met veel geheugen. Om de nieuwste modellen met lage latency te draaien heb je een snelle consumenten-GPU (vanaf zo'n $1.500) of een datacenter-GPU die tien keer zoveel kost.

Die GPU staat bijna de hele tijd stil. Zelfs zware dicteer-gebruikers spreken misschien 20 minuten per dag. De rest van de dag doet dure hardware niets. In de cloud bedient dezelfde GPU veel gebruikers parallel, dus de bezetting is hoog. Daar zit de kostenbesparing.

Snelheid

Zelfs met een goede consumenten-GPU op je eigen PC zit je rond 10x realtime. Een datacenter-GPU haalt ongeveer 50x. De custom ASICs die we in productie gebruiken halen rond de 300x.

Lokale consumenten-GPU
bv. RTX 5080, ~$1.000
~10x realtime
Datacenter-GPU
bv. NVIDIA H100, ~$30.000
~50x realtime
WhisperTyping
custom ASICs
~300x realtime

Hoeveel minuten audio elk in één minuut kloktijd kan transcriberen.

Een minuut audio duurt dus ongeveer zes seconden op een degelijke thuis-GPU, ongeveer een seconde op een datacenter-GPU, en een vijfde van een seconde op onze hardware. Het verschil telt omdat dicteer-latency bepaalt of spraak even natuurlijk aanvoelt als typen.

We hebben dedicated private transcriptie-servers opgezet voor enkele van onze meest veeleisende klanten in de juridische en medische sector, met consumenten-GPU's van duizenden dollars. Zelfs die halen niet de latency die onze gratis gebruikers krijgen op de gedeelde cloud.

Verborgen kosten van lokaal draaien

Zelfs als je een krachtige GPU hebt, kost lokaal draaien je iedere keer iets:

Met cloud-transcriptie stuurt je laptop een klein audiosignaal en krijgt tekst terug. Meer is het niet.

Open source lokale alternatieven

Er zijn een paar open source tools die Whisper lokaal draaien. De meeste gebruiken Whisper Small of Medium, niet Large, omdat de grote modellen te traag zijn op consumenten-hardware. Small en Medium maken merkbaar meer fouten, vooral bij accenten, namen en technische termen. En zelfs met het kleinere model is lokale transcriptie meestal trager dan onze cloud.

Privacy

Hier heeft lokaal een echt voordeel. Bij de cloud moet je je provider vertrouwen. Onze houding is simpel: we loggen niets van je dicteer-audio. Geen audio bewaard, geen transcripten bewaard, niets gebruikt voor training. Zie ons privacybeleid.

Je moet ons daarvoor op ons woord geloven, wat een terechte zorg is. Voor de meeste mensen is de afweging acceptabel. Voor gebruikers met strenge compliance-eisen bieden we dedicated private servers en getekende BAA's aan. Zie de medische pagina.

Wie nog wel lokaal moet draaien

Voor de rest is de cloud goedkoper, sneller en accurater.

FAQ

Maakt de netwerkronde de cloud niet trager?

In theorie ja, in de praktijk niet. WhisperTyping streamt audio terwijl je spreekt, dus de netwerk-tijd overlapt met je dicteren. Tegen de tijd dat je klaar bent met spreken, komt de tekst al terug.

Waarom bundelen jullie het model niet om het lokaal te laten draaien als optie?

We hebben dit bekeken. Om onze nauwkeurigheid en snelheid op de machine van een gebruiker te evenaren, zou die een high-end GPU nodig hebben. De meeste mensen hebben er geen, en het model zou hun andere werk vertragen en de batterij leegtrekken. Een kleiner model zou die problemen oplossen, maar tegen een echte nauwkeurigheidsprijs.

Wordt mijn audio opgenomen?

Nee. Nul logging van audio of transcripten. Zie ons privacybeleid.

Werkt WhisperTyping offline?

Nee. Het heeft een internetverbinding nodig. De bandbreedte is bescheiden (een paar honderd KB per minuut), dus het werkt prima op zwakke wifi en mobiele tethering.