Cloud vs Transcription Locale

Pourquoi WhisperTyping tourne dans le cloud, pas sur votre PC

Une question qu'on nous pose souvent : pourquoi WhisperTyping tourne-t-il dans le cloud et pas sur votre PC ? Le local ne serait-il pas moins cher et plus privé ?

Le local a deux vrais avantages : pas d'aller-retour réseau, et votre audio ne quitte jamais votre machine. Sur tout le reste, le cloud gagne. C'est une question d'économie matérielle.

Le problème matériel

Une bonne reconnaissance vocale a besoin d'un GPU puissant avec beaucoup de mémoire. Pour faire tourner les modèles les plus récents avec une faible latence, il faut un GPU grand public rapide (à partir de ~$1 500), ou un GPU de datacenter qui coûte dix fois plus.

Ce GPU est inactif presque tout le temps. Même les gros utilisateurs de dictée parlent peut-être 20 minutes par jour. Le reste du temps, du matériel cher ne fait rien. Dans le cloud, le même GPU sert plusieurs utilisateurs en parallèle, donc l'utilisation est élevée. C'est de là que vient l'économie.

Vitesse

Même avec un bon GPU grand public sur votre propre PC, vous êtes autour de 10x temps réel. Un GPU de datacenter atteint environ 50x. Les ASIC sur mesure que nous utilisons en production montent à environ 300x.

GPU grand public local
ex. RTX 5080, ~$1 000
~10x temps réel
GPU de datacenter
ex. NVIDIA H100, ~$30 000
~50x temps réel
WhisperTyping
ASIC sur mesure
~300x temps réel

Combien de minutes d'audio chacun peut transcrire en une minute de temps réel.

Une minute d'audio prend donc environ six secondes sur un bon GPU domestique, environ une seconde sur un GPU de datacenter, et un cinquième de seconde sur notre matériel. L'écart compte parce que la latence de dictée détermine si la voix devient aussi naturelle que de taper.

Nous avons mis en place des serveurs de transcription privés dédiés pour certains de nos clients les plus exigeants dans le droit et la médecine, avec des GPU grand public coûtant des milliers de dollars. Même ceux-là n'atteignent pas la latence que nos utilisateurs gratuits obtiennent sur le cloud partagé.

Coûts cachés d'une exécution locale

Même si vous avez un GPU puissant, faire tourner un modèle de transcription localement vous coûte quelque chose à chaque utilisation :

Avec la transcription cloud, votre laptop envoie un petit signal audio et reçoit le texte en retour. C'est tout.

Alternatives open source locales

Il existe quelques outils open source qui font tourner Whisper sur votre propre machine. La plupart utilisent Whisper Small ou Medium, pas Large, parce que les gros modèles sont trop lents sur du matériel grand public. Small et Medium font sensiblement plus d'erreurs, surtout sur les accents, les noms et les termes techniques. Et même avec le plus petit modèle, la transcription locale est généralement plus lente que notre cloud.

Confidentialité

C'est là que le local a un vrai avantage. Avec le cloud, vous devez faire confiance à votre fournisseur. Notre position est simple : nous ne loggons rien de votre dictée. Aucun audio stocké, aucune transcription stockée, rien utilisé pour l'entraînement. Voir notre politique de confidentialité.

Vous devez nous croire sur parole, ce qui est une préoccupation légitime. Pour la plupart des gens, le compromis est acceptable. Pour les utilisateurs avec des exigences de conformité strictes, nous proposons des serveurs privés dédiés et des BAA signés. Voir la page médical.

Qui devrait quand même tourner en local

Pour les autres, le cloud est moins cher, plus rapide et plus précis.

FAQ

L'aller-retour réseau ne rend-il pas le cloud plus lent ?

En théorie oui, en pratique non. WhisperTyping streame l'audio pendant que vous parlez, donc le temps réseau se chevauche avec votre dictée. Quand vous finissez de parler, le texte arrive déjà.

Pourquoi ne pas inclure le modèle pour le faire tourner en local en option ?

On y a regardé. Pour égaler notre précision et notre vitesse sur la machine d'un utilisateur, il faudrait un GPU haut de gamme. La plupart n'en ont pas, et le modèle ralentirait leur autre travail et viderait leur batterie. Un modèle plus petit résoudrait ces problèmes mais au prix d'une vraie perte de précision.

Mon audio est-il enregistré ?

Non. Zéro logging de l'audio ou des transcriptions. Voir notre politique de confidentialité.

WhisperTyping fonctionne-t-il hors ligne ?

Non. Il a besoin d'une connexion internet. La bande passante est modeste (quelques centaines de Ko par minute), donc ça fonctionne bien avec du Wi-Fi faible et du partage de connexion mobile.