La plupart des outils de dictée envoient votre voix vers un serveur cloud. L'audio y est transcrit, le texte y est stocké, et une copie reste dans la base de données du fournisseur jusqu'à ce que vous la supprimiez (et parfois après). Pour un mémo vocal rapide, c'est acceptable. Pour un e-mail client sur un sujet confidentiel, un message Slack qui parle d'un dossier sensible ou la note de séance d'une thérapeute, c'est un problème que le fournisseur ne va pas résoudre à votre place.
Ce guide explique où va réellement votre voix quand vous dictez, présente l'échelle de confidentialité à trois niveaux qui détermine combien de contrôle vous gardez, et indique quels outils en 2026 proposent quels niveaux. Version courte : un seul outil de dictée propose les trois niveaux de contrôle, et vous pouvez les combiner pour qu'aucune requête ne quitte jamais votre machine.
En bref
- La plupart des outils de dictée (Wispr Flow, Willow Voice, Otter, ChatGPT voice) sont 100 % cloud. Votre audio quitte votre appareil avant qu'un seul mot soit transcrit.
- L'échelle de confidentialité à trois niveaux : traitement par modèle local, bring-your-own-key (BYOK) et désactivation de la synchronisation cloud. Chaque niveau vous redonne une forme de contrôle.
- Apple Dictation tourne sur l'appareil mais n'offre aucune personnalisation ni sortie contextuelle, et Apple continue de collecter des données d'usage.
- MacWhisper et Superwhisper tournent localement sur Mac mais ne proposent ni BYOK ni Modes contextuels.
- Contextli est le seul outil de dictée en 2026 qui vous permet de cumuler les trois niveaux : modèle local, BYOK et pas de synchronisation cloud. En les combinant, Contextli n'envoie aucune requête à un serveur externe.

Où va vraiment votre voix quand vous dictez
Quand vous appuyez sur le raccourci de dictée d'un outil cloud classique, voici ce qui se passe dans les 400 premières millisecondes. Votre microphone capte l'audio. L'application l'encode. L'audio part vers le serveur de transcription du fournisseur. Un modèle speech-to-text renvoie du texte. Pour les outils contextuels, un second modèle réécrit le texte pour le canal dans lequel vous écrivez. La chaîne finale revient sur votre machine. Le fournisseur journalise la requête.
La plupart des utilisateurs ne remarquent rien de tout cela. Ce qu'ils remarquent, c'est que le raccourci fonctionne dans le train avec un Wi-Fi capricieux (parce que l'aller-retour cloud retente silencieusement) et que la transcription apparaît dans leurs notes, qu'ils veuillent la garder ou non.
Les questions de confidentialité sont simples mais les fournisseurs y répondent rarement au même endroit. Où va l'audio ? Qui a accès aux transcriptions ? Combien de temps tout cela est-il conservé ? Peut-on désactiver tout ça ? En 2026, la plupart des outils de dictée populaires répondent bien à une ou deux de ces questions et restent silencieux sur le reste.
L'échelle de confidentialité à trois niveaux
Trois leviers indépendants déterminent à quel point votre dictée est réellement privée. Les outils se distinguent sur ceux qu'ils proposent. La pile la plus solide utilise les trois.
Niveau 1 : traitement par modèle local
Le premier niveau, c'est de savoir si le modèle speech-to-text et le modèle d'écriture contextuelle tournent sur votre machine ou dans le cloud. Quand les modèles tournent localement, votre audio ne quitte jamais l'appareil. Internet peut être coupé. L'application fonctionne quand même.
Avant, c'était un problème matériel. Les modèles vocaux locaux exigeaient un rack serveur. Aujourd'hui, un Mac moderne avec Apple Silicon (M1 et plus récent) ou un PC Windows des trois dernières années fait tourner localement une transcription de classe Whisper plus vite qu'en temps réel. MacWhisper, par exemple, exécute le modèle Whisper d'OpenAI entièrement sur l'appareil et annonce jusqu'à 15 fois la vitesse temps réel sur Apple Silicon, avec une transcription en 1:12 sur les puces M4. Le compromis est honnête : un portable de dix ans sera lent, et les portables sur batterie se déchargent plus vite pendant les longues sessions de dictée.
Les gros outils cloud-only n'ont aucun mode local, à aucun niveau de tarification. La documentation de Wispr Flow indique que la transcription se fait toujours dans le cloud "pour la meilleure vitesse et précision". Willow Voice est cloud-only par conception. Otter, ChatGPT voice, AudioPen et la plupart des outils de dictée recommandés dans les listicles sont tous cloud-only.
Niveau 2 : bring-your-own-key (BYOK)
Le deuxième niveau concerne ce qui se passe quand vous utilisez le cloud. Par défaut, un outil de dictée cloud route votre audio à travers ses propres serveurs, frappe ses propres fournisseurs sous contrat pour la transcription et l'IA (souvent OpenAI, Anthropic, Deepgram ou AssemblyAI) et rapporte le résultat. Le fournisseur est au milieu de chaque requête.
BYOK change cela. Vous fournissez votre propre clé API pour le fournisseur de transcription et pour le fournisseur IA. Les requêtes partent directement de votre machine vers le fournisseur que vous avez choisi. Le fournisseur de dictée ne voit jamais l'audio ni le texte traité. Vous payez le fournisseur directement, ce qui coûte généralement moins cher à la minute qu'un abonnement forfaitaire si vous dictez beaucoup.
En 2026, presque aucun outil de dictée grand public ne propose un vrai BYOK. Wispr Flow non. Willow Voice non. Apple Dictation non (il est uniquement on-device, donc aucune option BYOK n'est nécessaire). Les rares options BYOK existantes sont surtout orientées développeurs ou auto-hébergées.
Niveau 3 : désactiver la synchronisation cloud
Le troisième niveau concerne ce qu'il advient de vos transcriptions après la dictée. La plupart des outils de dictée cloud synchronisent votre historique de transcriptions vers leur base de données par défaut, pour que vous puissiez y accéder depuis un autre appareil. C'est une fonction de confort, pas une nécessité technique.
Vous pouvez généralement la désactiver. Contextli traite la synchronisation cloud comme une fonction contrôlée par l'utilisateur : activée par défaut pour l'usage multi-appareil, mais désactivable. Une fois désactivée, les notes transcrites vivent comme fichiers locaux sur votre machine. Vous pouvez les parcourir dans le Finder ou l'Explorateur de fichiers. La base de données de Contextli ne stocke rien sur vous.
Wispr Flow a récemment ajouté un "Privacy Mode" qu'ils décrivent comme zéro rétention côté serveur. L'audio quitte toujours votre appareil pour la transcription et la reformulation, mais il est supprimé ensuite. Ce n'est pas la même chose que le niveau 3, qui porte sur la question de savoir si les données arrivent en base. C'est un pas significatif, mais vous faites toujours confiance à une politique de suppression.

Quels outils proposent quels niveaux en 2026
Vérifié à partir de la documentation des fournisseurs en mai 2026. Les tarifs et fonctions évoluent. Recoupez avant de vous baser dessus pour un sujet de conformité.
| Outil |
Modèle local |
BYOK |
Désactiver sync cloud |
Screen-awareness opt-in |
Modes personnalisables |
| Contextli |
Oui |
Oui |
Oui |
Oui (opt-in) |
Oui |
| Wispr Flow |
Non |
Non |
"Privacy Mode" seulement |
Captures auto |
Non |
| Willow Voice |
Non |
Non |
Non |
Non |
Non |
| MacWhisper |
Oui |
s/o |
Oui (local seulement) |
Non |
Non |
| Superwhisper |
Oui |
s/o |
Oui (local seulement) |
Non |
Non |
| Apple Dictation |
Oui |
s/o |
Oui (télémétrie) |
Non |
Non |
| Otter.ai |
Non |
Non |
Non |
Non |
Non |
| ChatGPT voice |
Non |
Non |
Non |
Non |
Non |
Une note sur les captures d'écran de Wispr Flow : leur documentation indique que l'application capture toutes les quelques secondes une image de la fenêtre active, à des fins de suggestions contextuelles, et l'envoie aux serveurs cloud avec l'enregistrement vocal. C'est activé par défaut. La fonction équivalente de Contextli (screen-awareness) est désactivée par défaut et explicitement opt-in.
La pile la plus solide combine les trois niveaux. Voici comment cela fonctionne dans Contextli, étape par étape. Le paramètre screen-awareness reste désactivé (ce qui est le réglage par défaut) pour cette configuration.
Premièrement, dans les réglages de Contextli, passez la transcription sur un modèle local. L'application télécharge le modèle de classe Whisper la première fois, puis garde tout sur votre machine. Internet peut être coupé. La vitesse de transcription est environ en temps réel sur un portable moderne, légèrement plus lente que Wispr Flow en cloud à son pic, mais le compromis, c'est que votre audio ne quitte jamais l'appareil.
Deuxièmement, passez le modèle d'écriture contextuelle en local aussi, ou configurez BYOK avec votre propre clé fournisseur (OpenAI, Anthropic ou votre choix). En tout local, le modèle d'écriture tourne aussi sur votre machine. En BYOK, la requête part de votre machine vers le fournisseur que vous avez choisi, jamais via les serveurs de Contextli.
Troisièmement, dans le même panneau de réglages, désactivez la synchronisation cloud. Vos notes transcrites vivent désormais uniquement comme fichiers locaux dans un dossier que vous contrôlez. Vous pouvez les parcourir, les sauvegarder ou les supprimer vous-même. La base de données de Contextli ne stocke rien.
Avec les trois niveaux cumulés, voici le scénario : une consultante vient de finir un appel client confidentiel. Elle ouvre sa messagerie, appuie sur le raccourci Contextli et dicte le mail de suivi avec Email Mode. L'audio est transcrit par le modèle local sur son portable. Email Mode (la couche d'écriture contextuelle) le reformate en e-mail client correctement structuré, là aussi en local. Le texte final apparaît dans sa fenêtre d'e-mail. Aucune requête n'a quitté sa machine. La transcription n'est synchronisée vers aucune base de données fournisseur. L'ensemble du flux prend environ 30 secondes.
Quand chaque niveau compte
Les trois niveaux sont indépendants. Différents lecteurs se soucient de niveaux différents. Faites correspondre le niveau à votre contrainte.
Si vous traitez des données réglementées (juridique, santé, conseil financier, marchés publics), les trois niveaux comptent. La plupart des cadres de conformité considèrent que "les données ne quittent pas la machine de l'utilisateur" est la base la plus propre. Cumulez les trois.
Si vous êtes développeur sensible à la sécurité ou que vous travaillez dans une société aux règles strictes de sortie de données, le niveau 2 (BYOK) est généralement le plus important. Votre équipe IT a souvent déjà des fournisseurs validés et des accords signés. Faire transiter les requêtes par vos propres clés garde l'audit propre.
Si vous êtes un professionnel soucieux de la confidentialité mais pas dans un secteur réglementé, le niveau 3 (désactiver la synchronisation cloud) est le gain le plus simple. Vous arrêtez d'accumuler un historique de transcriptions sur la base de données d'un fournisseur. Le fournisseur ne peut pas perdre ce qu'il n'a pas.
En quoi Contextli diffère d'un outil de transcription
Même avec les trois niveaux de confidentialité cumulés, Contextli n'est pas qu'un outil de transcription. Le but de la dictée est d'obtenir du texte utilisable de l'autre côté, pas des transcriptions brutes.
C'est la lacune que laissent MacWhisper et Superwhisper. Tous deux exécutent la transcription localement, ce qui est excellent pour la confidentialité. Mais ils transcrivent. Ils n'écrivent pas. Si vous dictez "hey jane le rapport est fini je l'envoie tout de suite", MacWhisper vous donne exactement cette chaîne. Vous devez encore ajouter une salutation, des majuscules, une ponctuation, une structure et une signature.
Contextli ajoute la couche d'écriture contextuelle au-dessus de la transcription. La même dictée, Email Mode actif, sort sous forme d'e-mail professionnel correctement adressé. Chaque Mode (Email Mode, Messaging Mode, Notes Mode, LinkedIn Mode, Marketing Copy Mode, General Dictation) peut être personnalisé avec des exemples de votre propre écriture pour que la sortie corresponde à votre voix. Rien de tout cela n'oblige à renoncer à la confidentialité. Les exemples de personnalisation vivent aussi en local.
Ce que nous ne promettons pas
Trois mises au point honnêtes pour que le reste reste crédible.
Wispr Flow est plus rapide que Contextli en modèle local pour la transcription pure. Si le destin de votre audio vous est indifférent et que vous voulez la dictée la plus rapide possible, Wispr Flow gagne sur cette seule dimension. Nous ne concurrençons pas sur la vitesse.
Les modèles locaux exigent toujours une machine moderne. Un MacBook Air de 2013 ne fera pas tourner une transcription de classe Whisper en temps réel. Nous le disons clairement parce que la tendance marketing est de masquer ce point.
Contextli n'est pas un produit certifié HIPAA. La pile locale vous permet d'atteindre les exigences de conformité de votre propre cabinet, mais si votre flux de travail requiert un Business Associate Agreement ou une certification spécifique, demandez d'abord à votre équipe conformité avant de vous appuyer sur n'importe quel outil de dictée, celui-ci compris.
FAQ
Contextli est-il un outil de dictée privé par défaut ?
Par défaut, Contextli utilise un traitement cloud pour la rapidité, comme la plupart de ses concurrents. Pour le rendre entièrement privé, passez aux modèles locaux, activez BYOK si vous le souhaitez et désactivez la synchronisation cloud dans les réglages. Les trois niveaux sont contrôlés par l'utilisateur, activés par défaut pour la sync cloud mais faciles à désactiver.
Contextli voit-il jamais mon audio ?
Si vous activez les modèles locaux, non. L'audio est traité sur votre machine et n'est jamais envoyé sur le réseau. Si vous restez sur le traitement cloud, l'audio passe par le pipeline de transcription de Contextli et est supprimé après traitement selon notre politique de rétention.
Quelle est la différence entre le Privacy Mode de Wispr Flow et la pile de confidentialité de Contextli ?
Le Privacy Mode de Wispr Flow signifie zéro rétention côté serveur. L'audio quitte toujours votre appareil pour la transcription et la reformulation. L'option de modèles locaux de Contextli signifie que l'audio ne quitte pas du tout l'appareil. Ce sont deux choses différentes, et la différence compte davantage pour les secteurs réglementés que pour l'usage professionnel général.
Puis-je utiliser Contextli hors ligne ?
Oui, avec les modèles locaux activés. Transcription et écriture contextuelle tournent toutes deux sur votre machine. Internet peut être coupé. La synchronisation cloud (niveau 3) est la seule fonction qui demande Internet, et vous pouvez la désactiver.
BYOK revient-il moins cher que l'abonnement forfaitaire de Contextli ?
Cela dépend du volume dicté. Les utilisateurs intensifs (plus de deux à trois heures de dictée par jour) paient souvent moins par minute via BYOK parce qu'ils paient le tarif minute du fournisseur directement. Les utilisateurs légers sont généralement mieux servis par l'abonnement forfaitaire.
Apple Dictation compte-t-il comme privé ?
Apple Dictation tourne sur l'appareil sur les Mac et iPhone récents, ce qui couvre le niveau 1. Mais Apple collecte toujours des données d'usage, la sortie est une transcription générique sans personnalisation, et il n'y a pas d'adaptation par canal. Pour la confidentialité seule, Apple Dictation suffit. Pour la dictée professionnelle multi-canal, non.
Comment savoir si mon modèle local tourne vraiment en local ?
Coupez le Wi-Fi et essayez de dicter. Si la transcription fonctionne toujours, le modèle tourne sur votre machine. Les réglages de Contextli affichent aussi un indicateur de statut indiquant quel moteur est actif (local ou cloud).
Qu'arrive-t-il à mes notes si je désactive la synchronisation cloud ?
Elles restent comme fichiers locaux dans un dossier que vous contrôlez. Vous trouverez le dossier dans les réglages de Contextli (il affiche le chemin exact). Sauvegardez-le comme n'importe quel autre dossier. Supprimez-le quand vous n'en avez plus besoin.
Pour aller plus loin
Si la confidentialité est votre priorité, lisez le guide Contextli du speech-to-text contextuel pour la vue complète des fonctionnalités, et la comparaison Deepgram vs Contextli pour voir en quoi nous nous distinguons des outils de transcription en mode API. Pour une vision orientée utilisateur de la dictée contextuelle, voyez Contextli Speech-to-Text.
Essayer Contextli avec les trois niveaux de confidentialité
L'offre gratuite de Contextli inclut 100 crédits par mois sans carte bancaire, et la pile de confidentialité (modèles locaux, BYOK, désactivation de la sync cloud) est disponible sur chaque plan. Configurez-la en cinq minutes et constatez que votre voix reste sur votre machine. Plus d'infos sur la page Fonctionnalités ou dans la FAQ pour les détails de traitement des données.