Mistral AI lance deux modèles de transcription vocale performants et bien moins chers que la concurrence

Après le lancement de Mistral Vibe 2.0, la start-up française Mistral AI a dévoilé Voxtral Transcribe 2, une famille de deux modèles de transcription audio conçus pour répondre aux besoins des entreprises. L'argument coup de poing de cette offre ? Des performances comparables aux géants du secteur comme OpenAI, Google ou Amazon, mais pour un cinquième du prix. Disponibles dès aujourd'hui, ces modèles s'inscrivent dans la stratégie d'expansion de Mistral sur le marché de l'IA vocale, un domaine jusqu'ici dominé par les acteurs américains.

Ce qu'il faut retenir :

Mistral AI propose deux modèles de transcription : Voxtral Mini Transcribe V2 pour le traitement par lots et Voxtral Realtime pour la transcription en temps réel
Les deux modèles supportent 13 langues avec un taux d'erreur d'environ 4%, soit le meilleur rapport qualité-prix du marché (0,003 $/min pour Mini et 0,006 $/min pour Realtime)
Voxtral Realtime offre une latence configurable jusqu'à moins de 200 ms et peut fonctionner en local sur smartphone ou ordinateur grâce à ses 4 milliards de paramètres
Les performances surpassent GPT-4o mini Transcribe et Gemini 2.5 Flash tout en étant cinq fois moins cher que les solutions concurrentes

Voxtral Mini Transcribe V2 : de la puissance au service des gros volumes

Le premier modèle, Voxtral Mini Transcribe V2, se positionne comme la solution idéale pour transcrire de gros volumes de fichiers audio en une seule fois. Il embarque des fonctionnalités avancées comme le découpage selon les intervenants (diarisation), le biais contextuel et un horodatage précis au niveau des mots. Sa capacité impressionnante : traiter des enregistrements jusqu'à 3 heures en une seule requête.

Compatible avec 13 langues (anglais, chinois, hindi, espagnol, arabe, français, portugais, russe, allemand, japonais, coréen, italien et néerlandais), ce modèle affiche un taux d'erreur d'environ 4%. En termes de rapidité, il traite l'audio environ trois fois plus vite que Scribe v2 d'ElevenLabs, tout en proposant une qualité équivalente. Mistral revendique des performances supérieures à GPT-4o mini Transcribe, Gemini 2.5 Flash, Assembly Universal et Deepgram Nova.

Performance de transcription de Voxtral Mini Transcribe v2 - Source : Mistral AI

Le tarif de 0,003 dollar par minute fait de Voxtral Mini Transcribe V2 le modèle au meilleur rapport qualité-prix du marché selon Mistral AI. Pour les entreprises qui doivent traiter quotidiennement de gros lots de fichiers audio (interviews, réunions, podcasts), cette solution représente une alternative économique sans compromis sur la qualité.

Voxtral Realtime : la transcription instantanée accessible en local

Le second modèle, Voxtral Realtime, a été spécifiquement conçu pour la transcription en direct. Son principal avantage réside dans sa latence ultra-faible, configurable jusqu'à moins de 200 ms, ce qui permet des applications en temps réel comme le sous-titrage en direct ou les agents vocaux conversationnels.

Avec seulement 4 milliards de paramètres, Voxtral Realtime est suffisamment compact pour fonctionner localement sur un smartphone ou un ordinateur, sans connexion cloud permanente. Cette caractéristique ouvre des perspectives intéressantes pour les applications nécessitant confidentialité...

Derniers événements

Derniers Articles