OpenAI sort des nouveaux modèles vocaux qui rendent l’IA plus naturelle

Par Vincent Lautier - Publié le 25 mars 2025 à 17h01

1 commentaire

OpenAI vient de lancer ses nouveaux modèles audio GPT-4o pour améliorer la reconnaissance et la synthèse vocale. Plus précis que leurs prédécesseurs, ils permettent désormais de contrôler le ton et l’intonation de l’IA, ouvrant la voie à des interactions vocales plus naturelles et personnalisées.

OpenAI sort des nouveaux modèles vocaux qui rendent l’IA plus naturelle

Des modèles audio pour une meilleure interaction vocale

OpenAI a donc dévoilé trois nouveaux modèles audio : GPT-4o-transcribe, GPT-4o-mini-transcribe et GPT-4o-mini-tts. Leur objectif ? Rendre les agents vocaux plus naturels et plus précis dans leur compréhension et leur expression orale. Ces modèles sont disponibles via l’API d’OpenAI et accessibles aux développeurs qui souhaitent ajouter des capacités vocales à leurs applications.

Les modèles GPT-4o-transcribe et GPT-4o-mini-transcribe sont conçus pour convertir la parole en texte avec une précision bien supérieure aux anciens modèles Whisper d’OpenAI. Leur efficacité serait particulièrement notable pour comprendre différents accents, filtrer les bruits de fond et gérer les variations de vitesse de parole. Sur le benchmark FLEURS, qui évalue la transcription dans plus de 100 langues, ces modèles affichent de meilleurs résultats que les versions précédentes et surpassent même certaines solutions concurrentes.

Une personnalisation vocale poussée

La vraie nouveauté vient du modèle GPT-4o-mini-tts. Celui-ci permet aux développeurs de modifier non seulement ce que l’IA dit, mais aussi comment elle le dit. Grâce à une technologie appelée steerability, ils peuvent demander au modèle de parler sur un ton joyeux, calme ou même excentrique, en fonction de l’usage souhaité. Cette option pourrait être particulièrement utile pour le service client ou la narration audio. OpenAI a aussi lancé une plateforme de démonstration appelée OpenAI.fm, qui permet aux utilisateurs de tester ces nouvelles voix et d’explorer leurs différentes options de personnalisation. Vous pouvez y faire un saut, c’est accessible à tous.

Des prix accessibles

Ces nouveaux modèles sont disponibles via l’API d’OpenAI à des tarifs plutôt abordables. GPT-4o-transcribe est proposé à environ 0,6 cent par minute, alors que GPT-4o-mini-transcribe coûte environ 0,3 cent par minute. De son côté, GPT-4o-mini-tts affiche un coût d’environ 1,5 cent par minute. L’implémentation de ces modèles dans les agents existants est aussi simplifiée grâce à une mise à jour de l’Agents SDK, qui permet aux développeurs d’ajouter une fonctionnalité vocale en seulement neuf lignes de code.

OpenAI prévoit d’améliorer encore ses modèles vocaux, en particulier en développant des options pour créer des voix personnalisées, et en garantissant une sécurité d’utilisation optimale. L’entreprise travaille aussi sur l’intégration de ses modèles audio à d’autres formats comme la vidéo, avec l’ambition de proposer des interactions IA de plus en plus réalistes.