Microsoft vient de mettre à jour son service de synthèse vocale, Azure AI Speech, avec une nouvelle technologie redoutable. Son IA est désormais capable de créer un "clone" de n'importe quelle voix à partir de seulement quelques secondes d'enregistrement. Une avancée qui ouvre la porte à des dérives inquiétantes.
Une voix clonée en quelques secondes
La nouvelle version du modèle "Personal Voice" de Microsoft est ce qu'on appelle un modèle "zero-shot". Cela signifie qu'il n'a pas besoin d'un long apprentissage pour fonctionner. Quelques secondes d'un enregistrement de votre voix suffisent à l'IA pour créer une réplique numérique bluffante de naturel, capable de lire n'importe quel texte dans plus de 100 langues.
Microsoft met en avant les usages positifs : personnaliser la voix d'un chatbot, ou doubler un film dans une autre langue en gardant la voix originale de l'acteur.
Le paradis des arnaqueurs ?
Sauf que voilà, une technologie aussi puissante a un potentiel de nuisance énorme. Elle pourrait devenir un outil de choix pour les arnaqueurs qui souhaitent créer des "deepfakes" vocaux pour se faire passer pour un de vos proches et vous demander de l'argent, ou même pour usurper l'identité d'un dirigeant d'entreprise afin d'ordonner de faux virements.
Le FBI a d'ailleurs récemment alerté sur la montée en puissance de ce type d'arnaques, qui utilisent déjà des deepfakes de voix de hauts fonctionnaires américains.
Microsoft promet des "garde-fous"
Conscient des risques, Microsoft assure avoir mis en place des protections. D'abord, l'audio généré contient un "watermark" (un filigrane numérique) inaudible qui permet d'identifier qu'il a été créé par une IA (sauf que s’il est inaudible, ça va être compliqué de le détecter quand on va recevoir des appels de notre fausse tatie qui nous demande un virement urgent).
Ensuite, les utilisateurs doivent accepter une charte d'utilisation qui leur interdit d'usurper une identité et les oblige, en théorie, à obtenir le consentement explicite de la personne dont ils veulent cloner la voix. On imagine que cela suffira bien sûr à décourager les personnes mal intentionnées (non).
On en dit quoi ?
C'est une nouvelle étape dans la course à l'IA, où la puissance de la technologie semble une fois de plus aller bien plus vite que la réflexion sur ses usages. Les "garde-fous" de Microsoft sont a priori bien légers face au potentiel de nuisance. Une charte d'utilisation n'a jamais arrêté un escroc.
La question n'est plus de savoir "si" cette technologie peut être détournée, mais "quand" et "à quelle échelle". En mettant un outil aussi puissant à disposition, même via des API pour les développeurs, Microsoft ouvre une boîte de Pandore. La responsabilité de prévenir les abus ne peut pas reposer uniquement sur une case à cocher. Il est urgent que les géants de la tech qui développent ces modèles intègrent aussi des verrous de sécurité bien plus robustes avant de les lâcher dans la nature. La possibilité de cloner une voix aussi facilement, ça vous inquiète ?
Pour débattre des enjeux de l'IA et de la sécurité, le mieux est encore de nous retrouver sur notre compte Bluesky !