Le laboratoire Kyutai -soutenu par Xavier Niel et Iliad- continue de faire évoluer son IA vocale Moshi avec une nouvelle avancée : MoshiVis. Cette technologie inédite permet à Moshi d’analyser des images tout en maintenant une conversation fluide, une première pour une IA vocale en open-source.
Quand Moshi commence à voir et à parler
L’ambition de Kyutai est claire : rendre l’IA vocale encore plus interactive et accessible. Avec MoshiVis, l’assistant ne se contente plus d’écouter et de répondre, il peut aussi interpréter les images qu'on lui montre. L’idée est d’associer vision et dialogue, tout en maintenant une faible latence pour des interactions naturelles.
D’un point de vue technique, MoshiVis repose sur l’encodeur de vision de PaliGemma2-3B-448 et utilise des modules d’attention croisée pour fusionner informations visuelles et compréhension vocale. Autrement dit, l’IA ne va pas seulement décrire une image, elle s’appuie sur un contexte conversationnel pour affiner ses réponses.
Une approche innovante pour entraîner l’IA
Plutôt que d’utiliser une quantité massive de données audio, MoshiVis adopte une stratégie plus maligne. Techniquement, il va intégrer des modules légers d'attention croisée qui vont infuser des informations visuelles à partir d'un codeur visuel existant. L’IA va alors générer des dialogues interactifs à partir d’images avec l’aide de modèles Mistral Nemo et s’entraîner en analysant du texte existant, limitant ainsi son besoin en données vocales.
Les premiers résultats sont prometteurs : MoshiVis affiche des performances comparables aux modèles spécialisés sur des tests tels que OCR-VQA, VQAv2 et COCO.
Une IA plus bavarde mais plus descriptive
Côté expérience utilisateur, MoshiVis privilégie des réponses détaillées et naturelles. Ce choix entraîne parfois des scores inférieurs sur certains indicateurs classiques de précision, mais l’interaction gagne en fluidité et en spontanéité.
L’objectif est désormais d’ouvrir de nouvelles perspectives pour Moshi, notamment dans des contextes où les données vocales sont limitées. Kyutai propose MoshiVis en accès libre (sur inscription par email). Les utilisateurs peuvent soumettre une image et échanger avec l’IA, même si l’anglais reste pour l’instant la seule langue prise en charge.