Grok va vous regarder dans les yeux (ou presque)

Par Laurence - Publié le 24 avril 2025 à 08h44

0 commentaire

L’IA Grok -développée par la société xAI d'Elon Musk- élargit ses capacités avec une nouvelle fonctionnalité baptisée Grok Vision. Révélée le 23 avril 2025, cette technologie permet à l’IA d’analyser en temps réel les images filmées avec la caméra du téléphone sur lequel elle est installée. À l’instar de ce que proposent déjà OpenAI avec ChatGPT Live Camera ou Google avec Gemini Live.

Une IA qui voit (et commente) le monde en temps réel

Par une formule laconique sur X, xAI a présenté Grok Vision. La fonction permet désormais de reconnaître objets, scènes, textes ou éléments du quotidien via l’appareil photo du smartphone. En filmant simplement son environnement, l’utilisateur peut demander à Grok des informations en direct -qu’il s’agisse d’un panneau, d’un produit, d’un document ou même d’un paysage.

Une internaute a par exemple demandé à Grok de décrire son jardin, en temps réel, tout en discutant oralement avec l’IA. Au passage, Grok Voice s'est aussi amélioré : l’assistant est désormais capable de converser vocalement dans plusieurs langues, dont le français, l’espagnol, le turc, le japonais et le hindi, comme l’a confirmé Ebby Amir, ingénieur chez xAI.

Uniquement sur iPhone… pour l’instant

Grok Vision est actuellement disponible exclusivement sur iOS. La fonctionnalité est pour l’instant restreinte à certains marchés, probablement en raison de considérations réglementaires (notamment liées à la protection des données visuelles). xAI n’a pas encore précisé la date d’un éventuel déploiement sur Android, ni en Europe.

Comme ses concurrents, xAI mise sur une interaction multimodale fluide entre l’utilisateur et l’IA. La caméra devient ici un nouveau canal de perception, au même titre que le micro ou le clavier.

Une fonction qui rappelle ChatGPT et Gemini

Grok Vision n’est pas une révolution, d'autres IA ont déjà ouvert la voie. OpenAI a intégré Live Camera à ChatGPT dès décembre 2024, et Google propose Gemini Live à ses abonnés payants depuis mars 2025. Ces IA peuvent elles aussi interpréter une scène filmée en direct tout en maintenant une conversation contextuelle.

La différence, selon les premières démonstrations, se joue sur la fluidité du dialogue et la rapidité de l’analyse visuelle. xAI revendique une approche plus personnalisée, censée mieux s’adapter aux besoins quotidiens des utilisateurs. La fonction balaierait un large spectre allant du simple décryptage d’un texte à l’analyse de scènes complexes. Dans tous les cas, xAI confirme sa volonté de faire de son assistant un véritable compagnon numérique, capable de voir, comprendre et interagir avec le monde physique de l’utilisateur.