OpenAI sort deux nouvelles IA qui savent "raisonner" avec des images

Par Vincent Lautier - Publié le 17 avril 2025 à 10h35

0 commentaire

OpenAI lance ses modèles d'intelligence artificielle o3 et o4-mini, dotés d'une capacité de raisonnement avancée et d’analyse d’images. Ces modèles peuvent comprendre des croquis flous, utiliser tous les outils de ChatGPT et résoudre des problèmes complexes.

OpenAI sort deux nouvelles IA qui savent "raisonner" avec des images

Comprendre un croquis approximatif ? Pas un problème

OpenAI a donc présenté deux nouveaux modèles d’IA : o3, et sa version plus légère, o4-mini. Ces deux-là font partie d’une nouvelle génération dite “de raisonnement”. En clair, ils ne se contentent plus de répondre à des questions ou d’analyser du texte : ils sont capables de combiner plusieurs sources d’info – textes, images, diagrammes – et de les interpréter ensemble.

Ce qui change, c’est surtout leur capacité à comprendre une image même approximative. Un croquis mal scanné, un schéma griffonné ou un tableau scientifique flou peuvent désormais être intégrés directement dans leur raisonnement. Une avancée qui ouvre la porte à des usages plus techniques : maths, codage, sciences, et autres joyeusetés du genre.

Ces modèles savent se débrouiller tout seuls

Ce qui marque un vrai tournant, c’est leur autonomie. Les modèles o3 et o4-mini peuvent utiliser tous les outils intégrés à ChatGPT sans qu’on ait besoin de leur dire comment faire. Navigation web, exécution de code, analyse d’image, génération visuelle… tout est géré en interne.

Un exemple concret ? Le modèle peut analyser une affiche scientifique, faire une recherche web complémentaire, zoomer sur les parties importantes, et en tirer une conclusion qu’on ne lui a jamais explicitement donnée. Ce genre de fonctionnement dit “agentique” les rapproche d’une IA qui agit plutôt qu’une IA qui réagit.

Plus performants

Sur les bancs d’essai, les nouveaux modèles font mieux que leurs prédécesseurs. Le modèle o3 atteint 82,9 % sur le benchmark MMMU (raisonnement multimodal), contre 77,6 % pour le modèle o1. Le o4-mini, plus rapide et moins coûteux, reste très proche en termes de qualité, ce qui le rend plus adapté aux usages intensifs.

Ces modèles sont déjà accessibles via les offres Plus, Pro et Teams de ChatGPT, et aussi via l’API pour les développeurs. OpenAI en a profité pour lancer Codex CLI, un outil open source pour coder localement avec l’aide de l’IA.

Dans la foulée, une enveloppe d’un million de dollars a été mise de côté pour soutenir les projets qui veulent tirer parti de ces nouvelles capacités. Et histoire de rassurer tout le monde, OpenAI précise que les modèles ont été soumis à un programme de tests de sécurité appelé "Preparedness Framework".

Des avancées interessantes, mais on apprécierait qu’OpenAI simplifie et unifie un peu les noms de ces modèles, car c’est difficile de s’y retrouver…