Actualité

IA

GPT-4o : On a testé la toute nouvelle génération d’images de ChatGPT face à Grok, c'est surprenant !

Par Vincent Lautier - Publié le

Depuis quelques heures, OpenAI déploie une nouvelle version de GPT-4o, un modèle multimodal qui permet de générer et modifier des images directement via ChatGPT. Accessible gratuitement, cette mise à jour promet des visuels détaillés et des textes intégrés précis. Nous l’avons comparée au modèle Grok de xAI pour voir ce qu’elle vaut vraiment.

Ce visuel a été généré par OpenAI sur le nouveau modèle
Ce visuel a été généré par OpenAI sur le nouveau modèle


GPT-4o : Un outil ouvert à tous



OpenAI a lancé une mise à jour importante de ChatGPT en y intégrant la génération d’images via son modèle GPT-4o. Contrairement à DALL-E 3 qu’il remplace, GPT-4o est disponible pour tous les utilisateurs de ChatGPT, y compris ceux du plan gratuit, avec une limite de trois images par jour. Les abonnés aux plans Plus, Pro et Team disposent de quotas plus élevés pour une utilisation plus intensive.

Ce nouveau modèle est conçu pour associer texte et image de manière cohérente. Au lieu d’utiliser une technique de diffusion classique qui génère une image en une fois, GPT-4o adopte une approche autoregressive, construisant les visuels progressivement. Cela permet une meilleure précision dans les détails et une amélioration du rendu textuel, particulièrement utile pour les panneaux ou les enseignes affichant des mots.

Entraîné sur des données publiques et des partenariats privés comme Shutterstock, GPT-4o cherche à offrir des images plus réalistes et surtout plus cohérentes. OpenAI affirme avoir renforcé la sécurité de son modèle en intégrant des métadonnées C2PA pour identifier les images générées par l’IA. Des mesures sont aussi en place pour éviter les contenus inappropriés, en particulier ceux impliquant des personnes réelles.

GPT-4o : On a testé la toute nouvelle génération d’images de ChatGPT face à Grok, c'est surprenant !


Fonctionnalités et intégration



GPT-4o est désormais intégré à Sora, l’outil de génération vidéo d’OpenAI, ce qui permet d’utiliser le modèle à la fois pour la création d’images fixes et de contenus multimédia. OpenAI indique également que le modèle est capable de traiter des requêtes complexes impliquant plusieurs objets distincts, jusqu’à une vingtaine, sans perdre en précision.

L’outil est censé mieux rendre les textes intégrés aux images que ses prédécesseurs, une faiblesse souvent relevée dans les IA de génération d’images. Notez aussi que désormais, GPT-4o est capable de générer des images transparentes pour des logos ou des stickers, mais aussi de travailler à partir d’images téléchargées par l’utilisateur.

GPT-4o : On a testé la toute nouvelle génération d’images de ChatGPT face à Grok, c'est surprenant !


Comparaison avec Grok de xAI



Pour tester GPT-4o, nous l’avons comparé au modèle Grok de xAI, réputé pour sa qualité de génération d’images mais critiqué pour sa gestion imparfaite des textes. Trois prompts ont été utilisés pour évaluer les performances des deux modèles :

Prompt 1 : Génère-moi une image d’une femme avec un panneau dans la main où il y a écrit Coucou vive Mac4Ever.

ChatGPT
ChatGPT


Grok
Grok


Prompt 2 : Génère-moi la photo d’une rue de type écossaise avec des magasins, dont un magasin avec une enseigne qui s’appelle Mac4Ever Shop.

ChatGPT
ChatGPT


Grok
Grok


Prompt 3 : Génère-moi la photo d’une jeune femme sur la plage en maillot de bain, sur elle tient une feuille de papier avec marqué Didier j’te kiffe dessus.

ChatGPT
ChatGPT


Grok
Grok


Les images générées par chaque modèle sont globalement très bonnes, en particulier dans la qualité d’intégration du texte aux visuels. GPT-4o affiche peut-être une meilleure cohérence dans le rendu des textes, là, mais dans tous les cas ça semble très bien.

Généré par OpenAI
Généré par OpenAI


Limites et potentiel



GPT-4o présente encore quelques défauts. L’outil peine parfois à gérer des requêtes extrêmement détaillées ou à éditer précisément certaines parties d’images, en particulier les visages ou les textes multilingues. Quoi qu’il en soit, les résultats sont globalement plus cohérents que ceux obtenus avec les générations précédentes.

En matière de sécurité, OpenAI indique que des filtres renforcés sont en place pour bloquer les contenus inappropriés, en particulier ceux impliquant la nudité ou la violence graphique. Les images générées sont automatiquement marquées par des métadonnées permettant de vérifier leur origine.

Avec cette nouvelle fonctionnalité, OpenAI positionne donc GPT-4o comme un outil multimodal capable de rivaliser avec les meilleurs modèles de génération d’images. L’intégration du texte aux images est plus précise, et la technologie s’avère capable de traiter des requêtes complexes avec un certain succès.