C’est une manœuvre qui ne passe pas inaperçue dans le petit monde de l’intelligence artificielle : Meta est accusée d’avoir joué les illusionnistes en envoyant une version spéciale de son modèle Llama 4 sur le site de benchmark LMArena. Le but ? Séduire les votants humains à coups de réponses bien léchées. Le problème ? Cette version n’était tout simplement pas celle que le public peut utiliser.
Une version custom
Sur LMArena, les modèles s’affrontent en duel via des prompts générés par les utilisateurs, qui votent ensuite pour la réponse qu’ils préfèrent. Ce n’est pas un test académique, mais plutôt un concours de popularité entre IA. Et c’est justement sur ce terrain que Meta aurait envoyé un modèle non public, nommé Llama-4-Maverick-03-26-Experimental. Plus bavard, plus fun, plus humain dans ses formulations, il a logiquement grimpé les échelons… au détriment des versions open source concurrentes. Pas exactement un jeu à armes égales.
Meta assume (plus ou moins)
Interrogée, Meta ne nie rien. Au contraire, un porte-parole explique qu’il s’agit simplement d’un chat optimized version. Comprenez : un prototype fait pour briller dans les conversations. Le modèle est bel et bien expérimental, mais comme souvent dans ce milieu, les nuances se perdent vite dans la communication. Le public, lui, s’attendait à ce que ce soit la même version que celle mise en ligne. Spoiler : ce n’est pas du tout le cas.
Une communication un peu floue
Sur X (ex-Twitter), Ahmad Al-Dahle, vice-président de l’IA générative chez Meta, a aussi tenté d’éteindre l’incendie. Non, Meta n’a pas entraîné Llama 4 sur des jeux de tests. Non, il n’y a pas eu triche intentionnelle. Mais oui, les performances varient énormément selon l’endroit où l’on teste les modèles, ce qui pourrait expliquer la déception de certains développeurs face au modèle officiel, jugé moins impressionnant que l’échantillon gratuit proposé à LMArena.
LMArena change les règles du jeu
Face à cette polémique, LMArena a décidé de réagir en publiant les résultats détaillés de plus de 2 000 duels et en modifiant ses règles pour éviter que d’autres modèles dopés à l’emoji ne viennent fausser le classement. Meta, de son côté, invite désormais les développeurs à tester eux-mêmes la version open source… et à faire leurs propres ajustements.