Actualité

IA

Claude Mythos : Anthropic a laissé fuiter son propre monstre et ce n’est pas rassurant

Par Jérémy FDIDA - Publié le

Un brouillon de blog laissé en accès public. Près de 3 000 documents internes indexables par Google. Et au milieu de ce bazar : la confirmation qu'Anthropic développe en ce moment le modèle d'IA le plus puissant qu’il n’ait jamais construit au point que l’entreprise ne voulait pas encore le lâcher.

Claude Mythos : Anthropic a laissé fuiter son propre monstre et ce n’est pas rassurant


Jeudi 27 mars 2026 restera dans les annales d'Anthropic comme le jour où une erreur de configuration de CMS a forcé l'un des labos d'IA les plus influents au monde à révéler ce qu'il voulait encore garder sous le coude. L'affaire a été révélée en exclusivité par Fortune, et depuis, tout le monde en parle, avec des réactions allant de l'excitation pure au malaise légitime.

C'est quoi, un modèle d'IA ? (Pour ceux qui débarquent)



Avant d'aller plus loin, une mise à niveau rapide. Un modèle d'IA, dans le contexte dont on parle ici, c'est un programme entraîné sur des quantités astronomiques de données (des milliards de pages du web, de livres, de code, d'articles scientifiques). Cet entraînement lui permet d'apprendre des patterns statistiques dans le langage : quand vous lui donnez une phrase, il prédit la suite la plus probable. C'est tout. Pas de conscience, pas de compréhension au sens humain du terme. Une machine à complétion de texte d'une sophistication inédite. La notion du bien et du mal n’existe pas non plus.

Claude Mythos : Anthropic a laissé fuiter son propre monstre et ce n’est pas rassurant


Ce qui différencie les modèles entre eux, c'est essentiellement leur taille (le nombre de paramètres, c'est-à-dire les variables internes ajustées pendant l'entraînement), la qualité et la quantité des données d'entraînement, et les techniques utilisées pour les affiner. Notamment le RLHF (Reinforcement Learning from Human Feedback ou apprentissage par renforcement à partir du retour d’information humain en français), qui consiste à faire noter les réponses par des humains pour orienter le modèle vers des outputs plus utiles et moins dangereux (le fameux : « Êtes-vous satisfait ? » ou « Est-ce que cela vous convient ? ») avec une réorientation de la réflexion selon votre réponse.

Mythos serait donc, selon les documents fuités, le modèle le plus grand et le mieux entraîné qu'Anthropic ait jamais produit. Un saut qualitatif sur les benchmarks (on croirait entendre une keynote Apple). Mais, et c'est là que ça devient intéressant, un saut qui reste dans les clous d'une certaine catégorie d'IA.

General Purpose AI vs AGI : ne pas confondre puissance et intelligence



C'est ici qu'il faut calmer le jeu avant que les titres anxiogènes ne prennent trop de place.
Mythos, comme tous les LLM (Large Language Model) actuellement disponibles au grand public (GPT, Gemini, Claude, Mistral, Grok, etc.), est ce qu'on appelle une General Purpose AI : une IA polyvalente. Elle peut écrire, coder, résumer, traduire, raisonner sur des problèmes complexes, analyser du code source à la recherche de failles. Elle excelle dans une très large palette de tâches. C'est impressionnant. C'est utile. C'est parfois déconcertant et ça effraie car ça remplace les humains sur de nombreuses tâches, mais plus par méconnaissance. Ces tâches sont souvent fastidieuses et nécessitent une relecture en profondeur pour éviter les erreurs.

Mais ce n'est pas une Artificial General Intelligence (AGI), une Intelligence Artificielle Générale. L'AGI, c'est le Graal théorique du domaine : un système qui serait capable de raisonner, d'apprendre et de s'adapter dans n'importe quel domaine inconnu, de manière autonome, avec une flexibilité comparable à celle de l'intelligence humaine. Un système qui pourrait fixer ses propres objectifs, transférer des compétences d'un champ à un autre sans avoir été explicitement entraîné pour ça, et potentiellement s'améliorer lui-même. C’est flippant, parce que dans ce cas, il est impossible de prévoir ce que fera l’IA. C’est littéralement Skynet, tandis qu’une General Purpose IA reste malgré tout prévisible.

Qu’on se rassure : personne n'en est encore là. Ni Anthropic, ni OpenAI, ni Google DeepMind. Les meilleurs LLM du moment donnent une illusion convaincante de compréhension, parce qu'ils ont ingéré tellement de textes humains qu'ils savent reproduire les cheminements de la pensée structurée. Mais sous le capot, c'est encore et toujours de la prédiction statistique. Mythos sera très probablement le modèle de prédiction statistique le plus puissant jamais construit. Ce n'est pas rien et c'est même considérable.

Mais ça n'est pas une entité qui "pense" au sens propre.

Ce n’est pas Skynet et même intégrée dans un personnage de GTA qui cherchera à vous descendre, elle finira par répondre à un modèle de fonctionnement et de raisonnement prévisible.

Flipper n’est pas joué (même si ça fait cliquer)



Cette distinction méritait une partie dans cet article. Parce que les risques cybersécurité que pointe Anthropic ne viennent pas d'une IA consciente qui déciderait de nuire. Ils viennent d'un outil extrêmement capable s’il est mis entre de mauvaises mains humaines. La menace est réelle, certes, mais elle est instrumentale, pas existentielle. Ce sont des humains qui l'utilisent pour faire « du mal », pas le modèle lui-même qui choisit de le faire.
Ce qui fait peur, c’est que cette notion de « mal » dépend du camp dans lequel on se trouve.

Ce qui a fuité, concrètement



Roy Paz, chercheur senior en sécurité IA chez LayerX Security, et Alexandre Pauwels, chercheur en cybersécurité à l'Université de Cambridge, ont découvert qu'Anthropic avait laissé traîner l'équivalent d'une armoire entière de documents internes dans un data store non sécurisé et indexable (qui peut figurer dans les index des moteurs de recherche et donc dans les pages de résultats de ces moteurs de recherche publiquement).

Ce sont environ 3 000 assets (images, fichiers PDF, fichiers audio, brouillons de billets de blog) accessibles à qui savait chercher et eux ont su.

Parmi ces documents, un projet d'article d'annonce pour un nouveau modèle baptisé Claude Mythos, également désigné sous le nom de code Capybara. Le document décrit un modèle qui surpasse tout ce qu'Anthropic a sorti jusqu'ici, y compris son meilleur modèle actuel, Claude Opus 4.6. The Information confirme par ailleurs qu'Anthropic discuterait en parallèle d'une introduction en bourse d'ici le quatrième trimestre 2026, ce qui donne une dimension supplémentaire à l'urgence de cette annonce.

Claude Mythos : Anthropic a laissé fuiter son propre monstre et ce n’est pas rassurant


L'explication technique de la fuite tient à leur outil de gestion de contenu : les fichiers uploadés sont publics par défaut à moins qu'un utilisateur ne change manuellement le paramètre que, vous l’avez deviné, personne n'a changé.

Résultat : des mois de drafts internes ont dormi là, visibles et crawlables (qui permet d’atteindre une page depuis plusieurs points d'entrée sur le site), jusqu'à ce que Fortune contacte Anthropic jeudi soir pour les prévenir. L'accès a été coupé dans la foulée.

Mythos et Capybara : késako ?


Capture d'écran du blog
Capture d'écran du blog


Deux noms pour presque un seul modèle. Selon les documents fuités, Capybara désigne un nouveau tier (palier) de modèles, situé au-dessus de la gamme Opus, elle-même jusqu'ici le sommet de la hiérarchie chez Anthropic. Mythos serait le premier modèle de ce tier. Plus puissant, plus cher, pas encore disponible en masse.
Chez Anthropic, les modèles sont classés en trois niveaux :

  • Haiku (petit, rapide, pas cher)
  • Sonnet (milieu de gamme)
  • Opus (le meilleur)


Capybara s'installerait donc au-dessus d'Opus, créant une nouvelle catégorie d'IA haut de gamme que l'entreprise n'avait pas encore officialisée.

Le brouillon fuité indique que Mythos obtient des scores "dramatiquement plus élevés" que Claude Opus 4.6 sur les tests de codage logiciel, de raisonnement académique et de cybersécurité. Un saut qualitatif comme le dit Anthropic dans sa communication officielle, pas une amélioration progressive.

Le truc qui devrait vraiment vous inquiéter



Oubliez la fuite un instant. Le vrai sujet, c'est ce qu'Anthropic a écrit dans ce brouillon sur les risques de son propre modèle.

La société reconnaît noir sur blanc que Mythos/Capybara est "actuellement bien en avance sur tout autre modèle d'IA en matière de capacités cyber" et qu'il "présage une vague imminente de modèles capables d'exploiter des vulnérabilités à une vitesse qui dépasse largement les efforts des défenseurs".

Traduction sans filtre : Anthropic a construit un outil qui, entre de mauvaises mains, pourrait permettre des cyberattaques à grande échelle quasi-automatisées, impossibles à contrer à temps avec les moyens actuels en misant sur des failles ZeroDay (des failles qui n’ont pas encore été découvertes par le concepteur ou fournisseur du code).

C'est la raison pour laquelle la stratégie de déploiement prévue est aussi restrictive : le modèle sera d'abord accessible uniquement aux équipes de cyberdéfense, pour leur donner de l'avance avant que les attaquants ne mettent la main dessus.

Ce n'est pas une posture de communication. OpenAI avait utilisé exactement le même discours en février dernier lors de la sortie de GPT-5.3-Codex, classé "high capability" pour les tâches cyber selon son propre Preparedness Framework (le premier modèle OpenAI directement entraîné pour identifier des vulnérabilités logicielles) Anthropic avait suivi la même semaine avec Opus 4.6, déjà capable de détecter des failles inconnues dans des codebases en production.

Les deux labos savent donc très bien ce qu'ils fabriquent. Et ils continuent. Parce qu'il y a tout un business et une infinité d'usages à l'influence économique d'ordre mondial derrière.

Quand les hackers s'invitent dans la conversation



Ce contexte n'est pas théorique. Anthropic a documenté un cas réel et inquiétant : un groupe lié au gouvernement chinois avait monté une campagne coordonnée utilisant Claude Code pour infiltrer une trentaine d'organisations (entreprises tech, institutions financières, agences gouvernementales). La société, qui a mis dix jours à comprendre la pleine étendue de l'opération, a banni les comptes impliqués et notifié les victimes. Dix jours. Avec le niveau Opus 4.6.

Maintenant imaginez Mythos dans les mains de ce même groupe...

C'est précisément pourquoi le déploiement en accès restreint aux défenseurs cyber n'est pas une coquetterie marketing mais une vraie nécessité opérationnelle (si Mythos tient ses promesses).

Donner aux attaquants et aux défenseurs le même outil en même temps reviendrait à armer les deux camps simultanément.

Donner aux attaquants et aux défenseurs le même outil en même temps reviendrait à armer les deux camps simultanément, avec l'avantage structurel du côté offensif, puisque trouver une faille est toujours plus rapide que la corriger.

La fuite dans la fuite : un séminaire secret et des congés parentaux



Parce que 3 000 documents, c'est beaucoup, la fuite a aussi exposé quelques à-côtés savoureux. Notamment le programme complet d'un séminaire privé et sur invitation, prévu au Royaume-Uni pour les PDG des entreprises européennes les plus influentes, avec Dario Amodeic (le PDG d'Anthropic) en personne. Le programme se déroulera dans un manoir du XVIIIe siècle reconverti en hôtel-spa dans la campagne anglaise.

Au programme, des discussions avec des législateurs sur l'adoption de l'IA et des démonstrations de capacités Claude inédites.

Il y avait aussi, paraît-il, le document de congé parental d'un employé quelconque. Un contraste assez fou de l'importance des données.

On en dit quoi ?

Anthropic est une société qui se présente depuis sa fondation comme préférant la sécurité. Mais être précautionneux n’empêche pas de fermer la porte de chez soi en laissant les clés à l’intérieur.

Dans le cas présent, ce sont 3 000 documents internes laissés accessibles au public par une erreur de configuration basique. Ils ont construit un modèle dont ils admettent eux-mêmes qu'il pourrait armer la prochaine génération de cyberattaques massives. Et ils ont apparemment planifié son lancement comme n'importe quel autre produit, avec un brouillon de blog et une date de publication.

Mythos n'est pas une AGI. Il ne "pense" pas, il ne conspire pas, il n'a pas de plan. C'est un outil statistique d'une puissance sans précédent. Mais c’est déjà suffisamment sérieux pour qu'on s'y attarde, surtout dans le cadre d’une automatisation de recherche de failles et de cyberattaques. La vigilance a ses limites. Et quand même la société qui se définit par sa prudence finit par laisser fuiter accidentellement l'existence de son modèle le plus dangereux, on est en droit de se demander si la course à la puissance n'est pas déjà en train de dépasser, dans les faits, tous les discours sur la sécurité.

Mythos, dans la mythologie grecque, c'est le récit fondateur. La narration qui donne sens au monde. Anthropic vient, malgré elle, d'ouvrir le chapitre suivant. C’est à la fois terrifiant mais, avouons-le, également excitant.