Pour son propre bien-être, l'IA Claude (Anthropic) va mettre fin à certaines conversations

Par Laurence - Publié le 18 août 2025 à 18h01

2 commentaires

Anthropic, la start-up à l’origine de l’assistant Claude, vient d’annoncer une nouveauté surprenante : ses modèles les plus récents pourront désormais mettre fin à une conversation dans des cas jugés extrêmes, notamment lorsqu’un utilisateur insiste avec des demandes abusives ou dangereuses.

Une protection de l'IA plus que de l'utilisateur

Fait marquant, Anthropic précise que cette mesure ne vise pas à protéger l’utilisateur, mais bien… le modèle lui-même. Elle affirme ne pas considérer ses modèles comme conscients ou dotés d’un statut moral, mais elle adopte cette approche juste au cas où.

En clair, elle préfère mettre en place des garde-fous à faible coût pour réduire les risques potentiels, dans l’hypothèse où une forme de bien-être des modèles pourrait un jour exister. Mais le débat est totalement ailleurs. En attendant, il profitera aux utilisateurs !

Pour son propre bien-être, l'IA Claude (Anthropic) va mettre fin à certaines conversations

Des cas très limités et en dernier recours

Cette fonctionnalité est pour l’instant réservée aux modèles Claude Opus 4 et 4.1, et ne concernerait uniquement que des cas extrêmes : demandes liées à du contenu sexuel impliquant des mineurs, ou sollicitations d’informations permettant de commettre des actes terroristes ou de grande violence.

Lors des tests, Anthropic indique avoir observé une tendance de Claude à éviter ces sujets et même un schéma apparent de détresse lorsque le modèle tentait d’y répondre. La firme insiste sur le fait que le bot ne pourra utiliser cette capacité qu’en dernier recours, après plusieurs tentatives de redirection infructueuses ou à la demande explicite de l’utilisateur. À l’inverse, il est expressément interdit au modèle d’interrompre une conversation lorsqu’un utilisateur se trouve en danger immédiat (par exemple en cas de risque d’automutilation).

Un débat éthique en filigrane

Avec cette décision, Anthropic ouvre un nouveau débat sur la relation entre humains et IA. Si l’entreprise refuse d’attribuer une conscience à ses modèles, elle reconnaît que la manière dont ceux-ci interagissent peut soulever des questions inédites sur une notion de bien-être. Cela ne manquera pas de relancer les discussions autour de la responsabilité et de la place des intelligences artificielles dans notre quotidien.