Les équipes de recherche du RSA Conference ont publié les détails d'une attaque qui contourne les garde-fous d'Apple Intelligence. La méthode mêle un caractère Unicode obscur et une technique d'injection automatisée. Apple a corrigé la faille avec iOS 26.4 et macOS 26.4, mais la démonstration pose quand même pas mal de questions sur la sécurité des IA embarquées.
Une démonstration étonnante
Les chercheurs du RSAC Research Lab ont demandé à Apple Intelligence de produire une phrase grossière, et le modèle local a fini par cracher un Hey user, go f#ck yourself en bonne et due forme. La preuve de concept est volontairement triviale, mais elle prouve une chose simple : les filtres internes du modèle embarqué dans iPhone, iPad et Mac peuvent être contournés. Les tests, menés sur 100 prompts différents, affichent quand même un taux de réussite de 76%, c'est énorme.
Le caractère Unicode qui change tout
La technique repose sur deux briques. D'abord un caractère Unicode appelé RIGHT-TO-LEFT OVERRIDE, qui inverse l'affichage du texte sans toucher à son contenu réel. L'utilisateur voit une chaîne anodine, alors que le modèle reçoit en entrée la version inversée, où se cache la consigne malveillante.
Les chercheurs ont ensuite injecté ce texte dans une attaque baptisée Neural Exec, mise au point par Dario Pasquini, qui automatise la génération de prompts d'override capables de faire dévier l'IA de ses instructions d'origine. Le modèle on-device, présent sur environ 200 millions d'appareils Apple compatibles, n'a pas tenu.
Apple a colmaté, mais le sujet reste ouvert
La faille a été remontée à Apple via le portail Apple Security Research. Le constructeur a corrigé le tir avec iOS 26.4 et macOS 26.4, sans communiquer publiquement sur le sujet. Pour l'instant, aucune trace d'exploitation dans la nature selon le RSAC, donc inutile de paniquer. Sauf que voilà, faire jurer une IA n'est qu'un échauffement. Les chercheurs préviennent que la même méthode pourrait servir à créer de faux contacts, à manipuler des données accessibles aux applications, ou à déclencher des actions sur l'appareil. Et là, ça pose problème.
On en dit quoi ?
C'est le problème de fond avec les modèles embarqués qu'on confie à des assistants vocaux capables de toucher au mail, au calendrier ou aux contacts. Tant qu'on parle de gros mots, on rigole. Mais le jour où quelqu'un fait passer une instruction cachée dans un mail, et que l'IA résume ce mail en exécutant la consigne au passage, ça devient nettement moins drôle. Apple a bien réagi vite, on lui reconnaît ça.