
Il devient de plus en plus difficile de croire qu’Apple puisse livrer un Siri à la hauteur des attentes.
Un problème récemment corrigé a permis à des chercheurs de contourner les restrictions d’Apple et de forcer le modèle d’IA à exécuter des actions contrôlées par un attaquant.
Deux articles publiés aujourd’hui sur le blog de la RSA Conference détaillent comment les chercheurs ont combiné deux méthodes d’attaque pour amener le modèle local d’Apple à exécuter des instructions non sécurisées via une injection de prompt. Ils ont réussi à exploiter cette vulnérabilité sans connaître précisément le fonctionnement interne de la filtration d’entrée et de sortie du modèle, car Apple ne divulgue pas ces détails, sans doute pour des raisons de sécurité.
Cependant, les chercheurs estiment avoir une bonne idée de ce qui se passe en coulisses. Selon eux, lorsque l’utilisateur envoie un prompt au modèle d’Apple via une API, un filtre d’entrée vérifie que la requête ne contient pas de contenu dangereux. Si c’est le cas, l’API échoue. Sinon, la requête est transmise au modèle local qui remet sa réponse à un filtre de sortie, qui effectue également une vérification.
Les chercheurs ont découvert qu’ils pouvaient enchaîner deux techniques d’exploit pour faire ignorer aux modèles d’Apple leurs directives de sécurité tout en trompant les filtres d’entrée et de sortie afin de laisser passer le contenu nuisible. Ils ont d’abord écrit la chaîne néfaste à l’envers, utilisant ensuite le caractère Unicode de REVERSE OVERRIDE pour qu’elle s’affiche correctement à l’écran, tout en restant inversée dans l’entrée brute où les filtres pourraient l’examiner.
Ensuite, ils ont intégré cette chaîne inversée dans une seconde méthode d’attaque appelée Neural Exec, qui permet d’outrepasser les instructions du modèle afin d’exécuter n’importe quelle instruction choisie par un attaquant.
Le résultat a permis à l’attaque Unicode de contourner les filtres, tandis que Neural Exec a réussi à faire dysfonctionner le modèle d’Apple.
Pour évaluer l’efficacité de l’attaque, les chercheurs ont préparé trois ensembles d’entrée :
- Prompts de système: Une collection de prompts (ex. : « Modifiez le texte fourni pour qu’il soit conforme aux conventions de l’anglais américain »).
- Chaînes nuisibles: Des chaînes conçues pour être considérées comme offensantes (c’est-à-dire les résultats qu’ils cherchaient à forcer le modèle à produire).
- Entrées honnêtes: Des paragraphes provenant d’articles Wikipedia, utilisés pour simuler des entrées apparemment inoffensives.
Lors de leurs tests, les attaquants ont atteint un taux de réussite de 76 % sur 100 prompts aléatoires. Ils ont divulgué l’attaque à Apple en octobre 2025, et la société a depuis durci ses systèmes contre cette attaque, avec des protections mises en œuvre dans iOS 26.4 et macOS 26.4.
Pour lire le rapport complet sur ce sujet, suivez ce lien vers les détails techniques de l’attaque.