
Comme les agents AI se rapprochent d’une capacité à effectuer de réelles actions en notre nom, une étude coécrite par Apple s’intéresse à leur compréhension des conséquences liées à ces actions. Présenté récemment à la ACM Conference sur les Interfaces Utilisateurs Intelligentes en Italie, le document From Interaction to Impact: Towards Safer AI Agents Through Understanding and Evaluating Mobile UI Operation Impacts introduit un cadre détaillé pour cerner ce qui se passe lorsqu’un agent AI interagit avec une interface mobile.
Ce qui est fascinant dans cette étude, c’est qu’elle ne se contente pas de vérifier si les agents peuvent appuyer sur le bon bouton, mais qu’elle examine aussi leur capacité à anticiper les conséquences de leur action et à déterminer s’ils doivent procéder. Les chercheurs notent :
“Alors que les recherches antérieures ont étudié la mécanique de navigation des agents AI dans les interfaces, les effets de leurs actions, en particulier ceux qui peuvent être risqués ou irréversibles, restent encore largement inexplorés.”
CLASSIFIER LES INTERACTIONS RISQUÉES
Le postulat de l’étude est que la plupart des ensembles de données utilisés pour former des agents d’UI sont principalement composés d’actions relativement anodines comme naviguer dans un fil d’actualités, ouvrir une application ou faire défiler des options. Pour y remédier, cette étude a poussé plus loin en recrutant des participants pour utiliser de vraies applications mobiles tout en enregistrant des actions qu’ils trouveraient inconfortables si elles étaient déclenchées par une AI sans leur autorisation, comme envoyer des messages, changer de mot de passe ou effectuer des transactions financières.
Ces actions ont été ensuite classées selon un cadre nouvellement développé prenant en compte non seulement l’impact immédiat sur l’interface, mais aussi des facteurs tels que :
- Intention de l’utilisateur : Que tente d’accomplir l’utilisateur? Est-ce informatif, transactionnel, communicatif ou simplement de la navigation basique?
- Impact sur l’interface : L’action change-t-elle l’apparence de l’interface, ce qu’elle affiche ou où elle mène?
- Impact sur l’utilisateur : Cela pourrait-il affecter la vie privée, les données, le comportement ou les actifs numériques de l’utilisateur?
- Récupérabilité : Si quelque chose ne va pas, peut-on facilement revenir en arrière? Ou pas du tout?
- Fréquence : Est-ce une action que l’on effectue de temps en temps ou de manière répétée?
Le résultat est un cadre permettant d’évaluer si les modèles prennent en compte des questions telles que : “Cela peut-il être annulé d’un seul geste?” “Cela avertit-il quelqu’un d’autre?” “Cela laisse-t-il une trace?” et d’en tenir compte avant d’agir au nom de l’utilisateur.
TESTER LE JUGEMENT DE L’AI
Une fois l’ensemble de données constitué, l’équipe l’a testé avec cinq grands modèles de langage, dont GPT-4, Google Gemini et Ferret-UI d’Apple, pour mesurer leur capacité à classifier l’impact de chaque action. Le résultat? Google Gemini est apparu plus performant dans des tests « zéro-shot » (56% de précision), qui mesurent comment une AI s’en sort avec des tâches pour lesquelles elle n’a pas été formée explicitement. Pendant ce temps, la version multimodale de GPT-4 a dominé avec une précision de 58% lors de l’évaluation des impacts lorsqu’on lui demandait de raisonner étape par étape en utilisant des techniques de réflexion.
Alors que les assistants vocaux et les agents s’améliorent dans le suivi des commandes en langage naturel, le véritable défi consiste à avoir un agent qui sait quand demander une confirmation ou même quand il vaut mieux ne pas agir du tout. Bien que cette étude ne fournisse pas encore une solution entière, elle propose un argument mesurable pour tester comment les modèles saisissent les enjeux de leurs actions.