
Une étude récente, soutenue par Apple et réalisée en collaboration avec l’Université Aalto en Finlande, présente ILuvUI : un modèle de vision-langage conçu pour comprendre les interfaces des applications mobiles à partir de captures d’écran et de conversations en langage naturel. Voici ce que cela implique et comment cela a été réalisé.
ILuvUI : UNE IA PERFORMANTE
Dans l’article scientifique ILuvUI: Instruction-tuned LangUage-Vision modeling of UIs from Machine Conversations, les chercheurs s’attaquent à un défi de longue date en interaction homme-machine (IHM) : apprendre aux modèles d’IA à raisonner sur les interfaces utilisateur comme le font les humains, c’est-à-dire à la fois visuellement et sémantiquement.
“Comprendre et automatiser des actions sur des UIs est une tâche complexe puisque les éléments d’interface d’un écran, comme les éléments de liste, les cases à cocher et les champs de texte, encodent plusieurs couches d’informations au-delà de leurs affordances pour l’interactivité.”
Actuellement, comme l’expliquent les chercheurs, la plupart des modèles vision-langage sont formés sur des images naturelles, comme des chiens ou des panneaux de signalisation, ce qui limite leur performance lorsqu’il s’agit d’interpréter des environnements plus structurés, comme les UIs d’application.
UNE FORMATION SPÉCIFIQUE AUX UIs
Afin de surmonter cette lacune, l’équipe a peaufiné le modèle VLM open-source LLaVA et adapté sa méthode de formation pour se spécialiser dans le domaine des UIs. Ils l’ont formé sur des image-texte générés de manière synthétique en suivant quelques “exemples en or”. Le jeu de données final contenait des interactions de style question-réponse, des descriptions d’écran détaillées, des résultats d’actions prévus et même des plans en plusieurs étapes (comme “comment écouter le dernier épisode d’un podcast” ou “comment modifier les paramètres de luminosité”).
Une fois formé sur ce jeu de données, le modèle ILuvUI a réussi à dépasser l’original LLaVA tant dans les benchmarks machine que dans les tests de préférence humaine.
UNE MEILLEURE INTÉGRATION DES CONTEXTES
De plus, ILuvUI n’exige pas que l’utilisateur spécifie une région d’intérêt dans l’interface. Au contraire, le modèle comprend l’intégralité de l’écran de manière contextuelle à partir d’une simple invite :
ILuvUI (…) n’a pas besoin d’une région d’intérêt et accepte une invite textuelle en plus de l’image de l’interface, ce qui lui permet de fournir des réponses pour des cas d’utilisation tels que la réponse à des questions visuelles.
QUELS AVANTAGES POUR LES UTILISATEURS ?
Les chercheurs d’Apple estiment que leur approche pourrait être utile pour l’accessibilité, ainsi que pour le test automatisé des UIs. Ils notent également que bien qu’ILuvUI repose encore sur des composants ouverts, des travaux futurs pourraient impliquer des encodeurs d’images plus grands, une meilleure gestion des résolutions et des formats de sortie travaillant en harmonie avec les cadres UI existants, comme JSON.
Si vous avez suivi les recherches en IA d’Apple, vous vous rappelez peut-être d’une récente étude sur la capacité des modèles d’IA à anticiper les conséquences des actions dans les applications. En combinant ces deux avancées, les usages de l’accessibilité pourraient devenir encore plus intéressants, tout comme la possibilité pour l’OS de gérer de manière autonome les aspects les plus complexes de votre expérience d’application.