
Des chercheurs d’Apple ont récemment dévoilé un modèle d’agent d’intelligence artificielle, nommé Ferret-UI Lite, capable d’interagir avec les applications directement sur les appareils, et ce, malgré sa taille réduite de 3 milliards de paramètres. Ce modèle rivalise avec des agents d’IU beaucoup plus volumineux, affichant des performances égales, voire supérieures, à celles de modèles jusqu’à 24 fois plus grands.
Un peu de contexte sur Ferret : En décembre 2023, une équipe de neuf chercheurs a publié une étude intitulée « FERRET : Refer and Ground Anything Anywhere at Any Granularity ». Ce document présentait un modèle multimodal de langage à grande échelle capable de comprendre des références en langage naturel liées à des parties spécifiques d’une image. Depuis, plusieurs extensions de ce modèle ont été proposées, y compris Ferretv2 et Ferret-UI.
Le modèle Ferret-UI a été spécifiquement conçu pour surmonter certaines limites des modèles de langage généralistes. Selon les chercheurs, bien que des avancées aient été réalisées dans les modèles de langage multimodaux, ceux-ci peinent souvent à interagir efficacement avec les écrans d’interface utilisateur. Ferret-UI a été développé pour remédier à cela, en intégrant des capacités de référençage, de repérage et de raisonnement adaptées aux écrans mobiles.
Récemment, Apple a élargi sa famille de modèles avec l’introduction de Ferret-UI Lite, un modèle léger confectionné pour fonctionner directement sur les appareils tout en restant concurrentiel par rapport à de nombreux agents d’interface plus complexes. Les chercheurs notent que les méthodes existantes d’agents GUI sont généralement axées sur des modèles fondamentaux plus grands, ce qui entraîne des limitations de performances pour des systèmes fonctionnant localement.
Ferret-UI Lite utilise une combinaison de données d’entraînement réelles et synthétiques pour améliorer sa compréhension des différentes interfaces. Il intègre également des techniques de recadrage et de zoom en temps réel pour mieux appréhender les éléments clés des IUs. Cette approche permet au modèle de compenser ses capacités limitées en traitant de grandes quantités de tokens d’image.
Une autre innovation intéressante pliant à Ferret-UI Lite est sa capacité à générer des données d’entraînement via un système multi-agent qui interagit directement avec des interfaces GUI en temps réel, créant ainsi des exemples syntétiques à grande échelle. La robustesse du modèle se traduit par sa capacité à effectuer des tâches simples avec efficacité, tout en étant limité dans des interactions plus complexes étant donné sa taille.
Malgré cette contrainte, Ferret-UI Lite représente une avancée remarquable. Son fonctionnement local permet d’assurer une certaine confidentialité, puisque les données des utilisateurs ne nécessitent pas d’être envoyées vers le cloud pour traitement. Une fonctionnalité bien accueillie par les utilisateurs dans un monde où la préservation de la vie privée est de plus en plus valorisée.