
Apple continue d’explorer comment l’IA générative peut améliorer les processus de développement d’applications. Voici ce qu’ils envisagent.
Contexte
Il y a quelques mois, une équipe de chercheurs d’Apple a publié une étude intéressante sur l’entraînement de l’IA à générer du code d’interface utilisateur fonctionnel. Plutôt que de se concentrer sur la qualité du design, l’étude visait à s’assurer que le code généré par l’IA pouvait effectivement être compilé et correspondait vaguement aux attentes de l’utilisateur quant aux fonctionnalités et à l’apparence de l’interface.
Le résultat de cette recherche a été UICoder, un ensemble de modèles open-source dont vous pouvez lire davantage ici.
La nouvelle étude
Une partie de l’équipe responsable de UICoder a récemment publié un nouveau document intitulé Améliorer les modèles de génération d’interface utilisateur grâce aux retours des designers. Dans ce document, les chercheurs expliquent que les méthodes existantes de Reinforcement Learning from Human Feedback (RLHF) ne sont pas idéales pour former des LLM à générer de manière fiable des interfaces bien conçues, car elles ne s’alignent pas sur les flux de travail des designers et ignorent la riche rationalité utilisée pour critiquer et améliorer les conceptions d’interface.
Pour résoudre ce problème, ils ont proposé une approche différente. Des designers professionnels ont directement critiqué et amélioré les interfaces générées par le modèle en utilisant des commentaires, des croquis et même des modifications pratiques, puis ont converti ces changements en données utilisées pour affiner le modèle. Cela a permis d’entraîner un modèle de récompense sur des améliorations de conception concrètes, enseignant ainsi au générateur d’UI de privilégier des agencements et des composants qui reflètent mieux le jugement en matière de design dans le monde réel.
Mise en place
Au total, 21 designers ont participé à l’étude :
- Les participants recrutés avaient des niveaux variés d’expérience en design, allant de 2 à plus de 30 ans.
- Les designers ont noté la fréquence des revues de design dans leurs activités professionnelles : allant d’une fois tous les quelques mois à plusieurs fois par semaine.
Les chercheurs ont collecté 1 460 annotations, qui ont ensuite été converties en exemples de « préférence » d’interface utilisateur, contrastant l’interface générée par le modèle avec les versions améliorées par les designers. Cela a permis de former un modèle de récompense pour affiner le générateur d’UI.
Les résultats
Alors, cela a-t-il fonctionné ? Selon les chercheurs, la réponse est oui, avec d’importantes nuances. En général, les modèles entraînés avec des retours provenant directement des designers (notamment avec des croquis et des révisions directes) ont produit des designs d’UI de qualité nettement supérieure à ceux des modèles de base et des versions entraînées uniquement avec des données de classement conventionnelles. Leur meilleur modèle (Qwen3-Coder affiné avec des retours de croquis) a même surpassé GPT-5, tout cela dérivant finalement de seulement 181 annotations de croquis fournies par les designers.
Les résultats montrent que l’affinage avec notre modèle de récompense basé sur les croquis a conduit à des améliorations constantes des capacités de génération d’UI pour toutes les bases testées, suggérant une généralisabilité.
Cependant, les chercheurs notent que la subjectivité joue un rôle important dans la définition de ce qu’est une bonne interface. En effet, les variances dans les réponses peuvent rendre difficile l’évaluation des designs, puisque les chercheurs n’étaient d’accord avec les choix des designers que 49,2 % du temps lorsqu’ils examinaient les paires d’UI. En revanche, les retours fournis sous forme de croquis ou de modifications directes ont conduit à des accords beaucoup plus élevés : 63,6 % pour les croquis et 76,1 % pour les modifications directes.