
Apple poursuit ses recherches dans le domaine de l’intelligence artificielle avec UniGen 1.5, un modèle capable de comprendre, générer et éditer des images au sein d’une seule architecture. Cette avancée repose sur une étude précédente publiée en mai dernier, où l’équipe de recherche d’Apple présentait UniGen, un modèle unifié multimodal.
UniGen 1.5 étend les fonctionnalités d’UniGen en intégrant des capacités d’édition d’images. Plutôt que de dissocier la compréhension de la génération et de l’édition entre différents systèmes, Apple vise à regrouper ces processus en un seul modèle. Cette approche unifiée lève des défis, car la compréhension et la génération d’images exigent des techniques distinctes. Toutefois, les chercheurs affirment qu’un modèle unifié peut utiliser sa capacité de compréhension pour améliorer la génération.
Un des principaux obstacles en matière d’édition d’images est que les modèles sont souvent incapables de saisir des instructions complexes, en particulier lorsque les modifications sont subtiles. UniGen 1.5 introduit donc une nouvelle étape de formation, appelée Alignement d’Instructions d’Édition, qui permet d’améliorer la cohérence entre l’instruction d’édition et le contenu sémantique de l’image cible. Selon les expériences, cette étape intermédiaire est essentielle pour optimiser les performances d’édition.
Avant d’affiner les sorties via un apprentissage par renforcement, les chercheurs préparent le modèle à élaborer une description textuelle détaillée de ce que l’image éditée devrait contenir. Ce processus permet à UniGen 1.5 d’intérioriser plus efficacement les modifications attendues.
L’utilisation de l’apprentissage par renforcement représente une contribution majeure de la recherche, car il applique un système de récompense commun pour la génération et l’édition d’images. Cela permet à UniGen 1.5 de rivaliser avec d’autres modèles de pointe sur divers indicateurs de qualité visuelle et de respect des instructions. Les résultats expérimentaux montrent que UniGen 1.5 surpasse les performances de nombreux modèles multimodaux récents.
Cependant, les chercheurs notent certaines limitations de UniGen 1.5, notamment des défis dans la génération de texte et des incohérences d’identité dans certains cas. Des exemples illustrant ces échecs sont fournis dans leurs résultats, soulignant le besoin d’améliorations futures.