
Les chercheurs d’Apple ont publié une étude sur Manzano, un modèle multimodal qui combine la compréhension visuelle et la génération d’images à partir de texte, tout en réduisant considérablement les compromis de performance et de qualité rencontrés dans les implementations actuelles. Voici les détails.
Une approche intéressante à un problème de pointe
Dans l’étude intitulée MANZANO : un modèle multimodal unifié simple et évolutif avec un tokenizer visuel hybride, une équipe de près de 30 chercheurs détaille une approche unifiée qui permet à la fois la compréhension d’images et la génération d’images à partir de texte au sein d’un même modèle multimodal.
Cela est crucial, car les modèles multimodaux unifiés actuels qui prennent en charge la génération d’images rencontrent souvent des compromis : ils sacrificent soit la compréhension visuelle pour privilégier la génération d’images autorégressive, soit la compréhension, au détriment de la fidélité générative. En d’autres termes, ils peinent à exceller à la fois dans ces deux domaines.
Selon les chercheurs, une des raisons majeures de cet écart réside dans la nature conflictuelle de la tokenisation visuelle. La génération autorégressive privilégie généralement les tokens d’image discrets, tandis que la compréhension bénéficie des embeddings continus. De nombreux modèles adoptent une stratégie de double tokenizer, utilisant un encodeur sémantique pour des caractéristiques riches et continues, tandis qu’un tokenizer quantifié comme le VQ-VAE gère la génération. Cependant, cela force le modèle de langage à traiter deux types différents de tokens d’image, créant ainsi un conflit de tâche important.
Manzano se démarque en unifiant les tâches de compréhension et de génération grâce à un LLM autorégressif qui prédit ce que l’image devrait contenir sur le plan sémantique, puis transmet ces prédictions à un décodeur de diffusion qui rend les pixels réels.
Une architecture novatrice
Les chercheurs expliquent que Manzano combine trois composants dans son architecture :
- Un tokenizer visuel hybride qui produit à la fois des représentations visuelles continues et discrètes ;
- Un décodeur LLM qui accepte des tokens de texte et/ou des embeddings d’image continus, prédisant de manière autorégressive les prochains tokens d’image ou de texte à partir d’un vocabulaire commun ;
- Un décodeur d’image qui rend les pixels d’image à partir des tokens d’image prédis.
Grâce à cette approche, « Manzano gère des prompts contre-intuitifs et défiant la physique (par exemple, ‘L’oiseau vole en dessous de l’éléphant’) de manière comparable à GPT-4o et Nano Banana », affirment les chercheurs.
Ils notent également que dans plusieurs benchmarks, « les modèles Manzano 3B et 30B obtiennent des performances supérieures ou compétitives par rapport à d’autres modèles multimodaux unifiés à la pointe de la technologie. »
Les chercheurs ont testé Manzano sur plusieurs tailles, allant d’un modèle de 300 millions de paramètres à une version de 30 milliards de paramètres, permettant ainsi d’évaluer comment la performance multimodale unifiée s’améliore avec l’échelle.
Excellente performance dans les tâches d’édition d’images
Enfin, Manzano performe également bien dans des tâches d’édition d’images, y compris l’édition guidée par instruction, le transfert de style, l’inpainting/outpainting, et l’estimation de profondeur.
Pour lire l’étude complète, incluant des détails techniques approfondis sur la formation du tokenizer hybride de Manzano, la conception du décodeur de diffusion, les expériences d’échelle et les évaluations humaines, suivez ce lien ici.