
Actuellement, la plupart des modèles d’images génératives se classent en deux catégories principales : les modèles de diffusion, comme Stable Diffusion, et les modèles autorégressifs, tels que GPT-4o d’OpenAI. Cependant, Apple vient de publier deux articles qui montrent qu’il pourrait y avoir de la place pour une troisième technique oubliée : les Normalizing Flows (flux normalisateurs). Avec un peu de l’ajout de Transformers, ces modèles pourraient s’avérer plus performants que prévu.
Normalizing Flows : une technique à redécouvrir
Les Normalizing Flows (NFs) sont un type de modèle d’IA qui apprend à transformer mathématiquement des données réelles (comme des images) en bruit structuré, puis inverse ce processus pour générer de nouveaux échantillons. L’avantage majeur est qu’ils peuvent calculer la probabilité exacte de chaque image générée, une caractéristique que les modèles de diffusion ne peuvent pas fournir. Cela rend les flux particulièrement intéressants pour des tâches nécessitant une compréhension approfondie des probabilités.
Cependant, cette technique a été éclipsée par des modèles plus récents dont les images avaient tendance à paraître floues ou manquantes de détails et de diversité.
Étude #1 : TarFlow
Dans l’article intitulé Normalizing Flows are Capable Generative Models, Apple présente un nouveau modèle nommé TarFlow, qui signifie Transformer AutoRegressive Flow. TarFlow remplace les anciennes couches artisanales de modèles de flux par des blocs Transformer. Il divise les images en petites sections et les génère en blocs, avec chaque bloc prédit en fonction des précédents. C’est ce qu’on appelle l’autoregressif, le même principe que celui qu’OpenAI utilise pour la génération d’images.
La clé de la différence réside dans le fait qu’OpenAI génère des tokens discrets, traitant les images comme de longues séquences de symboles similaires à des mots, tandis que TarFlow génère directement des valeurs de pixels. Cette distinction, bien que subtile, permet à Apple d’éviter la perte de qualité souvent associée à la compression d’images en un vocabulaire fixe de tokens.
Étude #2 : STARFlow
Dans le document STARFlow : Scaling Latent Normalizing Flows for High-resolution Image Synthesis, Apple bâtit sur la base de TarFlow et présente STARFlow (Scalable Transformer AutoRegressive Flow), avec plusieurs améliorations notables. La principale modification consiste à ce que STARFlow ne génère plus d’images directement dans l’espace pixel. Au lieu de cela, il travaille sur une version compressée de l’image avant de confier le travail à un décodeur qui augmente la résolution à l’étape finale.
Ce passage à l’espace latent permet à STARFlow de ne pas avoir à prédire des millions de pixels directement. Il se concentre d’abord sur la structure générale de l’image, laissant les détails fins au décodeur. De plus, Apple a repensé la manière dont le modèle traite les invites en texte. Au lieu de créer un encodeur de texte séparé, STARFlow peut intégrer des modèles de langue existants, ce qui devient idéal pour la compréhension du langage lorsque l’utilisateur demande une création d’image.
Comparaison avec GPT-4o d’OpenAI
Tandis qu’Apple reconsidère les flux, OpenAI a aussi récemment évolué au-delà de la diffusion avec son modèle GPT-4o. Cependant, leur approche est fondamentalement différente. GPT-4o traite les images comme des séquences de tokens discrets, similaires à des mots dans une phrase. Lorsqu’on demande à ChatGPT de générer une image, le modèle prédit un token d’image à la fois, construisant l’image pièce par pièce.
Bien que cela confère une flexibilité énorme, la génération token par token peut être lente, surtout pour des images grandes ou de haute résolution. En revanche, la méthode d’OpenAI, entièrement basée sur le cloud, n’est pas aussi limitée par des contraintes de latence ou de consommation énergétique.
En résumé, Apple et OpenAI avancent au-delà des modèles de diffusion, mais tout en ayant des objectifs différents : alors qu’OpenAI se concentre sur ses centres de données, Apple semble construire pour nos appareils quotidiens.