
Dans une étude récente, les chercheurs d’Apple dévoilent un modèle de diffusion capable d’écrire jusqu’à 128 fois plus vite que ses homologues. Voici comment cela fonctionne.
LES ASPECTS TECHNIQUES
Il est essentiel de comprendre les différents modèles linguistiques. Les LLMs tels que ChatGPT sont des modèles autorégressifs. Ils génèrent du texte de manière séquentielle, un jeton à la fois, en tenant compte à la fois de l’invite de l’utilisateur et de tous les jetons précédemment générés.
En revanche, les modèles de diffusion génèrent plusieurs jetons en parallèle et les affinent au cours de plusieurs étapes itératives jusqu’à ce que la réponse complète prenne forme.
Une variante des modèles de diffusion est le modèle flow-matching, qui omet essentiellement le processus itératif habituel et apprend à générer le résultat final en une seule fois.
L’ÉTUDE D’APPLE
Dans une étude publiée aujourd’hui, intitulée « FS-DFM : Génération rapide et précise de longs textes avec des modèles linguistiques de diffusion à quelques étapes », des chercheurs d’Apple et de l’Ohio State University proposent un nouveau modèle appelé Few-Step Discrete Flow-Matching, ou FS-DFM.
Les chercheurs démontrent que le FS-DFM peut rédiger des passages complets après seulement huit tours d’affinage rapides, tout en égalant la qualité des modèles de diffusion qui nécessitaient plus de mille étapes pour obtenir un résultat similaire.
Pour y parvenir, ils adoptent une approche en trois étapes. Premièrement, le modèle est formé pour gérer différents budgets d’itérations d’affinage. Ensuite, un « modèle enseignant » guide ce dernier afin d’apporter des mises à jour plus larges et plus précises à chaque itération sans « trop s’éloigner » du texte visé. Enfin, ils ajustent le fonctionnement de chaque itération pour permettre au modèle d’atteindre le résultat final en moins d’étapes tout en assurant une progression constante.
Comparé à des modèles de diffusion plus grands, le FS-DFM se distingue sur deux métriques importantes : la perplexité et l’entropie.
La perplexité est un indicateur standard de la qualité du texte dans les modèles linguistiques. Plus la perplexité est basse, plus le texte est précis et naturel.
L’entropie mesure la confiance avec laquelle le modèle sélectionne chaque mot. En pratique, une entropie trop faible peut rendre le texte répétitif, tandis qu’une entropie trop élevée peut le rendre aléatoire ou incohérent.
En comparaison avec le modèle de diffusion Dream (7 milliards de paramètres) et le modèle LLaDA (8 milliards de paramètres), les variantes FS-DFM avec 1,7, 1,3 et 0,17 milliard de paramètres ont systématiquement obtenu une perplexité plus basse tout en maintenant une entropie plus stable à travers tous les comptes d’itérations.
Au vu des résultats et du potentiel prometteur de cette méthode, les chercheurs ont également indiqué qu’ils « prévoyaient de publier le code et des points de contrôle du modèle pour faciliter la reproductibilité et des recherches futures ».
Pour explorer plus en profondeur les méthodes d’Apple et les détails d’implémentation de ses modèles, consultez l’article complet sur arXiv. Il présente plusieurs exemples de performances, comme cette illustration qui colorie l’itération à laquelle chaque mot a été modifié pour la dernière fois.