
Une équipe de chercheurs d’Apple a récemment publié un article mettant en avant un cadre innovant destiné à améliorer les réponses des modèles de langage étendus (LLM), notamment dans les domaines du raisonnement mathématique et de la génération de code.
DIFFUSION ET AUTOREGRESSION, UNIS
Dans l’étude intitulée LaDiR : Latent Diffusion Enhances LLMs for Text Reasoning, les chercheurs d’Apple, en collaboration avec des experts de l’Université de Californie à San Diego, proposent une méthode originale pour rehausser la qualité des réponses générées par les LLM dans certains domaines spécifiques.
Alors que les modèles de diffusion génèrent du texte en itérant sur de nombreux tokens en parallèle à chaque passage, les modèles autoregressifs fonctionnent en prédisant les tokens un à un. Apple a déjà exploré l’application des modèles de diffusion à des domaines variés tels que la prévision du repliement des protéines et la génération de code, ce qui ouvre des perspectives intrigantes.
LaDiR combine ces deux approches : pendant le processus de raisonnement, il adopte une méthode de diffusion, puis génère la réponse finale par autoregression. Mieux encore, il exploite plusieurs chemins de raisonnement en parallèle, chacun effectuant son propre processus de diffusion et poussant à explorer diverses possibilités, de sorte à produire un ensemble diversifié de réponses candidates.
Au moment de l’inférence, LaDiR génère une série de blocs de raisonnement cachés, chacun commençant comme un motif aléatoire (ou bruit) et étant progressivement affiné pour aboutir à une réponse plus cohérente. Lorsque le modèle décide qu’il a suffisamment raisonné, il passe à la génération de la réponse finale de manière autoregressive, token par token.
PERFORMANCES DE LADIR
L’étude a appliqué LaDiR sur LLaMA 3.1 8B de Meta pour le raisonnement mathématique et Qwen3-8B-Base pour la génération de code. En matière de benchmarks mathématiques, LaDiR a affiché une précision supérieure aux approches existantes et a démontré une performance accrue même sur des tâches plus difficiles et hors distribution.
Sur les benchmarks de génération de code tels que HumanEval, LaDiR a produit des résultats plus fiables, dépassant nettement le simple ajustement. Il a particulièrement brillé sur des problèmes plus complexes.
Dans des tâches de planification de style puzzle, comme le jeu Countdown, LaDiR a exploré un éventail plus large de réponses valides qu’un modèle de référence, trouvant des solutions correctes plus régulièrement. Cependant, il a moins bien réussi qu’un modèle spécialisé sur la précision des tentatives uniques.
Bien que certains aspects du document LaDiR puissent se révéler techniques, il constitue une lecture essentielle pour quiconque s’intéresse au fonctionnement des modèles de langage et aux nouvelles approches d’amélioration des performances en génération de texte.