
Une nouvelle étude de recherche d’Apple fait le tour de la scène, et si vous suivez les réactions, vous pourriez croire qu’elle a bouleversé l’industrie des LLM. En réalité, cela n’est pas tout à fait juste, mais cette étude pourrait bien être la meilleure tentative de ramener dans le débat public une discussion que la communauté ML tient depuis longtemps. Voici pourquoi ce document a de l’importance.
Le document en question, L’illusion de la pensée : comprendre les forces et les limites des modèles de raisonnement à travers le prisme de la complexité des problèmes, est sans conteste intéressant. Il examine systématiquement les soi-disant Modèles de Raisonnement de Grande Taille (LRM) comme Claude 3.7 et DeepSeek-R1 à l’aide de puzzles contrôlés (Tour de Hanoï, Blocks World, etc.), plutôt qu’avec des critères mathématiques classiques souvent touchés par la contamination des données.
Les résultats ? Les LRM performe mieux que leurs homologues LLM dans les tâches de complexité moyenne, mais s’effondrent tout aussi fortement sur des tâches plus complexes. De plus, à mesure que les défis deviennent plus difficiles, ces modèles de « raisonnement » semblent penser moins, même s’ils ont encore une marge de manœuvre en termes de tokens.
Bien que ce document fasse l’objet d’un battage médiatique comme s’il révélait un secret profond, je soutiendrais que rien de tout cela n’est nouveau. C’est juste plus clair maintenant et plus accessible au grand public. Et cela, en fait, est une excellente nouvelle.
Ce que montre le document
Le point à retenir est que les modèles commercialisés pour « raisonner » échouent toujours sur des problèmes qu’un enfant patient pourrait maîtriser. Par exemple, dans le Tour de Hanoï, des modèles tels que Claude et o3-mini s’effondrent après sept ou huit disques. Même lorsqu’on leur donne l’algorithme de solution exact et qu’on leur demande simplement de le suivre, leurs performances ne s’améliorent pas.
En d’autres termes, ils ne raisonnent pas, mais étendent plutôt itérativement les modèles d’inférence LLM de manière plus élaborée. Cette distinction est cruciale, et c’est la véritable valeur du document d’Apple. Les auteurs remettent en question des termes chargés comme « raisonnement » et « pensée », qui suggèrent une inférence symbolique et une planification, alors que ce qui se passe réellement est une extension de modèle par couches : le modèle effectue plusieurs passes d’inférence jusqu’à tomber sur quelque chose qui semble plausible.
Cela n’est pas exactement une révélation. Le directeur de l’IA de Meta, Yann LeCun, a longtemps comparé les LLM d’aujourd’hui à des « chats domestiques » et a été vocal sur le fait que l’AGI ne viendra pas des Transformers. Subbarao Kambhampati publie depuis des années sur la façon dont les « chaînes de pensée » ne correspondent pas à la façon dont ces modèles calculent réellement. Et Gary Marcus voit sa thèse de « l’apprentissage profond touche un mur » renforcée.
Correspondance de modèles, pas résolution de problèmes
Le point de données le plus accablant de l’étude pourrait être le suivant : lorsque la complexité augmente, les modèles réduisent littéralement leurs efforts de « pensée ». Ils diminuent leur propre réflexion interne à mesure que les défis s’intensifient, malgré une capacité de calcul suffisante. Ce n’est pas seulement un échec technique, mais plutôt un échec conceptuel.
La clarification apportée par le document d’Apple est que de nombreux LLM échouent non pas parce qu’ils « n’ont pas assez été entraînés » ou « ont simplement besoin de plus de données », mais parce qu’ils manquent fondamentalement d’une manière de représenter et d’exécuter une logique algorithmique étape par étape. Et cela n’est pas quelque chose que l’on peut résoudre par des invites en chaîne ou un ajustement par renforcement.
Pour citer le document lui-même : « Les LRM échouent à utiliser des algorithmes explicites et raisonnent de manière inconsistante sur les puzzles. » Même lorsque l’on leur remet un plan de solution, ils trébuchent.
Alors… est-ce une mauvaise nouvelle ?
Oui, mais ce n’est pas une nouvelle. Ces résultats ne surprennent guère ceux qui sont profondément ancrés dans la communauté de recherche en ML. Mais le buzz qu’ils ont généré souligne quelque chose de plus intéressant : le grand public pourrait enfin être prêt à appréhender les distinctions que le monde de la ML a faites depuis des années, notamment sur ce que ces modèles peuvent et ne peuvent pas faire.
Cette distinction est cruciale. Quand les gens qualifient ces systèmes de « pensants », nous commençons à les traiter comme s’ils pouvaient remplacer des choses qu’ils ne peuvent actuellement pas faire. C’est alors que les hallucinations et les échecs logiques passent d’étranges risques à des angles morts dangereux.
C’est pourquoi la contribution d’Apple est significative. Non pas parce qu’elle a « exposé » les LLM, mais parce qu’elle aide à tracer des lignes plus claires autour de ce qu’ils sont et de ce qu’ils ne sont pas. Et cette clarté est depuis longtemps attendue.