
Des chercheurs d’Apple ont mené un test A/B afin d’évaluer l’effet des étiquettes de pertinence générées par l’IA sur les classements de recherche de l’App Store et sur les téléchargements d’applications.
Dans une étude intitulée Scaling Search Relevance: Augmenting App Store Ranking with LLM-Generated Judgments, une équipe de chercheurs a examiné si les modèles de langage (LLMs) pouvaient contribuer à améliorer les résultats de recherche de l’App Store en générant des étiquettes de pertinence utilisées pour entraîner le système de classement.
Comme l’explique l’étude, la pertinence est essentielle pour aider les utilisateurs à trouver les applications qu’ils recherchent. Bien que de nombreux signaux puissent influencer le classement de recherche, les chercheurs se sont concentrés sur deux principaux :
- La pertinence comportementale, qui reflète la manière dont les utilisateurs interagissent avec les résultats, par exemple s’ils cliquent ou téléchargent une application.
- La pertinence textuelle, qui mesure dans quelle mesure les métadonnées d’une application (comme son nom, sa description et ses mots-clés) correspondent sémantiquement à la requête de recherche d’un utilisateur.
Les chercheurs indiquent que, bien qu’il existe beaucoup de données disponibles concernant la pertinence comportementale, il en va autrement pour la pertinence textuelle :
Tandis que les étiquettes de pertinence comportementale sont abondantes, les étiquettes de pertinence textuelle générées par des juges humains sont beaucoup plus rares. Cela crée un problème fondamental : les étiquettes de pertinence textuelle de haute qualité sont rares et coûteuses à produire, créant un goulet d’étranglement en matière d’évolutivité et laissant l’objectif de pertinence textuelle sous-alimenté dans un apprentissage multi-objectifs.
Pour résoudre ce problème, les chercheurs ont affiné un LLM de trois milliards de paramètres sur des jugements humains existants, afin qu’il puisse apprendre à attribuer des étiquettes de pertinence aux applications en fonction de la requête de recherche d’un utilisateur et des métadonnées de l’application.
Par la suite, ils ont généré des millions de nouvelles étiquettes de pertinence avec ce modèle et ont réentraîné le système de classement de l’App Store en utilisant à la fois les données originales et les étiquettes générées par le LLM.
Une évaluation hors ligne a été réalisée, suivie d’un test A/B à l’échelle mondiale sur le trafic réel de l’App Store :
« (…) le modèle amélioré par le LLM a montré une augmentation statistiquement significative de +0,24 % de notre métrique principale, le taux de conversion, défini comme la proportion de sessions de recherche avec au moins un téléchargement d’application. Bien que ce chiffre puisse sembler faible, il est considéré comme une amélioration significative pour un classeur industriel mature. Ce gain a été observé dans 89 % des vitrines. »
En d’autres termes, les utilisateurs ayant consulté les résultats de recherche classés selon le modèle amélioré par l’IA ont téléchargé au moins une application 0,24 % plus souvent que ceux ayant vu les résultats présentés par le modèle traditionnel.
Bien que cette augmentation soit minime, elle peut avoir des conséquences considérables. En effet, avec des estimations totalisant 38 milliards de téléchargements dans l’App Store en 2025, cela pourrait se traduire par des millions de téléchargements supplémentaires, ce qui serait grandement apprécié par les développeurs.