
Des chercheurs d’Apple ont élaboré une méthode innovante pour entraîner des modèles d’IA spécialisés dans la légende d’images, fournissant ainsi des descriptions plus précises et détaillées avec des modèles beaucoup plus compacts. Voici les détails.
UN NOUVEAU MODÈLE QUI ACCÉLÈRE L’ENTRAINEMENT DES IA MULTIMODALES
Dans une étude intitulée RubiCap : Rubric-Guided Reinforcement Learning for Dense Image Captioning, une équipe de chercheurs d’Apple a collaboré avec l’Université du Wisconsin-Madison pour développer un nouveau cadre pour un modèle de légende d’images dense, atteignant des résultats de pointe sur plusieurs indicateurs.
La légende d’images dense consiste à générer des descriptions détaillées au niveau des régions pour tous les éléments présents dans une image, plutôt qu’un simple résumé général.
En d’autres termes, il s’agit d’identifier plusieurs éléments et zones dans une image pour les décrire avec une précision minutieuse, permettant ainsi une compréhension bien plus riche de la scène.
UN IMPACT SUR LES FONCTIONNALITÉS UTILISATEUR
Cette méthode peut être appliquée à diverses tâches, comme l’entraînement de modèles vision-langage et la génération d’images à partir de texte. Lorsqu’elle est utilisée pour des fonctionnalités destinées aux utilisateurs, elle peut améliorer la recherche d’images et même des outils d’accessibilité.
Cependant, les chercheurs soulignent que les approches IA actuelles pour entraîner des modèles de légende d’images denses présentent des lacunes :
« La légende d’images dense est essentielle pour l’alignement cross-modal dans le pré-entraînement vision-langage et la génération texte-image, mais l’échelle des annotations de qualité experte est prohibitivement coûteuse. Bien que la légende synthétique via des modèles vision-langage performants soit une alternative pratique, la distillation supervisée produit souvent une diversité de résultats limitée et une généralisation faible. L’apprentissage par renforcement (RL) pourrait surmonter ces limitations, mais ses succès ont jusqu’à présent été concentrés dans des domaines vérifiables qui dépendent de vérificateurs déterministes, un luxe non disponible dans la légende ouverte.
Face à cela, ils ont proposé un nouveau cadre qui prend une approche intéressante.
Ils ont échantillonné aléatoirement 50 000 images de deux jeux de données d’entraînement, PixMoCap et DenseFusion-4V-100K.
Pour chaque image, le système a généré plusieurs options de légende à l’aide d’un ensemble de modèles de langage vision existants, y compris Gemini 2.5 Pro, GPT-5, Qwen2.5-VL-72B-Instruct, Gemma-3-27B-IT et Qwen3-VL-30B-A3B-Instruct.
Parallèlement, le modèle entraîné sous RubiCap produisait sa propre légende pour chacune de ces images.
Ensuite, RubiCap a utilisé Gemini 2.5 Pro pour :
- Analyser l’image avec les légendes candidates et la sortie du modèle ;
- Identifier ce sur quoi les modèles étaient d’accord et ce qui était manqué ou mal représenté ;
- Transformer cela en critères clairs pour évaluer les légendes.
Après cela, Qwen2.5-7B-Instruct a servi de juge, notant les légendes selon chaque critère pour produire le signal de récompense utilisé pour l’entraînement.
En conséquence, le modèle a reçu des retours plus précis et structurés sur ce qu’il devait corriger, aboutissant à des légendes plus précises sans s’appuyer sur une seule réponse considérée comme « correcte ».
DES RÉSULTATS PROMETTEURS
Au terme de cette recherche, trois modèles ont vu le jour : RubiCap-2B, RubiCap-3B et RubiCap-7B, ayant respectivement 2 milliards, 3 milliards et 7 milliards de paramètres.
Et en comparaison avec les approches existantes, leurs performances se sont révélées surprenantes, surpassant des modèles pouvant atteindre 72 milliards de paramètres.
« Sur des benchmarks extensifs, RubiCap obtient les meilleurs taux de succès sur CapArena, devançant la distillation supervisée, les méthodes RL antérieures, les annotations d’experts humains et les résultats augmentés de GPT-4V. Sur CaptionQA, il démontre une efficacité verbale supérieure : notre modèle 7B correspond à Qwen2.5-VL-32B-Instruct, et notre modèle 3B surpasse son homologue 7B. »
À noter que le modèle plus petit, à 3 milliards de paramètres, a surpassé son plus grand concurrent sur certains benchmarks, suggérant qu’un modèle robuste de légende d’images denses ne nécessite pas nécessairement une échelle massive pour obtenir des résultats de haute qualité.
Des comparaisons de légendes entre RubiCap-7B-DenseFusion et Qwen2.5-VL-7B-Instruct montrent des différences significatives dans la précision.