Close Menu
App4PhoneApp4Phone
    Facebook X (Twitter)
    • Bons plans
    • Fonds d’écran
    • Rumeurs
    • À propos
    • Publicité sur App4Phone
    Facebook X (Twitter)
    App4PhoneApp4Phone
    • Accueil
    • Actualité
    • Astuces
    • Boutique
      • Coques
        • iPhone 16
        • iPhone 15
        • iPhone 14
        • iPhone 13
        • iPhone 12
        • iPhone 11
        • iPhone XR
        • iPhone X(S)
        • iPhone SE
        • iPhone 8
      • Verres trempés
        • iPhone 16
        • iPhone 15
        • iPhone 14
        • iPhone 13
        • iPhone 12
        • iPhone 11
        • iPhone XR
        • iPhone X(S)
        • iPhone SE
        • iPhone 8
      • Accessoires
    • Contact
    • Bons plans
    • Fonds d’écran
    • Rumeurs
    • À propos
    • Publicité sur App4Phone
    App4PhoneApp4Phone
    Home»Actualité»Apple développe une IA de légende d’images plus performante que des modèles dix fois plus volumineux
    Actualité

    Apple développe une IA de légende d’images plus performante que des modèles dix fois plus volumineux

    Thomas MorelBy Thomas Morelmars 26, 2026Aucun commentaire4 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email

    Des chercheurs d’Apple ont élaboré une méthode innovante pour entraîner des modèles d’IA spécialisés dans la légende d’images, fournissant ainsi des descriptions plus précises et détaillées avec des modèles beaucoup plus compacts. Voici les détails.

    UN NOUVEAU MODÈLE QUI ACCÉLÈRE L’ENTRAINEMENT DES IA MULTIMODALES

    Dans une étude intitulée RubiCap : Rubric-Guided Reinforcement Learning for Dense Image Captioning, une équipe de chercheurs d’Apple a collaboré avec l’Université du Wisconsin-Madison pour développer un nouveau cadre pour un modèle de légende d’images dense, atteignant des résultats de pointe sur plusieurs indicateurs.

    La légende d’images dense consiste à générer des descriptions détaillées au niveau des régions pour tous les éléments présents dans une image, plutôt qu’un simple résumé général.

    En d’autres termes, il s’agit d’identifier plusieurs éléments et zones dans une image pour les décrire avec une précision minutieuse, permettant ainsi une compréhension bien plus riche de la scène.

    UN IMPACT SUR LES FONCTIONNALITÉS UTILISATEUR

    Cette méthode peut être appliquée à diverses tâches, comme l’entraînement de modèles vision-langage et la génération d’images à partir de texte. Lorsqu’elle est utilisée pour des fonctionnalités destinées aux utilisateurs, elle peut améliorer la recherche d’images et même des outils d’accessibilité.

    Cependant, les chercheurs soulignent que les approches IA actuelles pour entraîner des modèles de légende d’images denses présentent des lacunes :

    « La légende d’images dense est essentielle pour l’alignement cross-modal dans le pré-entraînement vision-langage et la génération texte-image, mais l’échelle des annotations de qualité experte est prohibitivement coûteuse. Bien que la légende synthétique via des modèles vision-langage performants soit une alternative pratique, la distillation supervisée produit souvent une diversité de résultats limitée et une généralisation faible. L’apprentissage par renforcement (RL) pourrait surmonter ces limitations, mais ses succès ont jusqu’à présent été concentrés dans des domaines vérifiables qui dépendent de vérificateurs déterministes, un luxe non disponible dans la légende ouverte.

    Face à cela, ils ont proposé un nouveau cadre qui prend une approche intéressante.

    Ils ont échantillonné aléatoirement 50 000 images de deux jeux de données d’entraînement, PixMoCap et DenseFusion-4V-100K.

    Pour chaque image, le système a généré plusieurs options de légende à l’aide d’un ensemble de modèles de langage vision existants, y compris Gemini 2.5 Pro, GPT-5, Qwen2.5-VL-72B-Instruct, Gemma-3-27B-IT et Qwen3-VL-30B-A3B-Instruct.

    Parallèlement, le modèle entraîné sous RubiCap produisait sa propre légende pour chacune de ces images.

    Ensuite, RubiCap a utilisé Gemini 2.5 Pro pour :

    • Analyser l’image avec les légendes candidates et la sortie du modèle ;
    • Identifier ce sur quoi les modèles étaient d’accord et ce qui était manqué ou mal représenté ;
    • Transformer cela en critères clairs pour évaluer les légendes.

    Après cela, Qwen2.5-7B-Instruct a servi de juge, notant les légendes selon chaque critère pour produire le signal de récompense utilisé pour l’entraînement.

    En conséquence, le modèle a reçu des retours plus précis et structurés sur ce qu’il devait corriger, aboutissant à des légendes plus précises sans s’appuyer sur une seule réponse considérée comme « correcte ».

    DES RÉSULTATS PROMETTEURS

    Au terme de cette recherche, trois modèles ont vu le jour : RubiCap-2B, RubiCap-3B et RubiCap-7B, ayant respectivement 2 milliards, 3 milliards et 7 milliards de paramètres.

    Et en comparaison avec les approches existantes, leurs performances se sont révélées surprenantes, surpassant des modèles pouvant atteindre 72 milliards de paramètres.

    « Sur des benchmarks extensifs, RubiCap obtient les meilleurs taux de succès sur CapArena, devançant la distillation supervisée, les méthodes RL antérieures, les annotations d’experts humains et les résultats augmentés de GPT-4V. Sur CaptionQA, il démontre une efficacité verbale supérieure : notre modèle 7B correspond à Qwen2.5-VL-32B-Instruct, et notre modèle 3B surpasse son homologue 7B. »

    À noter que le modèle plus petit, à 3 milliards de paramètres, a surpassé son plus grand concurrent sur certains benchmarks, suggérant qu’un modèle robuste de légende d’images denses ne nécessite pas nécessairement une échelle massive pour obtenir des résultats de haute qualité.

    Des comparaisons de légendes entre RubiCap-7B-DenseFusion et Qwen2.5-VL-7B-Instruct montrent des différences significatives dans la précision.

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleApple conclut un accord avec un ancien employé accusé de vol de secrets commerciaux de Vision Pro
    Next Article Vérification d’âge chez Apple : des problèmes à résoudre
    Thomas Morel

    Passionné par la tech et le digital, Thomas Morel est un rédacteur spécialisé dans l’univers Apple, iPhone et iOS. Avec plusieurs années d’expérience dans le blogging et le SEO, il décrypte l’actualité high-tech et propose des analyses claires et précises.

    Related Posts

    Actualité

    Usine de pièces pour iPhone en Inde : enquête sanitaire sur une contamination présumée de l’eau

    juin 19, 2026
    Actualité

    visionOS 27 : deux avantages exclusifs pour les modèles M5 Vision Pro

    juin 19, 2026
    Actualité

    Siri fait peau neuve : une expérience unifiée sur tous les appareils Apple

    juin 19, 2026
    Leave A Reply Cancel Reply

    la coque iphone la plus fine du monde
    Top 5

    iPhone 18 Pro : date de sortie et nouveautés attendues

    mai 18, 2026

    iPhone 18 Pro : date de sortie et nouveautés à venir

    avril 17, 2026

    iPhone 18 Pro : six nouvelles fonctionnalités attendues cette année

    mai 4, 2026

    iPhone 18 Pro : trois nouvelles fonctionnalités pour vous inciter à upgrader

    mai 14, 2026

    iPhone 18 et iPhone Air 2 : fuites sur le design et la date de sortie

    avril 6, 2026
    Suivez-nous
    • Facebook 4.3K
    • Twitter 2.5K
    Facebook X (Twitter)
    • À propos
    • Contact
    • Publicité sur App4Phone

    Nos sites : ShopSystem • AppSystem • Worldissmall

    Copyright © 2026 App4Phone. Publié depuis 2011.

    bannière appstore

    Apple, le logo Apple, iPod, iTunes et Mac sont des marques d’Apple Inc., déposées aux États-Unis et dans d’autres pays. iPhone et MacBook Air sont des marques déposées d’Apple Inc. MobileMe est une marque de service d’Apple Inc. App4Phone.fr et son App ne sont pas liés à Apple et les marques citées sont la propriété de leurs détenteurs respectifs.

    Type above and press Enter to search. Press Esc to cancel.