Close Menu
App4PhoneApp4Phone
    Facebook X (Twitter)
    • Bons plans
    • Fonds d’écran
    • Rumeurs
    • À propos
    • Publicité sur App4Phone
    Facebook X (Twitter)
    App4PhoneApp4Phone
    • Accueil
    • Actualité
    • Astuces
    • Boutique
      • Coques
        • iPhone 16
        • iPhone 15
        • iPhone 14
        • iPhone 13
        • iPhone 12
        • iPhone 11
        • iPhone XR
        • iPhone X(S)
        • iPhone SE
        • iPhone 8
      • Verres trempés
        • iPhone 16
        • iPhone 15
        • iPhone 14
        • iPhone 13
        • iPhone 12
        • iPhone 11
        • iPhone XR
        • iPhone X(S)
        • iPhone SE
        • iPhone 8
      • Accessoires
    • Contact
    • Bons plans
    • Fonds d’écran
    • Rumeurs
    • À propos
    • Publicité sur App4Phone
    App4PhoneApp4Phone
    Home»Actualité»Manzano : un modèle Apple alliant compréhension visuelle et génération d’images
    Actualité

    Manzano : un modèle Apple alliant compréhension visuelle et génération d’images

    Thomas MorelBy Thomas Moreljanvier 14, 2026Aucun commentaire3 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email

    Les chercheurs d’Apple ont publié une étude sur Manzano, un modèle multimodal qui combine la compréhension visuelle et la génération d’images à partir de texte, tout en réduisant considérablement les compromis de performance et de qualité rencontrés dans les implementations actuelles. Voici les détails.

    Une approche intéressante à un problème de pointe

    Dans l’étude intitulée MANZANO : un modèle multimodal unifié simple et évolutif avec un tokenizer visuel hybride, une équipe de près de 30 chercheurs détaille une approche unifiée qui permet à la fois la compréhension d’images et la génération d’images à partir de texte au sein d’un même modèle multimodal.

    Cela est crucial, car les modèles multimodaux unifiés actuels qui prennent en charge la génération d’images rencontrent souvent des compromis : ils sacrificent soit la compréhension visuelle pour privilégier la génération d’images autorégressive, soit la compréhension, au détriment de la fidélité générative. En d’autres termes, ils peinent à exceller à la fois dans ces deux domaines.

    Selon les chercheurs, une des raisons majeures de cet écart réside dans la nature conflictuelle de la tokenisation visuelle. La génération autorégressive privilégie généralement les tokens d’image discrets, tandis que la compréhension bénéficie des embeddings continus. De nombreux modèles adoptent une stratégie de double tokenizer, utilisant un encodeur sémantique pour des caractéristiques riches et continues, tandis qu’un tokenizer quantifié comme le VQ-VAE gère la génération. Cependant, cela force le modèle de langage à traiter deux types différents de tokens d’image, créant ainsi un conflit de tâche important.

    Manzano se démarque en unifiant les tâches de compréhension et de génération grâce à un LLM autorégressif qui prédit ce que l’image devrait contenir sur le plan sémantique, puis transmet ces prédictions à un décodeur de diffusion qui rend les pixels réels.

    Une architecture novatrice

    Les chercheurs expliquent que Manzano combine trois composants dans son architecture :

    • Un tokenizer visuel hybride qui produit à la fois des représentations visuelles continues et discrètes ;
    • Un décodeur LLM qui accepte des tokens de texte et/ou des embeddings d’image continus, prédisant de manière autorégressive les prochains tokens d’image ou de texte à partir d’un vocabulaire commun ;
    • Un décodeur d’image qui rend les pixels d’image à partir des tokens d’image prédis.

    Grâce à cette approche, « Manzano gère des prompts contre-intuitifs et défiant la physique (par exemple, ‘L’oiseau vole en dessous de l’éléphant’) de manière comparable à GPT-4o et Nano Banana », affirment les chercheurs.

    Ils notent également que dans plusieurs benchmarks, « les modèles Manzano 3B et 30B obtiennent des performances supérieures ou compétitives par rapport à d’autres modèles multimodaux unifiés à la pointe de la technologie. »

    Les chercheurs ont testé Manzano sur plusieurs tailles, allant d’un modèle de 300 millions de paramètres à une version de 30 milliards de paramètres, permettant ainsi d’évaluer comment la performance multimodale unifiée s’améliore avec l’échelle.

    Excellente performance dans les tâches d’édition d’images

    Enfin, Manzano performe également bien dans des tâches d’édition d’images, y compris l’édition guidée par instruction, le transfert de style, l’inpainting/outpainting, et l’estimation de profondeur.

    Pour lire l’étude complète, incluant des détails techniques approfondis sur la formation du tokenizer hybride de Manzano, la conception du décodeur de diffusion, les expériences d’échelle et les évaluations humaines, suivez ce lien ici.

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleLes icônes d’Apple Creative Studio : uniques et non destinées aux applications d’achat unique
    Next Article Apple sous pression : Grok promet de ne plus retoucher les images de personnes
    Thomas Morel

    Passionné par la tech et le digital, Thomas Morel est un rédacteur spécialisé dans l’univers Apple, iPhone et iOS. Avec plusieurs années d’expérience dans le blogging et le SEO, il décrypte l’actualité high-tech et propose des analyses claires et précises.

    Related Posts

    Actualité

    Apple s’apprête à lancer une nouvelle application ‘Sales Coach’

    février 15, 2026
    Actualité

    Les fonctionnalités inédites de l’iPhone 18 Pro qui pourraient vous convaincre de passer à l’achat

    février 14, 2026
    Actualité

    Désactiver les indicateurs de confidentialité sur les écrans externes de votre Mac

    février 14, 2026
    Leave A Reply Cancel Reply

    la coque iphone la plus fine du monde
    Top 5

    L’iPhone 18 Pro se prépare à deux changements de design majeurs

    novembre 21, 2025

    iOS 26.2 : date de sortie et nouvelles fonctionnalités pour les iPhone

    décembre 3, 2025

    iPhone 18 : un changement de cap pour Apple depuis 2019

    décembre 2, 2025

    iOS 26.2 : quatre nouveautés à découvrir au quotidien

    décembre 12, 2025

    iOS 26.2 : trois nouvelles façons de personnaliser votre iPhone

    décembre 2, 2025
    Suivez-nous
    • Facebook 4.3K
    • Twitter 2.5K
    Facebook X (Twitter)
    • À propos
    • Contact
    • Publicité sur App4Phone

    Nos sites : ShopSystem • AppSystem • Worldissmall

    Copyright © 2026 App4Phone. Publié depuis 2011.

    bannière appstore

    Apple, le logo Apple, iPod, iTunes et Mac sont des marques d’Apple Inc., déposées aux États-Unis et dans d’autres pays. iPhone et MacBook Air sont des marques déposées d’Apple Inc. MobileMe est une marque de service d’Apple Inc. App4Phone.fr et son App ne sont pas liés à Apple et les marques citées sont la propriété de leurs détenteurs respectifs.

    Type above and press Enter to search. Press Esc to cancel.