Close Menu
App4PhoneApp4Phone
    Facebook X (Twitter)
    • Bons plans
    • Fonds d’écran
    • Rumeurs
    • À propos
    • Publicité sur App4Phone
    Facebook X (Twitter)
    App4PhoneApp4Phone
    • Accueil
    • Actualité
    • Astuces
    • Boutique
      • Coques
        • iPhone 16
        • iPhone 15
        • iPhone 14
        • iPhone 13
        • iPhone 12
        • iPhone 11
        • iPhone XR
        • iPhone X(S)
        • iPhone SE
        • iPhone 8
      • Verres trempés
        • iPhone 16
        • iPhone 15
        • iPhone 14
        • iPhone 13
        • iPhone 12
        • iPhone 11
        • iPhone XR
        • iPhone X(S)
        • iPhone SE
        • iPhone 8
      • Accessoires
    • Contact
    • Bons plans
    • Fonds d’écran
    • Rumeurs
    • À propos
    • Publicité sur App4Phone
    App4PhoneApp4Phone
    Home»Actualité»Apple forme un modèle linguistique avancé pour comprendre efficacement les vidéos longues
    Actualité

    Apple forme un modèle linguistique avancé pour comprendre efficacement les vidéos longues

    Thomas MorelBy Thomas Morelaoût 23, 2025Aucun commentaire4 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email

    Les chercheurs d’Apple ont développé une version adaptée du modèle SlowFast-LLaVA, surpassant des modèles plus volumineux dans l’analyse et la compréhension des vidéos longues. Voici ce que cela implique.

    Détails techniques

    Fondamentalement, lorsqu’un modèle linguistique est entraîné pour comprendre également des vidéos, il apprend à décomposer celles-ci en images, à appliquer la vision par ordinateur pour extraire des caractéristiques visuelles, à analyser comment ces caractéristiques évoluent dans le temps, et à aligner le tout avec le langage afin de décrire ou de raisonner sur la vidéo sous forme de texte.

    Une manière très inefficace de procéder consiste à analyser chaque image d’une vidéo, créant une quantité écrasante d’informations dupliquées, puisque la plupart des images présentent rarement des changements significatifs d’une à l’autre.

    Cette surcharge d’informations risque de dépasser la fenêtre de contexte du modèle, c’est-à-dire la quantité maximale d’informations qu’il peut retenir simultanément. Une fois cette limite dépassée, il doit ignorer les anciens tokens pour faire de la place aux nouveaux.

    La recherche d’Apple

    Dans l’article intitulé SlowFast-LLaVA-1.5 : A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding, les chercheurs d’Apple expliquent :

    « Les modèles linguistiques vidéo intègrent la perception vidéo dans des modèles linguistiques pré-entraînés pour traiter des vidéos et générer des réponses aux commandes des utilisateurs. Bien que des progrès significatifs aient été réalisés, des limitations notables demeurent dans les modèles vidéo existants. »

    Les limitations identifiées par l’équipe sont les suivantes :

    • Une dépendance excessive à de longues fenêtres de contexte et à un grand nombre d’images, rendant cela inefficace et difficile à transférer vers des modèles de taille plus réduite.
    • La nécessité de pipelines d’entraînement multi-étapes complexes, souvent basés sur des ensembles de données privés, rendant leur reproduction difficile.
    • Une optimisation souvent limitée aux tâches vidéo, ce qui limite leur utilité en tant que modèles polyvalents comprenant également des images.

    Pour surmonter ces limitations, Apple a examiné le modèle open-source SlowFast-LLaVA, qui avait déjà montré des résultats prometteurs grâce à un système à deux flux : un flux lent se concentrant sur moins d’images avec plus de détails, et un flux rapide qui examine plus d’images avec moins de détails pour suivre les mouvements dans le temps.

    Apple a d’abord affiné SlowFast-LLaVA sur des images pour développer des capacités générales de raisonnement visuel. Ensuite, il a été formé conjointement sur des images et des vidéos, à partir d’ensembles de données publics, pour apprendre la structure temporelle sans compromettre la compréhension des images.

    Le résultat est SlowFast-LLaVA-1.5 (ou SF-LLaVA-1.5), une famille de modèles offrant des échelles de paramètres de 1B, 3B et 7B, qui parviennent à surpasser des modèles beaucoup plus volumineux dans une gamme de tâches vidéo, parfois « par des marges significatives », selon les propres observations des chercheurs.

    Sur les benchmarks de vidéos longues comme LongVideoBench et MLVU, le modèle d’Apple établit de nouveaux records d’état de l’art, y compris pour sa version la plus petite, celle de 1B.

    Mieux encore, le modèle sort également de l’une des trois faiblesses notées par les chercheurs, en affichant de bonnes performances sur des tâches d’image, y compris les benchmarks de connaissance, de raisonnement mathématique, de reconnaissance optique de caractères, et des scénarios riches en texte.

    Limites persistantes

    Avec SF-LLaVA-1.5, les chercheurs d’Apple ont décidé que le modèle aurait une longueur maximale d’entrée de 128 images. Cela signifie que, qu’il s’agisse d’analyser un clip de quelques minutes ou de plusieurs heures, il atteint toujours un maximum de 128 images, avec 96 images espacées uniformément pour le flux rapide et 32 images pour le flux lent.

    Les chercheurs notent alors :

    « Cette approche peut manquer de certaines images clés dans des vidéos longues et induire en erreur le modèle sur la vitesse de lecture d’une vidéo. (…) Les performances de SF-LLaVA-1.5 peuvent être encore améliorées par l’ajustement de tous les paramètres, y compris l’encodeur visuel. Cependant, nous avons constaté que cela n’était pas trivial pour les LLM vidéo longs en raison du coût mémoire GPU élevé pour le cache des valeurs d’activation. De futures études pourraient explorer l’intégration de techniques d’économie de mémoire, telles que le Stochastic BP. »

    Cela dit, l’approche d’Apple a abouti à un modèle de pointe, formé exclusivement sur des ensembles de données publics. SF-LLaVA-1.5 est désormais un modèle open-source disponible sur GitHub et Hugging Face, et vous pouvez trouver l’étude complète sur arXiv.

    Exemples de fonctionnement du modèle

    Voici quelques exemples du modèle en action :

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleApple porte plainte contre un ex-ingénieur de l’Apple Watch pour fuite de secrets commerciaux
    Next Article Apple prépare un support IA pour les entreprises au-delà de ChatGPT
    Thomas Morel

    Passionné par la tech et le digital, Thomas Morel est un rédacteur spécialisé dans l’univers Apple, iPhone et iOS. Avec plusieurs années d’expérience dans le blogging et le SEO, il décrypte l’actualité high-tech et propose des analyses claires et précises.

    Related Posts

    Actualité

    Apple met en avant les histoires de sauvetage grâce à l’Apple Watch dans une nouvelle campagne

    avril 30, 2026
    Actualité

    Apple développe un cadre d’IA capable d’explorer plusieurs idées avant de répondre

    avril 30, 2026
    Actualité

    Améliorations récentes d’Apple Home : trois nouvelles fonctionnalités à découvrir

    avril 29, 2026
    Leave A Reply Cancel Reply

    la coque iphone la plus fine du monde
    Top 5

    iPhone 18 Pro : date de sortie et nouveautés à venir

    avril 17, 2026

    iPhone 18 et iPhone Air 2 : fuites sur le design et la date de sortie

    avril 6, 2026

    L’iPhone 18 Pro promet des avancées majeures en matière de photographie

    avril 29, 2026

    Nouvelles fuites sur l’iPhone 18 Pro : détails de conception et dimensions révélés

    mars 11, 2026

    iOS 26.5 : date de sortie de la première bêta à venir ?

    mars 27, 2026
    Suivez-nous
    • Facebook 4.3K
    • Twitter 2.5K
    Facebook X (Twitter)
    • À propos
    • Contact
    • Publicité sur App4Phone

    Nos sites : ShopSystem • AppSystem • Worldissmall

    Copyright © 2026 App4Phone. Publié depuis 2011.

    bannière appstore

    Apple, le logo Apple, iPod, iTunes et Mac sont des marques d’Apple Inc., déposées aux États-Unis et dans d’autres pays. iPhone et MacBook Air sont des marques déposées d’Apple Inc. MobileMe est une marque de service d’Apple Inc. App4Phone.fr et son App ne sont pas liés à Apple et les marques citées sont la propriété de leurs détenteurs respectifs.

    Type above and press Enter to search. Press Esc to cancel.