
Les chercheurs d’Apple ont développé une version adaptée du modèle SlowFast-LLaVA, surpassant des modèles plus volumineux dans l’analyse et la compréhension des vidéos longues. Voici ce que cela implique.
Détails techniques
Fondamentalement, lorsqu’un modèle linguistique est entraîné pour comprendre également des vidéos, il apprend à décomposer celles-ci en images, à appliquer la vision par ordinateur pour extraire des caractéristiques visuelles, à analyser comment ces caractéristiques évoluent dans le temps, et à aligner le tout avec le langage afin de décrire ou de raisonner sur la vidéo sous forme de texte.
Une manière très inefficace de procéder consiste à analyser chaque image d’une vidéo, créant une quantité écrasante d’informations dupliquées, puisque la plupart des images présentent rarement des changements significatifs d’une à l’autre.
Cette surcharge d’informations risque de dépasser la fenêtre de contexte du modèle, c’est-à-dire la quantité maximale d’informations qu’il peut retenir simultanément. Une fois cette limite dépassée, il doit ignorer les anciens tokens pour faire de la place aux nouveaux.
La recherche d’Apple
Dans l’article intitulé SlowFast-LLaVA-1.5 : A Family of Token-Efficient Video Large Language Models for Long-Form Video Understanding, les chercheurs d’Apple expliquent :
« Les modèles linguistiques vidéo intègrent la perception vidéo dans des modèles linguistiques pré-entraînés pour traiter des vidéos et générer des réponses aux commandes des utilisateurs. Bien que des progrès significatifs aient été réalisés, des limitations notables demeurent dans les modèles vidéo existants. »
Les limitations identifiées par l’équipe sont les suivantes :
- Une dépendance excessive à de longues fenêtres de contexte et à un grand nombre d’images, rendant cela inefficace et difficile à transférer vers des modèles de taille plus réduite.
- La nécessité de pipelines d’entraînement multi-étapes complexes, souvent basés sur des ensembles de données privés, rendant leur reproduction difficile.
- Une optimisation souvent limitée aux tâches vidéo, ce qui limite leur utilité en tant que modèles polyvalents comprenant également des images.
Pour surmonter ces limitations, Apple a examiné le modèle open-source SlowFast-LLaVA, qui avait déjà montré des résultats prometteurs grâce à un système à deux flux : un flux lent se concentrant sur moins d’images avec plus de détails, et un flux rapide qui examine plus d’images avec moins de détails pour suivre les mouvements dans le temps.
Apple a d’abord affiné SlowFast-LLaVA sur des images pour développer des capacités générales de raisonnement visuel. Ensuite, il a été formé conjointement sur des images et des vidéos, à partir d’ensembles de données publics, pour apprendre la structure temporelle sans compromettre la compréhension des images.
Le résultat est SlowFast-LLaVA-1.5 (ou SF-LLaVA-1.5), une famille de modèles offrant des échelles de paramètres de 1B, 3B et 7B, qui parviennent à surpasser des modèles beaucoup plus volumineux dans une gamme de tâches vidéo, parfois « par des marges significatives », selon les propres observations des chercheurs.
Sur les benchmarks de vidéos longues comme LongVideoBench et MLVU, le modèle d’Apple établit de nouveaux records d’état de l’art, y compris pour sa version la plus petite, celle de 1B.
Mieux encore, le modèle sort également de l’une des trois faiblesses notées par les chercheurs, en affichant de bonnes performances sur des tâches d’image, y compris les benchmarks de connaissance, de raisonnement mathématique, de reconnaissance optique de caractères, et des scénarios riches en texte.
Limites persistantes
Avec SF-LLaVA-1.5, les chercheurs d’Apple ont décidé que le modèle aurait une longueur maximale d’entrée de 128 images. Cela signifie que, qu’il s’agisse d’analyser un clip de quelques minutes ou de plusieurs heures, il atteint toujours un maximum de 128 images, avec 96 images espacées uniformément pour le flux rapide et 32 images pour le flux lent.
Les chercheurs notent alors :
« Cette approche peut manquer de certaines images clés dans des vidéos longues et induire en erreur le modèle sur la vitesse de lecture d’une vidéo. (…) Les performances de SF-LLaVA-1.5 peuvent être encore améliorées par l’ajustement de tous les paramètres, y compris l’encodeur visuel. Cependant, nous avons constaté que cela n’était pas trivial pour les LLM vidéo longs en raison du coût mémoire GPU élevé pour le cache des valeurs d’activation. De futures études pourraient explorer l’intégration de techniques d’économie de mémoire, telles que le Stochastic BP. »
Cela dit, l’approche d’Apple a abouti à un modèle de pointe, formé exclusivement sur des ensembles de données publics. SF-LLaVA-1.5 est désormais un modèle open-source disponible sur GitHub et Hugging Face, et vous pouvez trouver l’étude complète sur arXiv.
Exemples de fonctionnement du modèle
Voici quelques exemples du modèle en action :