
Apple vient de dévoiler VSSFlow, un modèle d’IA innovant qui permet de générer sons et discours à partir de vidéos sans son. Grâce à une architecture créative, ce système unifié offre des résultats à la pointe de la technologie.
Le problème
Actuellement, la plupart des modèles visant à générer des sons à partir de vidéos silencieuses peinent à produire un discours de qualité. De même, les modèles de conversion texte-voix (TTS) ne parviennent pas à générer des sons non liés à la parole, étant spécifiquement conçus pour un autre objectif. Les tentatives passées de fusionner ces deux tâches reposaient souvent sur l’idée que l’entraînement en commun diminuait la performance. Les chercheurs ont donc tendance à enseigner la parole et le son en séparé, rendant le processus plus complexe.
Face à ce défi, trois chercheurs d’Apple, avec six collègues de l’Université Renmin de Chine, ont élaboré VSSFlow, un modèle capable de générer à la fois des effets sonores et des discours à partir de vidéos silencieuses dans un système unique.
La solution
VSSFlow utilise divers concepts de l’IA générative, incluant la conversion de transcriptions en séquences de phonèmes et l’apprentissage pour reconstruire le son à partir du bruit grâce à un processus appelé flow-matching. Cela permet au modèle de commencer à partir de bruit aléatoire pour produire le signal souhaité. L’architecture à 10 couches intègre directement les signaux vidéo et les transcriptions dans le processus de génération audio, permettant de gérer à la fois les effets sonores et la parole.
Fait encore plus intéressant, les chercheurs ont constaté que l’entraînement commun sur la parole et le son améliorait la performance sur les deux tâches, plutôt que de les faire compétitionner ou de dégrader le rendement global.
Mise en œuvre de VSSFlow
Pour générer du son et de la parole à partir d’une vidéo silencieuse, le modèle commence par du bruit aléatoire et utilise des indices visuels extraits de la vidéo à une cadence de 10 images par seconde pour façonner les sons ambiants. En parallèle, une transcription guide précisément la voix générée.
Lors des tests, VSSFlow a obtenu des résultats compétitifs face à des modèles spécifiques uniquement conçus pour des effets sonores ou pour la parole, dépassant plusieurs mesures clés malgré l’utilisation d’un système unifié. Les chercheurs ont également publié des démonstrations des résultats de son, de parole et de génération conjointe, montrant la supériorité de leur modèle.
VSSFlow a été mis à disposition en open source sur GitHub, et l’équipe travaille également à l’ouverture des poids du modèle. En ce qui concerne les futures recherches, les chercheurs s’orientent vers l’exploration de nouvelles méthodes de représentation pour le son et la parole, ainsi que sur la nécessité urgente de données de haute qualité pour le développement de modèles génératifs unifiés.