Close Menu
App4PhoneApp4Phone
    Facebook X (Twitter)
    • Bons plans
    • Fonds d’écran
    • Rumeurs
    • À propos
    • Publicité sur App4Phone
    Facebook X (Twitter)
    App4PhoneApp4Phone
    • Accueil
    • Actualité
    • Astuces
    • Boutique
      • Coques
        • iPhone 16
        • iPhone 15
        • iPhone 14
        • iPhone 13
        • iPhone 12
        • iPhone 11
        • iPhone XR
        • iPhone X(S)
        • iPhone SE
        • iPhone 8
      • Verres trempés
        • iPhone 16
        • iPhone 15
        • iPhone 14
        • iPhone 13
        • iPhone 12
        • iPhone 11
        • iPhone XR
        • iPhone X(S)
        • iPhone SE
        • iPhone 8
      • Accessoires
    • Contact
    • Bons plans
    • Fonds d’écran
    • Rumeurs
    • À propos
    • Publicité sur App4Phone
    App4PhoneApp4Phone
    Home»Actualité»VSSFlow : un modèle d’IA d’Apple capable de générer sons et discours à partir de vidéos silencieuses
    Actualité

    VSSFlow : un modèle d’IA d’Apple capable de générer sons et discours à partir de vidéos silencieuses

    Thomas MorelBy Thomas Morelfévrier 9, 2026Aucun commentaire3 Mins Read
    Share Facebook Twitter Pinterest LinkedIn Tumblr Reddit Telegram Email
    Share
    Facebook Twitter LinkedIn Pinterest Email

    Apple vient de dévoiler VSSFlow, un modèle d’IA innovant qui permet de générer sons et discours à partir de vidéos sans son. Grâce à une architecture créative, ce système unifié offre des résultats à la pointe de la technologie.

    Le problème

    Actuellement, la plupart des modèles visant à générer des sons à partir de vidéos silencieuses peinent à produire un discours de qualité. De même, les modèles de conversion texte-voix (TTS) ne parviennent pas à générer des sons non liés à la parole, étant spécifiquement conçus pour un autre objectif. Les tentatives passées de fusionner ces deux tâches reposaient souvent sur l’idée que l’entraînement en commun diminuait la performance. Les chercheurs ont donc tendance à enseigner la parole et le son en séparé, rendant le processus plus complexe.

    Face à ce défi, trois chercheurs d’Apple, avec six collègues de l’Université Renmin de Chine, ont élaboré VSSFlow, un modèle capable de générer à la fois des effets sonores et des discours à partir de vidéos silencieuses dans un système unique.

    La solution

    VSSFlow utilise divers concepts de l’IA générative, incluant la conversion de transcriptions en séquences de phonèmes et l’apprentissage pour reconstruire le son à partir du bruit grâce à un processus appelé flow-matching. Cela permet au modèle de commencer à partir de bruit aléatoire pour produire le signal souhaité. L’architecture à 10 couches intègre directement les signaux vidéo et les transcriptions dans le processus de génération audio, permettant de gérer à la fois les effets sonores et la parole.

    Fait encore plus intéressant, les chercheurs ont constaté que l’entraînement commun sur la parole et le son améliorait la performance sur les deux tâches, plutôt que de les faire compétitionner ou de dégrader le rendement global.

    Mise en œuvre de VSSFlow

    Pour générer du son et de la parole à partir d’une vidéo silencieuse, le modèle commence par du bruit aléatoire et utilise des indices visuels extraits de la vidéo à une cadence de 10 images par seconde pour façonner les sons ambiants. En parallèle, une transcription guide précisément la voix générée.

    Lors des tests, VSSFlow a obtenu des résultats compétitifs face à des modèles spécifiques uniquement conçus pour des effets sonores ou pour la parole, dépassant plusieurs mesures clés malgré l’utilisation d’un système unifié. Les chercheurs ont également publié des démonstrations des résultats de son, de parole et de génération conjointe, montrant la supériorité de leur modèle.

    VSSFlow a été mis à disposition en open source sur GitHub, et l’équipe travaille également à l’ouverture des poids du modèle. En ce qui concerne les futures recherches, les chercheurs s’orientent vers l’exploration de nouvelles méthodes de représentation pour le son et la parole, ainsi que sur la nécessité urgente de données de haute qualité pour le développement de modèles génératifs unifiés.

    Share. Facebook Twitter Pinterest LinkedIn Tumblr Email
    Previous ArticleL’intérieur de Ferrari signé Jony Ive : un aperçu de l’Apple Car qui n’a jamais vu le jour
    Next Article Les prochains AirPods Pro devraient intégrer des caméras, selon un leaker
    Thomas Morel

    Passionné par la tech et le digital, Thomas Morel est un rédacteur spécialisé dans l’univers Apple, iPhone et iOS. Avec plusieurs années d’expérience dans le blogging et le SEO, il décrypte l’actualité high-tech et propose des analyses claires et précises.

    Related Posts

    Actualité

    Apple présente un modèle d’IA pour recréer des objets 3D à partir d’une seule image

    mars 17, 2026
    Actualité

    Apple présente huit nouveaux produits en ce mois de mars

    mars 17, 2026
    Actualité

    Appel de l’iPhone : une fonctionnalité de filtrage indispensable sous iOS 26

    mars 16, 2026
    Leave A Reply Cancel Reply

    la coque iphone la plus fine du monde
    Top 5

    Nouvelles fuites sur l’iPhone 18 Pro : détails de conception et dimensions révélés

    mars 11, 2026

    Quatre nouveaux iPhones bientôt disponibles : voici ce qui nous attend

    janvier 9, 2026

    Ce que prépare Apple pour janvier

    janvier 2, 2026

    iOS 26.3 : date de sortie et nouveautés attendues

    janvier 15, 2026

    Le nouveau MacBook à bas prix d’Apple sera-t-il vraiment intéressant ?

    mars 1, 2026
    Suivez-nous
    • Facebook 4.3K
    • Twitter 2.5K
    Facebook X (Twitter)
    • À propos
    • Contact
    • Publicité sur App4Phone

    Nos sites : ShopSystem • AppSystem • Worldissmall

    Copyright © 2026 App4Phone. Publié depuis 2011.

    bannière appstore

    Apple, le logo Apple, iPod, iTunes et Mac sont des marques d’Apple Inc., déposées aux États-Unis et dans d’autres pays. iPhone et MacBook Air sont des marques déposées d’Apple Inc. MobileMe est une marque de service d’Apple Inc. App4Phone.fr et son App ne sont pas liés à Apple et les marques citées sont la propriété de leurs détenteurs respectifs.

    Type above and press Enter to search. Press Esc to cancel.