LLM et données audio : l'étude d'Apple révélée

Les chercheurs d’Apple ont publié une étude explorant comment les modèles de langage à grande échelle (LLM) peuvent analyser des données audio et de mouvement afin de mieux appréhender les activités des utilisateurs. Voici les détails.

DES CAPACITÉS PROMETTEUSES, SANS ÊTRE INTRUSIVES

Intitulé « Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition », ce papier révèle comment Apple envisage d’intégrer l’analyse des LLM aux données de capteurs traditionnels pour affiner la compréhension des activités. Les chercheurs estiment que cette méthode pourrait améliorer la précision de l’analyse, même dans des situations où les données des capteurs sont insuffisantes.

Les chercheurs déclarent :
> « Les flux de données des capteurs fournissent des informations précieuses concernant les activités et le contexte pour des applications en aval, bien que l’intégration d’informations complémentaires puisse s’avérer complexe. Nous démontrons que les grands modèles de langage (LLM) peuvent être utilisés pour une fusion tardive afin de classifier les activités à partir de données audio et de mouvement. »

Autrement dit, les LLM sont capables d’inférer avec succès les activités d’un utilisateur à partir de signaux audio et de mouvement, même sans formation préalable spécifique. Leur précision s’améliore d’ailleurs lorsqu’on leur fournit un seul exemple.

PLONGÉE EN DÉTAILS

Dans leur étude, les chercheurs ont utilisé Ego4D, un vaste ensemble de données comportant des médias capturés en perspective de première personne. Ce corpus contient des milliers d’heures d’environnements et de situations réelles, allant des tâches ménagères aux activités en plein air.

Les chercheurs ont noté :
> « Nous avons constitué un ensemble de données d’activités quotidiennes à partir de l’ensemble Ego4D en recherchant des descriptions d’activités courantes. Cet ensemble inclus des échantillons de 20 secondes issus de douze activités majeures : passer l’aspirateur, cuisiner, faire la lessive, manger, jouer au basketball, jouer au football, jouer avec des animaux de compagnie, lire un livre, utiliser un ordinateur, laver la vaisselle, regarder la télévision et s’entraîner. »

Les chercheurs ont ensuite traité les données audio et de mouvement à travers des modèles plus petits pour générer des descriptions textuelles, puis ont soumis ces résultats à différents LLM afin d’évaluer leur capacité à identifier les activités. Sur ces tests, deux configurations ont été testées : une avec une liste fermée des 12 activités possibles et une autre wherein aucune option n’était fournie.

En fin de compte, les résultats de cette étude offrent des indications prometteuses sur les bénéfices de la combinaison de plusieurs modèles pour l’analyse des données d’activité et de santé, surtout lorsque les données brutes des capteurs ne suffisent pas à donner une image claire de l’activité de l’utilisateur.

En complément de l’étude, Apple a publié des matériaux supplémentaires, incluant les identifiants de segments Ego4D, des horodatages et des exemples utilisés dans les expériences, afin d’aider les chercheurs intéressés à reproduire ces résultats.

Une étude d’Apple révèle que les LLM peuvent deviner vos activités grâce aux données audio et de mouvement

Apple ferme définitivement trois magasins aujourd’hui : la liste des adresses

Usine de pièces pour iPhone en Inde : enquête sanitaire sur une contamination présumée de l’eau

visionOS 27 : deux avantages exclusifs pour les modèles M5 Vision Pro

iPhone 18 Pro : date de sortie et nouveautés attendues

iPhone 18 Pro : date de sortie et nouveautés à venir

iPhone 18 Pro : six nouvelles fonctionnalités attendues cette année

iPhone 18 Pro : trois nouvelles fonctionnalités pour vous inciter à upgrader

iPhone 18 et iPhone Air 2 : fuites sur le design et la date de sortie

Une étude d’Apple révèle que les LLM peuvent deviner vos activités grâce aux données audio et de mouvement

DES CAPACITÉS PROMETTEUSES, SANS ÊTRE INTRUSIVES

PLONGÉE EN DÉTAILS

Related Posts