
Les chercheurs d’Apple ont publié une étude explorant comment les modèles de langage à grande échelle (LLM) peuvent analyser des données audio et de mouvement afin de mieux appréhender les activités des utilisateurs. Voici les détails.
DES CAPACITÉS PROMETTEUSES, SANS ÊTRE INTRUSIVES
Intitulé « Using LLMs for Late Multimodal Sensor Fusion for Activity Recognition », ce papier révèle comment Apple envisage d’intégrer l’analyse des LLM aux données de capteurs traditionnels pour affiner la compréhension des activités. Les chercheurs estiment que cette méthode pourrait améliorer la précision de l’analyse, même dans des situations où les données des capteurs sont insuffisantes.
Les chercheurs déclarent :
> « Les flux de données des capteurs fournissent des informations précieuses concernant les activités et le contexte pour des applications en aval, bien que l’intégration d’informations complémentaires puisse s’avérer complexe. Nous démontrons que les grands modèles de langage (LLM) peuvent être utilisés pour une fusion tardive afin de classifier les activités à partir de données audio et de mouvement. »
Autrement dit, les LLM sont capables d’inférer avec succès les activités d’un utilisateur à partir de signaux audio et de mouvement, même sans formation préalable spécifique. Leur précision s’améliore d’ailleurs lorsqu’on leur fournit un seul exemple.
PLONGÉE EN DÉTAILS
Dans leur étude, les chercheurs ont utilisé Ego4D, un vaste ensemble de données comportant des médias capturés en perspective de première personne. Ce corpus contient des milliers d’heures d’environnements et de situations réelles, allant des tâches ménagères aux activités en plein air.
Les chercheurs ont noté :
> « Nous avons constitué un ensemble de données d’activités quotidiennes à partir de l’ensemble Ego4D en recherchant des descriptions d’activités courantes. Cet ensemble inclus des échantillons de 20 secondes issus de douze activités majeures : passer l’aspirateur, cuisiner, faire la lessive, manger, jouer au basketball, jouer au football, jouer avec des animaux de compagnie, lire un livre, utiliser un ordinateur, laver la vaisselle, regarder la télévision et s’entraîner. »
Les chercheurs ont ensuite traité les données audio et de mouvement à travers des modèles plus petits pour générer des descriptions textuelles, puis ont soumis ces résultats à différents LLM afin d’évaluer leur capacité à identifier les activités. Sur ces tests, deux configurations ont été testées : une avec une liste fermée des 12 activités possibles et une autre wherein aucune option n’était fournie.
En fin de compte, les résultats de cette étude offrent des indications prometteuses sur les bénéfices de la combinaison de plusieurs modèles pour l’analyse des données d’activité et de santé, surtout lorsque les données brutes des capteurs ne suffisent pas à donner une image claire de l’activité de l’utilisateur.
En complément de l’étude, Apple a publié des matériaux supplémentaires, incluant les identifiants de segments Ego4D, des horodatages et des exemples utilisés dans les expériences, afin d’aider les chercheurs intéressés à reproduire ces résultats.