
Apple vient de publier une étude fascinante sur son blog de recherche en apprentissage machine, intitulée EMBridge : Améliorer la généralisation des gestes à partir des signaux EMG grâce à l’apprentissage de représentations croisées. Cette étude sera présentée lors de la conférence ICLR 2026 en avril.
Les chercheurs expliquent comment ils ont entraîné un modèle d’IA pour reconnaître des gestes de la main, même quand ces gestes spécifiques n’étaient pas inclus dans l’ensemble de données d’origine.
Pour ce faire, ils ont développé EMBridge, un cadre d’apprentissage de représentations croisées qui comble l’écart modal entre les signaux EMG et la pose des mains.
Qu’est-ce que l’EMG ?
L’électromyographie (EMG) mesure l’activité électrique générée par les muscles lors de leur contraction. Ses applications pratiques vont du diagnostic médical à la thérapie physique, en passant par le contrôle des membres prosthétiques. Plus récemment, elle a été explorée dans les dispositifs portables et les systèmes de réalité augmentée/virtuelle.
Par exemple, les lunettes Display Ray-Ban de Meta utilisent une technologie EMG sous la forme d’un appareil portable au poignet, connu sous le nom de Neural Band, qui interprète les signaux musculaires pour naviguer dans les fonctionnalités des lunettes.
Les données d’entraînement utilisées
Dans l’étude d’Apple, les signaux EMG utilisés pour l’entraînement n’étaient pas détectés par un appareil portable au poignet. Les chercheurs ont utilisé deux ensembles de données :
- emg2pose : Un ensemble de données EMG open-source à grande échelle contenant plus de 370 heures de données sEMG synchronisées avec des données de pose de main issues de 193 utilisateurs consentants, incluant diverses catégories de gestes.
- NinaPro DB2 : Cet ensemble de données comprend 49 gestes de la main réalisés par 40 sujets et a été utilisé pour l’évaluation de la méthode EMBridge.
Avec cela, il est clair qu’EMBridge pourrait ouvrir la voie à un futur modèle d’Apple Watch (ou d’autres appareils portables) pouvant contrôler des dispositifs tels que l’Apple Vision Pro, les Mac, les iPhones et même de potentielles lunettes intelligentes.
Comment fonctionne EMBridge ?
EMBridge a été conçu pour faire le lien entre les signaux musculaires EMG réels et les données structurées de pose de main. Le modèle a d’abord été pré-entraîné sur les données EMG et de pose de main séparément, avant que les chercheurs ne les alignent pour que l’encodeur EMG puisse bénéficier de l’encodeur de pose. Cela a permis à EMBridge d’apprendre à reconnaître les motifs de gestes à partir des signaux EMG.
La méthode de formation impliquait une reconstruction masquée des poses, où certaines parties des données de pose étaient cachées, et le modèle devait les reconstruire en utilisant uniquement les informations extraites des signaux EMG. Les chercheurs ont observé qu’EMBridge était le premier cadre d’apprentissage de représentation croisée à atteindre une classification de gestes en zéro-shot à partir de signaux EMG portables, ce qui montre un potentiel prometteur pour la reconnaissance gestuelle dans les dispositifs portables.
Cependant, une limitation importante de l’étude est que le modèle dépend d’ensembles de données contenant des signaux EMG et des données de pose de main synchronisées, ce qui peut rendre la collecte de telles données difficile.