
Dans le cadre de ses travaux sur les modèles de discours et de voix, Apple a récemment publié une étude qui adopte une approche très centrée sur l’humain pour un problème subtil du machine learning : reconnaître non seulement ce qui a été dit, mais comment cela a été exprimé. Les implications en matière d’accessibilité sont monumentales.
Dans cette étude, les chercheurs présentent un cadre d’analyse de la voix basé sur ce qu’ils appellent les Dimensions de Qualité de Voix (VQD), qui incluent des traits interprétables comme l’intelligibilité, l’âpreté, la lassitude, la monotonie de la tonalité, entre autres.
Ces mêmes attributs sont ceux auxquels prêtent attention les pathologistes du langage lors de l’évaluation des voix touchées par des conditions neurologiques ou des maladies. Désormais, Apple développe des modèles capables de les détecter également.
Former l’IA à écouter
La plupart des modèles de discours actuels sont formés principalement sur des voix normales et saines. Cela signifie qu’ils tendent à rencontrer des difficultés lorsque les utilisateurs émettent des sons différents, créant ainsi un écart d’accessibilité significatif.
Les chercheurs d’Apple ont formé des sondes légères, des modèles diagnostics simples fonctionnant en complément des systèmes de parole existants, sur un vaste ensemble de données publiques annotées regroupant des discours atypiques, y compris des voix de personnes atteintes de la maladie de Parkinson, de la SLA et de paralysie cérébrale.
Le point crucial est qu’au lieu d’utiliser ces modèles pour transcrire les propos, ils ont mesuré la qualité de la voix, en utilisant sept dimensions fondamentales :
- Intelligibilité : facilité de compréhension du discours.
- Consonnes imprécises : clarté de l’articulation des sons consonantiques (ex. : consonnes brouillées).
- Voix âpre : qualité vocale rude, tendue ou granuleuse.
- Naturel : fluidité ou typicalité du discours perçue par l’auditeur.
- Monoloudness : absence de variation d’intensité (parler à un volume constant).
- Monopitch : absence de variation de tonalité, résultant en un ton plat ou robotique.
- Souffle : qualité vocale audiblement aérienne ou chuchotée, souvent due à une fermeture incomplète des cordes vocales.
En résumé, ils ont appris aux machines à « écouter comme un clinicien », plutôt que de se contenter d’enregistrer les mots prononcés.
Pour être plus précis, Apple a utilisé cinq modèles (CLAP, HuBERT, HuBERT ASR, Raw-Net3, SpICE) pour extraire des caractéristiques audio, puis a formé des sondes légères pour prédire les dimensions de qualité vocale à partir de ces caractéristiques.
Les résultats montrent que ces sondes ont bien performé dans la plupart des dimensions, même si les performances variaient légèrement selon les traits et les tâches.
Au-delà de l’accessibilité
Fait intéressant, Apple ne s’est pas uniquement concentré sur la parole clinique. L’équipe a également testé ses modèles sur des discours émotionnels provenant d’un ensemble de données appelé RAVDESS, et bien qu’ils n’aient jamais été formés sur des enregistrements émotionnels, les modèles VQD ont produit des prédictions intuitives.
Par exemple, les voix en colère présentaient une « monoloudness » plus faible, les voix calmes étaient perçues comme moins âpres, et les voix tristes apparaissaient plus monotones. Cela pourrait ouvrir la voie à un Siri plus réactif, capable de moduler son ton et sa manière de s’exprimer en fonction de l’état émotionnel ou de l’humeur de l’utilisateur, en plus des mots prononcés.
L’étude complète est disponible sur arXiv.