
Les rumeurs courant sur les projets d’Apple concernant des dispositifs portables équipés de caméras deviennent de plus en plus fréquentes, mais un aspect fondamental est souvent négligé : l’accessibilité.
SceneScout, un nouveau prototype de recherche développé par Apple en collaboration avec l’Université de Columbia, ne s’agit pas encore d’un dispositif portable. Cependant, il ouvre la voie vers ce que l’IA pourrait réaliser pour les utilisateurs aveugles ou malvoyants. Les chercheurs expliquent :
« Les personnes aveugles ou malvoyantes peuvent hésiter à voyager de manière autonome dans des environnements inconnus à cause de l’incertitude liée au paysage physique. La plupart des outils se concentrent sur la navigation pendant le déplacement, tandis que ceux axés sur l’assistance pré-voyage se limitent souvent à des repères et des instructions tournantes, sans fournir de contexte visuel détaillé. Les images de vue de rue, contenant une riche information visuelle et la possibilité de révéler de nombreux détails environnementaux, demeurent inaccessibles aux personnes aveugles ou malvoyantes. »
Pour remédier à cette lacune, les chercheurs proposent ce projet qui combine les API d’Apple Maps avec un modèle de langage multimodal afin de fournir des descriptions interactives générées par IA d’images de vues de rue.
Au lieu de se limiter à des directions tournantes ou à des repères, les utilisateurs peuvent explorer un itinéraire complet ou découvrir un quartier block par block, avec des descriptions de niveau de rue adaptées à leurs besoins et préférences spécifiques.
Modes d’utilisation
Le système prend en charge deux modes principaux :
- Aperçu de l’itinéraire, qui permet aux utilisateurs de visualiser ce qu’ils rencontreront le long d’un chemin spécifique : qualité des trottoirs, intersections, repères visuels, etc.
- Exploration virtuelle, qui est plus ouverte. Les utilisateurs décrivent leurs recherches (par exemple, une zone résidentielle calme avec accès à des parcs), et l’IA les aide à naviguer à travers les intersections et à explorer dans n’importe quelle direction selon cette intention.
En coulisses, SceneScout établit un agent basé sur GPT-4o ancré dans des données cartographiques réelles et des images panoramiques provenant d’Apple Maps. Il simule la vue d’un piéton, interprète ce qui est visible et produit un texte structuré, divisé en descriptions courtes, moyennes ou longues. L’interface web, conçue en tenant compte des lecteurs d’écran, présente tout cela dans un format entièrement accessible.
Les premiers tests : promesses et limites
Une étude menée avec dix utilisateurs aveugles ou malvoyants, la majorité étant à l’aise avec les lecteurs d’écran et travaillant dans le secteur technologique, a permis d’obtenir des résultats prometteurs.
Les participants ont évalué à la fois le mode Aperçu de l’itinéraire et le mode Exploration virtuelle, leur attribuant une note élevée en termes d’utilité et de pertinence. Le mode Exploration virtuelle a été particulièrement salué, car beaucoup ont déclaré qu’il leur avait permis d’accéder à des informations qu’ils auraient normalement dû demander à autrui.
Cependant, des lacunes importantes persistent. Bien que près de 72 % des descriptions générées aient été jugées précises, certaines contenaient des hallucinations subtiles, comme affirmer qu’un passage piéton avait des signaux audio alors que ce n’était pas le cas, ou mal étiqueter des panneaux de signalisation. De plus, si la plupart des informations s’avéraient stables dans le temps, quelques descriptions faisaient allusion à des détails obsolètes ou passagers, comme des zones de construction ou des véhicules garés.
Les participants ont également souligné que le système faisait parfois des hypothèses non fondées, tant sur les capacités physiques de l’utilisateur que sur l’environnement lui-même. Plusieurs utilisateurs ont insisté sur la nécessité d’utiliser un langage plus objectif et d’améliorer la précision spatiale, surtout pour la navigation dans les derniers mètres. D’autres souhaitaient que le système puisse s’adapter plus dynamiquement à leurs préférences au fil du temps, au lieu de s’appuyer sur des mots-clés statiques.
Bien que SceneScout ne soit pas un produit commercialisé, il explore la collaboration entre un modèle de langage multimodal et l’API d’Apple Maps, plutôt que la navigation en temps réel par vision par ordinateur. Cependant, un lien peut être facilement établi entre les deux. À la fin de l’étude, les participants ont exprimé un fort désir d’accéder en temps réel aux descriptions des vues de rue lors de leurs déplacements.
Ils ont envisagé des applications pouvant fournir des informations visuelles à l’aide d’écouteurs à conduction osseuse ou en mode transparence pour fournir des détails pertinents en mouvement. Un participant a déclaré : « Pourquoi les cartes ne pourraient-elles pas avoir une fonctionnalité intégrée permettant de fournir des informations détaillées sur ce que vous passez ? »
Les participants ont suggéré d’utiliser des descriptions « mini » plus courtes lors de la marche, mettant en avant uniquement les détails critiques tels que des repères ou des conditions de trottoir. Des descriptions plus complètes pourraient être déclenchées sur demande lorsque les utilisateurs s’arrêtent ou atteignent des intersections. Un autre participant a proposé une nouvelle forme d’interaction, où les utilisateurs pourraient « pointer l’appareil dans une certaine direction » pour recevoir des descriptions à la demande, plutôt que d’avoir à aligner physiquement la caméra de leur téléphone pour capturer l’environnement. Cela permettrait aux utilisateurs d’explorer activement leur environnement en temps réel, rendant la navigation plus dynamique et réactive.
Cette étude, tout comme d’autres publiées sur arXiv, n’a pas été soumise à un processus d’examen par des pairs. Pourtant, elle vaut vraiment la peine d’être examinée pour comprendre la direction que prend l’IA, les dispositifs portables et la vision par ordinateur.