
La équipe de Machine Learning d’Apple, en collaboration avec des chercheurs de l’Université de Nanjing et de l’Université des Sciences et Technologies de Hong Kong, a présenté un modèle d’IA 3D intriguant appelé Matrix3D.
Ce modèle de photogrammétrie avancée est capable de reconstruire des objets et des scènes 3D à partir de seulement quelques photos 2D, et ce, avec une approche radicalement différente des processus actuels. Voici pourquoi cela constitue une avancée majeure.
Commençons par le principe de la photogrammétrie. Cette technique utilise des photographies pour effectuer des mesures afin de créer des modèles ou des cartes en 3D. Actuellement, ce processus repose sur divers modèles pour des étapes telles que l’estimation de pose et la prédiction de profondeur, ce qui peut engendrer des inefficacités et des erreurs.
Matrix3D simplifie tout cela en intégrant l’ensemble du processus. Il prend en compte les images, les paramètres de la caméra (comme l’angle et la distance focale) et les données de profondeur, le tout au sein d’une architecture unifiée. Cette méthode non seulement simplifie le flux de travail, mais améliore également la précision.
Ce qui est encore plus intéressant, c’est la manière dont le modèle a été entraîné. Les chercheurs ont utilisé une stratégie d’apprentissage masqué, très similaire à celle des premiers systèmes d’IA basés sur Transformer, qui ont ouvert la voie aux premières versions de ChatGPT. Ils ont masqué aléatoirement des parties des données d’entrée pendant l’entraînement, forçant Matrix3D à apprendre à combler les lacunes. Cette technique est cruciale, car elle permet au modèle de s’entraîner efficacement même sur des ensembles de données plus réduits ou incomplets.
Les résultats sont impressionnants. Avec seulement trois images d’entrée, Matrix3D peut générer des reconstructions 3D détaillées d’objets et même d’environnements entiers, ouvrant ainsi la porte à des applications fascinantes pour des casques immersifs tels que l’Apple Vision Pro.
Les chercheurs ont mis à disposition le code source de Matrix3D sur GitHub et ont publié leur article sur arXiv. Ils ont également créé un site Web où vous pouvez visionner des vidéos d’exemples et interagir avec quelques reconstitutions en nuage de points.