Un nouveau modèle d'IA d'Apple génère des scènes 3D à partir de trois images seulement

La équipe de Machine Learning d’Apple, en collaboration avec des chercheurs de l’Université de Nanjing et de l’Université des Sciences et Technologies de Hong Kong, a présenté un modèle d’IA 3D intriguant appelé Matrix3D.

Ce modèle de photogrammétrie avancée est capable de reconstruire des objets et des scènes 3D à partir de seulement quelques photos 2D, et ce, avec une approche radicalement différente des processus actuels. Voici pourquoi cela constitue une avancée majeure.

Commençons par le principe de la photogrammétrie. Cette technique utilise des photographies pour effectuer des mesures afin de créer des modèles ou des cartes en 3D. Actuellement, ce processus repose sur divers modèles pour des étapes telles que l’estimation de pose et la prédiction de profondeur, ce qui peut engendrer des inefficacités et des erreurs.

Matrix3D simplifie tout cela en intégrant l’ensemble du processus. Il prend en compte les images, les paramètres de la caméra (comme l’angle et la distance focale) et les données de profondeur, le tout au sein d’une architecture unifiée. Cette méthode non seulement simplifie le flux de travail, mais améliore également la précision.

Ce qui est encore plus intéressant, c’est la manière dont le modèle a été entraîné. Les chercheurs ont utilisé une stratégie d’apprentissage masqué, très similaire à celle des premiers systèmes d’IA basés sur Transformer, qui ont ouvert la voie aux premières versions de ChatGPT. Ils ont masqué aléatoirement des parties des données d’entrée pendant l’entraînement, forçant Matrix3D à apprendre à combler les lacunes. Cette technique est cruciale, car elle permet au modèle de s’entraîner efficacement même sur des ensembles de données plus réduits ou incomplets.

Les résultats sont impressionnants. Avec seulement trois images d’entrée, Matrix3D peut générer des reconstructions 3D détaillées d’objets et même d’environnements entiers, ouvrant ainsi la porte à des applications fascinantes pour des casques immersifs tels que l’Apple Vision Pro.

Les chercheurs ont mis à disposition le code source de Matrix3D sur GitHub et ont publié leur article sur arXiv. Ils ont également créé un site Web où vous pouvez visionner des vidéos d’exemples et interagir avec quelques reconstitutions en nuage de points.

Un nouveau modèle d’IA d’Apple génère des scènes 3D à partir de trois images seulement

Apple ferme définitivement trois magasins aujourd’hui : la liste des adresses

Usine de pièces pour iPhone en Inde : enquête sanitaire sur une contamination présumée de l’eau

visionOS 27 : deux avantages exclusifs pour les modèles M5 Vision Pro

iPhone 18 Pro : date de sortie et nouveautés attendues

iPhone 18 Pro : date de sortie et nouveautés à venir

iPhone 18 Pro : six nouvelles fonctionnalités attendues cette année

iPhone 18 Pro : trois nouvelles fonctionnalités pour vous inciter à upgrader

iPhone 18 et iPhone Air 2 : fuites sur le design et la date de sortie

Un nouveau modèle d’IA d’Apple génère des scènes 3D à partir de trois images seulement

Related Posts