
Les chercheurs d’Apple ont développé un modèle d’IA capable de reconstruire un objet 3D à partir d’une seule image, tout en maintenant la cohérence des réflexions, des reflets et d’autres effets selon différents angles de vue.
Contexte
Le concept d’espace latent dans l’apprentissage automatique n’est pas nouveau, mais il a gagné en popularité ces dernières années, grâce à l’explosion des modèles d’IA basés sur l’architecture de transformateur. En résumé, « espace latent » désigne le processus par lequel l’information est réduite en représentations numériques de concepts organisées dans un espace multidimensionnel, permettant ainsi de calculer les distances entre elles.
Un exemple classique serait d’obtenir la représentation mathématique du mot « roi », de soustraire celle de « homme » et d’ajouter celle de « femme », menant ainsi à la région multidimensionnelle du mot « reine ».
LiTo : Tokenisation du champ lumineux de surface
Dans une étude récente d’Apple, intitulée LiTo : Tokenisation du champ lumineux de surface, les chercheurs proposent une représentation 3D latente qui modélise à la fois la géométrie de l’objet et son apparence dépendante de l’angle de vue. Autrement dit, ils ont créé une méthode pour représenter, dans l’espace latent, non seulement la reconstruction d’un objet tridimensionnel, mais aussi l’effet de la lumière interagissant avec celui-ci selon différents angles.
Les chercheurs expliquent que « la plupart des travaux antérieurs se sont concentrés sur la reconstruction de la géométrie 3D ou sur la prédiction de l’apparence diffuse indistincte, peinant à capter les effets réalistes dépendants de la vue. Notre approche s’appuie sur le fait que les images RGB-profondeur fournissent des exemples d’un champ lumineux de surface. En encodant des sous-échantillons aléatoires de ce champ lumineux dans un ensemble compact de vecteurs latents, notre modèle apprend à représenter à la fois la géométrie et l’apparence au sein d’un espace latent 3D unifié.
Formation de LiTo
Pour entraîner ce modèle, les chercheurs ont sélectionné des milliers d’objets rendus sous 150 angles de vue différents et trois conditions d’éclairage. Plutôt que de fournir toutes ces informations directement aux modèles, le système sélectionnait aléatoirement de petits sous-ensembles de ces échantillons pour les compresser en une représentation latente. Un décodeur a ensuite été entraîné pour reconstruire l’objet complet et son apparence selon différents angles, à partir uniquement de ces sous-ensembles de données.
Au cours de cette formation, le système a appris une représentation latente capturant aussi bien la géométrie de l’objet que les variations de son apparence en fonction de la direction de vue. Par la suite, un second modèle a été formé pour prendre une seule image d’un objet et prédire sa représentation latente. Le décodeur reconstruit ensuite l’objet 3D complet, y compris les modifications d’apparence selon l’angle de vue.
Des comparaisons entre LiTo et un modèle nommé TRELLIS ont été publiées sur la page du projet, illustrant l’efficacité de cette technologie.
Conclusion
La possibilité de reconstruire des objets 3D à partir d’une seule image pourrait révolutionner de nombreux domaines, à commencer par les expériences en réalité augmentée, tout en offrant des opportunités passionnantes pour le développement futur de l’intelligence artificielle.