
Apple a rendu public Pico-Banana-400K, un jeu de données de recherche comprenant 400 000 images, construit en utilisant les modèles Gemini-2.5 de Google. Voici les détails.
L’équipe de recherche d’Apple a publié une étude intitulée « Pico-Banana-400K : un jeu de données à grande échelle pour l’édition d’images guidée par texte ». En plus de cette étude, ils ont également mis à disposition la totalité du jeu de données de 400 000 images, sous licence de recherche non commerciale. Cela signifie que quiconque peut l’utiliser et l’explorer, à condition que cela soit dans un cadre académique ou pour des travaux de recherche en IA. En d’autres termes, une utilisation commerciale n’est pas autorisée.
QU’EST-CE QUE C’EST VRAIMENT ?
Il y a quelques mois, Google a lancé le modèle Gemini-2.5-Flash-Image, également connu sous le nom de Nanon-Banana, qui est considéré comme l’un des meilleurs modèles d’édition d’images. D’autres modèles ont également montré des améliorations significatives, mais, comme l’indiquent les chercheurs d’Apple :
« Malgré ces avancées, la recherche ouverte reste limitée par le manque de jeux de données d’édition à grande échelle, de haute qualité et entièrement partageables. Les jeux de données existants s’appuient souvent sur des générations synthétiques provenant de modèles propriétaires ou de sous-ensembles limités sélectionnés par des humains. De plus, ces jeux de données présentent souvent des décalages de domaine, des distributions de types de modifications déséquilibrées et un contrôle de la qualité incohérent, ce qui entrave le développement de modèles d’édition robustes. »
Ainsi, Apple a décidé d’agir.
CONSTRUCTION DU PICO-BANANA-400K
La première étape pour Apple a été de récupérer un nombre non précisé de photographies réelles à partir du jeu de données OpenImages, « sélectionnées pour garantir la couverture d’humains, d’objets et de scènes textuelles ». Ils ont ensuite élaboré une liste de 35 types différents de modifications qu’un utilisateur pourrait demander au modèle de réaliser, regroupés en huit catégories. Par exemple :
- Pixel & Photométrique : Ajouter du grain de film ou un filtre vintage
- Centrique sur l’humain : Figure de toy Funko-Pop du personnage
- Composition de scène & Multisujet : Changer les conditions météo (ensoleillé/pluvieux/neigeux)
- Sémantique au niveau de l’objet : Déplacer un objet (changer sa position/relation spatiale)
- Échelle : Zoomer
Ensuite, les chercheurs téléchargeaient une image sur Nano-Banana, accompagnée d’une de ces instructions. Une fois que Nano-Banana avait généré l’image modifiée, les chercheurs faisaient ensuite analyser le résultat par Gemini-2.5-Pro, en l’approuvant ou en le rejetant, en fonction du respect des instructions et de la qualité visuelle.
Le résultat est devenu Pico-Banana-400K, qui comprend des images produites par le biais d’éditions à tour unique (une seule instruction), de séquences d’éditions à plusieurs tours (plusieurs instructions itératives) et des paires de préférences comparant des résultats réussis et échoués (pour que les modèles puissent également apprendre à reconnaître des issues indésirables).
Bien que les chercheurs reconnaissent les limites de Nano-Banana en matière d’édition spatiale fine, d’extrapolation de mise en page et de typographie, ils espèrent que Pico-Banana-400K servira de « base solide pour former et évaluer la prochaine génération de modèles d’édition d’images guidés par texte ». Vous pouvez consulter l’étude sur arXiv, et le jeu de données est disponible gratuitement sur GitHub.