
Lors de la keynote de la WWDC26, Apple a présenté sa troisième génération de modèles Foundation d’Apple (AFM), comprenant cinq modèles, dont certains sont locaux et d’autres basés sur le cloud. Un modèle, quant à lui, fonctionne sur des serveurs de Google équipés de puces Nvidia. Voici un aperçu de leur fonctionnement.
Un peu de contexte
Lorsque Apple a annoncé ses modèles Foundation en 2024, la gamme incluait un modèle linguistique sur appareil avec environ 3 milliards de paramètres, ainsi « qu’un modèle linguistique de plus grande taille basé sur serveur, disponible avec le Private Cloud Compute et fonctionnant sur des serveurs Apple silicon ». Ce dernier était un projet ambitieux visant à offrir des capacités d’IA basées sur le cloud tout en préservant les garanties de confidentialité que les utilisateurs attendent d’un traitement sur appareil.
Pour cette raison, garder tout en interne était essentiel. Le Private Cloud Compute fonctionnait dans des centres de données Apple, sur des serveurs alimentés par Apple silicon. Même ainsi, ses garanties de confidentialité pouvaient être vérifiées de manière indépendante par des chercheurs en sécurité tiers.
Cependant, alors qu’Apple peinait à concrétiser ses ambitions en matière d’IA, l’entreprise a noué un partenariat avec Google pour utiliser Gemini comme base de ses nouveaux efforts en IA, dont les résultats ont été annoncés au cours de la keynote WWDC26.
Les nouveaux modèles Foundation d’Apple
La troisième génération des modèles AFM inclut cinq modèles : AFM 3 Core et AFM 3 Code Advanced, qui sont des modèles locaux, ainsi qu’AFM Cloud, ADM 3 Cloud (Image) et AFM 3 Cloud Pro, qui sont basés sur des serveurs. La lettre D dans ADM 3 Cloud (Image) se réfère à la diffusion, une technologie déjà abordée dans le passé.
À l’exception de l’AFM 3 Cloud Pro, tous les autres modèles sont conçus pour fonctionner sur des appareils Apple silicon. L’AFM 3 Cloud Pro, quant à lui, utilise des GPU NVIDIA hébergés dans Google Cloud. Cela a été rendu possible après qu’Apple a étendu son architecture Private Cloud Compute à une infrastructure tierce pour la première fois, « tout en maintenant les protections de sécurité et de confidentialité puissantes d’Apple », selon l’entreprise.
Quant aux modèles eux-mêmes, voici un bref aperçu de chacun, tel qu’expliqué par Apple :
- AFM 3 Core, la prochaine génération de notre modèle dense à 3 milliards de paramètres, qui offre une amélioration significative de la qualité.
- AFM 3 Core Advanced, notre modèle sur appareil le plus puissant. Nativement multimodal, il permet des fonctionnalités utiles telles que des voix expressives et une dictée plus précise. Cet impressionnant modèle à 20 milliards de paramètres utilise une architecture sparse, n’activant que 1 à 4 milliards de paramètres à la fois en fonction de la requête. L’AFM 3 Core Advanced est optimisé pour nos systèmes Apple silicon les plus performants.
- AFM 3 Cloud, notre moteur de serveur optimisé pour la rapidité, l’efficacité et la performance.
- ADM 3 Cloud (Image), pour la génération et l’édition d’images, qui décoince des outils avancés de retouche photo, le tout nouveau Image Playground, et plus encore.
- AFM 3 Cloud Pro, notre modèle basé sur serveur le plus capable, qui prend en charge nos cas d’utilisation les plus exigeants, tels que l’utilisation d’outils agentiques et le raisonnement complexe.
Les points forts ici sont AFM 3 Core Advanced et AFM 3 Cloud Pro.
Commençons par l’AFM 3 Core Advanced, qui intègre 20 milliards de paramètres dans un modèle sur appareil, un exploit de taille. La majorité des modèles sur appareil destinés au grand public se situent généralement dans le bas des milliards de paramètres.
Pour que l’AFM 3 Core Advanced fonctionne efficacement, Apple a utilisé une architecture sparse qui active jusqu’à 4 milliards de paramètres à la fois, au lieu d’une architecture dense qui nécessiterait que les 20 milliards de paramètres soient actifs pour chaque requête. Bien que conceptuellement similaire à l’approche Mixture of Experts, cette activation sélective s’appuie sur une technique inventée par Apple et décrite dans une étude intéressante.
Concernant l’AFM 3 Cloud Pro, c’est le modèle qui s’exécute sur une infrastructure externe. Vous pouvez lire certains des détails techniques de cette expansion sur le blog de sécurité d’Apple. Voici l’essentiel :
Sur cette base, Apple et Google ont collaboré pour construire des capacités qui vont bien au-delà d’un déploiement traditionnel de confidential computing.
Nous ne comptons pas uniquement sur les technologies de confidential computing pour atténuer les attaques qui exploitent l’accès privilégié en dehors d’une machine virtuelle confidentielle, y compris les attaques par canaux auxiliaires. Chaque composant est considéré comme partie prenante de notre base de confiance vérifiable.
Dans son blog consacré à la recherche en apprentissage automatique, Apple affirme que les cinq modèles « partagent une base initiale commune avant de se spécialiser pour leur architecture et leurs cas d’utilisation respectifs », ajoutant des capacités multimodales telles que la compréhension audio, la compréhension d’image, le raisonnement à long terme et la génération visuelle de haute qualité. L’entreprise souligne également que le processus d’entraînement n’incluait pas de données ou d’interactions utilisateur.
Les résultats
Apple déclare avoir mené des évaluations humaines approfondies de ses modèles Foundation de troisième génération, avec des évaluateurs internes notant les réponses selon des critères tels que le respect des instructions, la véracité, la présentation et la compréhension d’image.
Les modèles ont été évalués par rapport à leurs prédécesseurs, et vous pouvez voir quelques résultats ci-dessous.