
Lors de la WWDC25, Apple a annoncé de nouvelles versions de ses modèles de langage, à la fois sur appareil et basés sur le cloud. La société a publié un rapport technique détaillant comment ces modèles ont été entraînés, optimisés et évalués. Ce rapport dévoile des éléments intéressants sur les coulisses de cette technologie.
Dans un document complet intitulé « Apple Intelligence Foundation Language Models – Tech Report 2025 », l’entreprise explore de nombreux aspects des nouveaux modèles, y compris leur architecture, leurs sources de données, les étapes d’entraînement et d’optimisation ainsi que les benchmarks.
Le modèle local divisé en deux blocs
On savait déjà que le modèle sur appareil d’Apple dispose d’environ 3 milliards de paramètres. Désormais, l’entreprise précise que ce modèle est en réalité divisé en deux blocs :
« Le Bloc 1 contient 62,5 % des couches de transformeurs, tandis que le Bloc 2 représente les 37,5 % restants, avec des projections clés et de valeur retirées. »
Dans la pratique, cela signifie que le modèle local nécessite 37,5 % de mémoire en moins pour son cache, et le temps nécessaire pour produire le premier token a été réduit d’environ 37,5 %. Toutefois, Apple assure que cette répartition préserve la performance et la qualité des résultats du modèle.
Une architecture créative pour le modèle cloud
Pour son modèle serveur, Apple a conçu une architecture sur mesure pour sa plateforme Private Cloud Compute. Appelée Parallel-Track Mixture-of-Experts (PT-MoE), cette structure fonctionne de manière innovante. Au lieu de s’appuyer sur un vaste modèle d’IA, il est fractionné en sous-réseaux plus petits (ou experts) qui ne s’activent que pour des tâches spécifiques liées à leur domaine d’expertise.
Si votre demande concerne la cuisine, seuls les experts de la cuisine sont mobilisés, tandis que les autres restent inactifs, ce qui permet au modèle de traiter plus rapidement et plus précisément les requêtes.
Augmentation de 275 % de la représentation multilingue
Un des principaux reproches faits à Apple Intelligence a été son support linguistique limité, principalement en anglais. Avec ses nouveaux modèles, Apple a élargi ce support et explique dans le rapport les démarches entreprises à cet égard. Selon le document, la proportion de données multilingues utilisées durant l’entraînement a été augmentée de 8 % à 30 %. Cela inclut à la fois des contenus organiques et synthétiques.
Apple a aussi élargi son vocabulaire de tokens de 50 %, passant à 150 000 tokens au total, contre 100 000 auparavant. Grâce à ces ajustements, des gains significatifs ont été observés en matière de performance, notamment dans les évaluations non-anglophones.
D’où proviennent les données d’Apple ?
Comme pour ses premiers modèles, la majorité des données d’entraînement provient du crawling du web. Apple précise que son crawler respectent les exclusions de robots.txt, permettant aux sites de refuser à Apple de scrapper leur contenu. Voici comment Apple a déclaré avoir sourcé les données pour ses nouveaux modèles :
- Données web publiques : Bien qu’Apple ne précise pas les quantités, la plus grande partie de son jeu de données provient du crawling d’Applebot. Plusieurs couches de filtrage ont été appliquées pour éliminer le contenu de faible qualité.
- Données sous licence : Certaines données d’entraînement ont été licenciées auprès de divers éditeurs, bien qu’Apple ne donne pas beaucoup de détails à ce sujet.
- Données synthétiques : Utilisées principalement pour l’ajustement des instructions et le tuning visuel, ces données ont joué un rôle important dans la fine-tuning du modèle.
- Données visuelles : Pour la compréhension des images, Apple a collecté plus de 10 milliards de paires image-légende.
Bien qu’Apple soit souvent perçue comme étant à la traîne dans le domaine de l’IA, ce rapport indique que l’entreprise ne reste pas inactive. Il offre un aperçu intéressant des améliorations techniques de ses derniers modèles.