
Plus tôt cette semaine, Bloomberg a rapporté qu’Apple et Google sont en négociation avancée pour un accord annuel de 1 milliard de dollars concernant une version du modèle Gemini qui alimentera le Siri remanié l’année prochaine.
Mais peut-être plus intéressant que le montant en pièce, c’est l’architecture qui impactera l’expérience utilisateur. Voici un éclairage sur son fonctionnement probable.
1,2 trillion de paramètres, est-ce beaucoup ?
Selon le rapport de Bloomberg, Google fournira à Apple un modèle de 1,2 trillion de paramètres, qui sera hébergé sur les serveurs de calcul cloud privés d’Apple, empêchant ainsi Google d’y accéder. Un bon point pour la vie privée.
En termes de taille, un modèle de 1,2 trillion de paramètres est imposant. Cependant, la comparaison directe avec les modèles concurrents récents est complexe.
Ces dernières années, des laboratoires d’IA tels qu’OpenAI, Anthropic et Google ont cessé de divulguer le nombre de paramètres de leurs modèles phares. Cela a engendré des spéculations très variées sur le véritable nombre de paramètres de modèles comme GPT-5, Gemini 2.5 Pro et Claude Sonnet 4.5. Certains avancent des chiffres en dessous d’un trillion, tandis que d’autres les estiment à quelques trillions. En réalité, personne ne le sait vraiment.
Toutefois, un point commun à ces énormes modèles est l’architecture sous-jacente connue sous le nom de mélange d’experts (MoE). En fait, Apple utilise déjà une version du MoE sur son modèle cloud actuel, dont on parle d’un total de 150 milliards de paramètres.
LE MODÈLE DE SIRI PROPUSE PAR GEMINI UTILISERA TRÈS SUREMENT UN MÉLANGE D’EXPERTS
En résumé, le MoE est une technique qui structure un modèle avec plusieurs sous-réseaux spécialisés appelés « experts ». Pour chaque entrée, seuls quelques experts pertinents sont activés, ce qui permet un modèle plus rapide et un meilleur rendement computationnel.
En d’autres termes, cela permet aux modèles MoE d’avoir de très nombreux paramètres tout en gardant les coûts d’inférence nettement inférieurs, comparé à l’activation de tous leurs paramètres pour chaque entrée.
Voici un autre aspect des modèles qui adoptent l’approche MoE : ils appliquent généralement un nombre maximum d’experts actifs et un nombre maximum de paramètres actifs pour chaque entrée. Par exemple, un modèle avec 1,2 trillion de paramètres pourrait utiliser 32 experts, avec seulement 2 à 4 experts actifs par jeton. Cela signifie qu’environ 75 à 150 milliards de paramètres effectuent réellement des calculs à tout moment, offrant ainsi la capacité d’un modèle massif tout en maintenant les coûts de calcul proches de ceux d’un modèle beaucoup plus petit.
Afin d’éclaircir le sujet, il n’y a eu aucun rapport sur l’architecture du modèle que Google pourrait fournir à Apple, si jamais l’accord devait se conclure. Mais avec 1,2 trillion de paramètres, il est très probable qu’elle devra adopter l’approche MoE pour fonctionner efficacement, étant donné les alternatives disponibles aujourd’hui.
Reste à savoir si cette taille sera suffisante pour que Siri propulsé par Gemini demeure compétitif face aux modèles qui seront disponibles lors de son lancement l’année prochaine.