
La plupart des propriétaires d’iPhone ne voient pour le moment que peu ou pas de valeur dans Apple Intelligence. Le mois dernier, Apple a reporté le déploiement de nouvelles fonctionnalités Siri plus personnelles et puissantes. Dans sa quête pour réajuster ses mises à jour de l’Apple Intelligence, Bloomberg souligne un changement dans la manière dont Apple entraîne ses modèles d’intelligence artificielle.
Un article publié sur le site de recherche en apprentissage automatique d’Apple explique comment la société utilise généralement des données synthétiques pour entraîner ses modèles d’IA. Cependant, cette stratégie présente des limitations, notamment le fait que les données synthétiques peinent à ‘comprendre les tendances’ dans des fonctionnalités telles que la résumation ou les outils d’écriture sur des phrases plus longues ou des courriers électroniques entiers.
Pour pallier cette limitation, Apple met en avant une nouvelle technologie qu’elle va bientôt utiliser. Celle-ci permet de comparer les données synthétiques avec un petit échantillon récent de courriers utilisateurs, tout en préservant la vie privée :
Pour améliorer nos modèles, nous devons générer un ensemble d’emails synthétiques qui couvrent les sujets les plus fréquents dans les messages. Nous commençons par créer un grand ensemble de messages synthétiques sur une variété de thèmes. Par exemple, nous pourrions créer un message synthétique : ‘Voudriez-vous jouer au tennis demain à 11h30 ?’
Ceci est réalisé sans aucune connaissance des emails utilisateurs individuels. Nous dérivons ensuite une représentation, appelée embedding, de chaque message synthétique qui capture certaines dimensions clés comme la langue, le sujet et la longueur. Ces embeddings sont ensuite envoyés à un petit nombre d’appareils utilisateurs ayant opté pour les analyses de données.
Les appareils participatifs sélectionnent ensuite un petit échantillon d’emails récents et calculent leurs embeddings. Chaque appareil décide ensuite lequel des embeddings synthétiques est le plus proche de ces échantillons. Grâce à la confidentialité différentielle, Apple peut alors apprendre les embeddings synthétiques les plus fréquemment sélectionnés sur tous les appareils, sans savoir quel embedding a été choisi sur un appareil donné.
Ces embeddings synthétiques les plus fréquemment sélectionnés pourront ensuite être utilisés pour générer des données d’entraînement ou de test, ou nous pouvons effectuer des étapes supplémentaires de curation pour affiner encore le jeu de données. Par exemple, si le message sur le tennis est l’un des embeddings principaux, un message similaire remplaçant “tennis” par “football” ou un autre sport pourrait être généré et ajouté à l’ensemble pour le prochain tour de curation. Ce processus nous permet d’améliorer les sujets et la langue de nos emails synthétiques, ce qui aide à former nos modèles à créer de meilleures sorties textuelles pour des fonctionnalités comme les résumés d’emails, tout en protégeant la confidentialité.
Apple précise que ces techniques lui permettent de ‘comprendre les tendances globales, sans apprendre d’informations sur des individus’. Bloomberg indique qu’Apple déploiera ce nouveau système dans une future bêta d’iOS 18.5 et macOS 15.5.