
Une enquête sur l’intelligence artificielle d’Apple pourrait sembler peu pertinente, mais laisse présager de bonnes nouvelles. Une étude de Carnegie Mellon dévoile que les modèles de langage (LLM) ont tendance à exceller en anglais au détriment des autres langues. Pour beaucoup, l’expérience utilisateur en dehors de l’anglais est ambiguë, parfois dangereuse.
Apple et des chercheurs d’Inria Paris, de l’École Polytechnique et de l’Université de Rome – Sapienza ont collaboré pour présenter une méthode visant à réduire cette disparité. En effet, comme l’explique Apple :
Les modèles de langage actuels sont principalement conçus autour de l’anglais, présentant ainsi des biais anglophones marqués, même lorsqu’ils traitent d’autres langues.
Les chercheurs ont ainsi défini deux nouvelles métriques pour évaluer la performance des LLM :
- Naturalité lexicale : Le modèle utilise-t-il un vocabulaire similaire à celui d’un locuteur natif ?
- Naturalité syntaxique : La structure des phrases correspond-elle à celle de la grammaire native ?
Ils ont comparé les sorties des modèles à des articles de Wikipédia rédigés par des natifs en chinois, français et anglais. Les résultats ont confirmé l’existence des biais : même un modèle chinois tel que Qwen ne parvenait pas à atteindre un niveau de performance acceptable. Le modèle Llama 3.1 de Meta apparaissait comme le plus naturel, mais restait loin des niveaux humains.
Pour remédier à cette situation, Apple a formé un modèle visant à privilégier des réponses naturelles en utilisant une méthode astucieuse : au lieu de rassembler manuellement des exemples non naturels, ils ont généré automatiquement des données à partir d’une traduction inverse. Une réponse écrite en chinois par un humain était traduite en anglais, puis à nouveau en chinois, introduisant ainsi des schémas artificiels issus de ce que l’on appelle “la translationese”. Ces sorties manipulées ont servi d’exemples négatifs, tandis que les versions originales ont été retenues comme réponses préférées.
Ce processus a permis à Apple d’améliorer significativement le choix lexical et la grammaire, sans détériorer les performances générales des modèles sur des benchmarks standards.