
Une nouvelle étude souligne les limites importantes des chatbots IA quand il s’agit d’obtenir des informations exactes. Menée par le Tow Center for Digital Journalism, cette étude révèle que ces outils donnent très souvent des réponses incomplètes ou entièrement fausses, tout en affichant une confiance trompeuse dans leurs affirmations.
Les chercheurs ont testé huit chatbots populaires censés effectuer en temps réel des recherches précises sur le web : ChatGPT, Perplexity, Perplexity Pro, DeepSeek, Copilot de Microsoft, Grok-2, Grok-3 et Gemini. Chaque bot devait simplement identifier une citation extraite d’un article de presse en ligne, puis fournir le lien, la date de publication, le titre et l’éditeur d’origine de l’article. Pour faciliter la tâche, seuls des extraits facilement trouvables via une simple recherche Google ont été choisis.
Résultat : aucun de ces chatbot IA n’est véritablement fiable. En moyenne, leur taux de réponse correcte ne dépasse pas 40 %. Le meilleur, Perplexity, atteint 63 %, tandis que Grok-3 de X s’effondre à seulement 6 % d’exactitude. Plus inquiétant encore, les versions payantes offrent souvent des réponses incorrectes avec davantage d’assurance que les versions gratuites. Plusieurs chatbots contournent aussi les consignes présentes dans les fichiers robots.txt de certains sites, indexant ainsi des contenus auxquels ils ne devraient normalement pas avoir accès.
Autre détail préoccupant : certains chatbots inventent tout simplement des liens ou citent des versions copiées ou syndiquées au lieu des sources originales, même lorsqu’ils disposent d’accords explicites avec ces sources.
Dans ce contexte peu rassurant, le choix par Apple de s’associer à ChatGPT apparaît plutôt judicieux. Bien que loin d’être parfait, ChatGPT figure parmi les outils les moins problématiques, selon l’étude. Cela conforte la décision récente d’Apple de miser sur ChatGPT pour faciliter les interactions avec Siri, notamment pour répondre à certaines questions complexes auxquelles l’assistant traditionnel ne trouve pas de réponse.