Un article écrit par Achraf Hamid, Data Scientist et Responsable de la division IA chez Mailinblack, éditeur français de solutions de cybersécurité souveraines.
Un outil auquel on ne peut pas faire confiance a-t-il de la valeur ?
Une étude réalisée en août 2025 indique que 35 % (1) des réponses communiquées par les dix principaux outils d’IA générative sont erronées. Alors qu’il y a un an, l’IA ne voyait pas d’inconvénient à s’abstenir de répondre à une question à laquelle elle n’avait pas la réponse, elle met aujourd’hui un point d’honneur à en fournir une, quoi qu’il en coûte. Ainsi, dans plus d’un tiers des cas, la réponse fournie est erronée. Soit parce qu’elle a été alimentée par des informations malveillantes propagées en ligne, soit parce que, faute d’informations disponibles, l’IA l’a inventée.
Ce phénomène pose la question de l’utilité réelle des outils comme Meta, ChatGPT, Copilot, ou encore Grok dans le cadre de la recherche d’information. Si l’on ne peut avoir confiance dans les données fournies, nous permettent-ils réellement de gagner du temps ? Le problème vient-il de l’outil en lui-même, ou des informations dont il se nourrit ?
L’auto-apprentissage, bouée de secours ou miroir aux alouettes ?
En 2019, l’université américaine de Cornell avait réalisé une étude indiquant une possible pénurie de données humaines publiques pour nourrir les LLM (modèle d’apprentissage automatique capable de comprendre et générer des textes) entre 2026 et 2032. L’auto-apprentissage de l’IA permettrait-il de résoudre cette problématique ?
C’est la question à laquelle des chercheurs des universités américaines de Rice et Stanford ont répondu. À travers des cycles d’auto-apprentissage variés via lesquels l’IA s’entraîne sur ses propres données générées, ils ont mis en évidence le MAD (Model Autophagy Disorder (ou désordre d’autophagie des modèles) (2), une boucle de rétroaction récursive qui dégrade progressivement la qualité des résultats (moins réalistes, apparition d’artefacts) et leur diversité (répétition excessive et biais d’étanchillonage).
Si l’étude démontre que l’ajout de nouvelles données permet de retarder la dégradation, elle indique également que si la proportion de contenu synthétique reste trop élevée, l’effondrement demeure inévitable.
Se nourrir de l’humain : un cadeau empoisonné ?
À ce jour, l’auto-apprentissage ne semble pas être la solution à la pénurie de données, bien que des chercheurs testent actuellement de nouvelles méthodes baptisées SIMS (Self-Improving Diffusion Models with Synthetic Data). La solution à court terme se trouverait-elle dans nos données personnelles ou dans l’information que nous fournissons à l’IA ? Depuis plusieurs mois, certaines IA génératives n’hésitent pas à demander à leurs utilisateurs leurs retours sur les solutions proposées, comment ils ont résolu une problématique, ou leur avis sur une expérience. Peu fiables et subjectives, se nourrir de ces données, parfois à l’insu des utilisateurs, est une fausse bonne idée.
Si l’IA permet de gagner en productivité dans de nombreux domaines, la dégradation de ses performances est le reflet d’un symptôme plus profond : le manque de données fiables pour l’alimenter. Sans données de qualité, pas de confiance. Une qualité pourtant essentielle dans un environnement digital où déceler le vrai du faux s’apparente aux douze travaux d’Hercule.
Sources :
(1) NewsGuard – Le taux de fausses informations répétées par les chatbots d’IA a presque doublé en un an
(2) ResearchGate – Self-consuming Generative Models
À lire également : L’IA change tout, mais la confiance reste le vrai levier

Abonnez-vous au magazine papier
et découvrez chaque trimestre :
- Des dossiers et analyses exclusifs sur des stratégies d'entreprises
- Des témoignages et interviews de stars de l'entrepreneuriat
- Nos classements de femmes et hommes d'affaires
- Notre sélection lifestyle
- Et de nombreux autres contenus inédits