Rechercher

L’Europe doit bâtir un modèle de données IA qui lui ressemble

L’Europe doit bâtir un modèle de données IA qui lui ressemble - gettyimages 2149387005 170667a
Global Network Concept. Connection Lines over Europe. Maps from NASA: https://visibleearth.nasa.gov/images/144875/earth-at-night-black-marble-2012-color-maps-v2

Tout le monde le sait : les IA génératives comme ChatGPT ont été entraînées – entre autres – sur des données récupérées sans autorisation. Des livres, des articles, des images, des voix, aspirés du web sans demander (ni rémunérer) leurs auteurs. Ces données font désormais irrémédiablement partie des poids des modèles ; sauf à retirer ces modèles du marché, le mal est fait. Et maintenant, on fait quoi ?

Une contribution de Charlotte Heylliard, CEO d’Alien Intelligence.

 

Et si nous trouvions une solution à l’image de ce que l’Europe sait penser : équilibrée et concrète. Ce n’est pas la première fois qu’une innovation technologique vient mettre à mal le droit d’auteur. Lorsque les supports de reproduction dans un cercle familial sont apparus – tels que les CD vierges, les clés USB ou les disques durs – le législateur s’est heurté à un problème proche de celui que nous connaissons : comment rémunérer les créateurs face à ces copies privées à l’infini ? La réponse fut “la redevance pour copie privée”. Prélevée directement auprès des fabricants de supports de stockage, pour qui elle peut représenter jusqu’à 5 % du CA [1], elle est reversée par une société créée à cet effet auprès des Sociétés de gestion collectives (tel que la SACEM), représentant les ayants droit. Mécanisme imparfait, mais efficace : il a permis d’instituer un partage de la valeur, sans bloquer l’innovation.


 

Pourquoi ne pas s’en inspirer aujourd’hui ? [2]

Un système actuel d’entraînement des IA à la fois juridiquement fragile, économiquement déséquilibré et culturellement appauvrissant.

Juridiquement, nous avons en Europe une exception dite de “text and data mining” qui autorise l’analyse automatique des contenus en ligne par les IA, sauf si l’auteur de ces contenus signale sur son site qu’il s’y oppose explicitement – c’est ce qu’on appelle un “opt-out”. Mais ce signalement passe en pratique par des moyens techniques (comme des fichiers bloquant les robots), souvent complexes à mettre en place. Résultat : les petits créateurs sont scrappés sans le savoir, et les grands acteurs, eux, se retrouvent eux aussi aspirés… mais peuvent, une fois qu’ils identifient les usages, négocier des accords. Le système ne protège donc ni les uns ni les autres en amont – il ne fait que déplacer le rapport de force à posteriori.

Économiquement, il prive de toute rémunération les créateurs de contenus pour leur travail, parfois d’une vie, utilisé sans autorisation. Pendant ce temps, des modèles comme ChatGPT ou Gemini captent une valeur économique gigantesque sans en reverser une part aux artistes, journalistes, chercheurs ou enseignants qui en sont la source. Mais cette extraction unilatérale n’est pas soutenable, puisque sans revenus, la création se tarira. Et sans création, les IA cesseront d’apprendre. En d’autres termes, le système actuel scie la branche sur laquelle il est assis.

Enfin, culturellement, le système actuel crée des IA souffrant de biais profonds structurels, au détriment des européens. Pour cause, la vision du monde de ces modèles dits “fondationnels”, comme pour toute intelligence, dépend de ce qu’on leur donne à lire[3]. Si les données sont biaisées, l’IA l’est aussi. Or, aujourd’hui, les contenus européens sont largement sous-représentés dans ces corpus de données d’entraînement (notamment, faute d’accessibilité), au profit de sources anglo-saxonnes dominantes. Résultat : les IA parlent anglais global, mais pensent majoritairement “à l’américaine”. Leur performance s’en trouve altérée pour des usages cruciaux en Europe, qu’il s’agisse d’éducation, de traduction, de culture ou de médecine.

Il est donc urgent d’organiser un accès compensé aux données, non seulement pour garantir une rémunération équitable à ceux qui les produisent, mais aussi pour assurer une représentation de nos langues, de nos savoirs, et de nos valeurs européennes qu’il nous tient à cœur de défendre dans l’intelligence collective que ces IA sont en train de devenir. À défaut, nous laisserons d’autres écrire et penser le futur à notre place.

 

Mise en place d’une redevance IA : une option viable à court terme ?

Dans ce contexte, une redevance IA pourrait jouer un rôle de régulation pragmatique. Plutôt que de courir après chaque violation de droits ou de multiplier les procès interminables[4], elle instaurerait une redistribution simple et directe, à la source. Cette contribution, prélevée auprès des opérateurs de modèles fondationnels ou d’infrastructures d’IA à grande échelle, devrait pour fonctionner être calculée selon des critères objectifs : nombre d’utilisateurs, volume de requêtes, revenus générés, taille des modèles, etc, et ce, afin d’éviter de pénaliser les petits acteurs et poser un principe de solidarité sans bloquer l’innovation. Certains diront que cette redevance ferait fuir les géants américains hors d’Europe (un précédent comparable : à l’annonce d’une redevance sur les extraits de presse figurants dans ses services, Google News a répondu en fermant tout simplement ses services en Espagne[5]. Le résultat : moins de visibilité pour les médias locaux, sans gain réel pour les auteurs). Une réponse européenne commune empêcherait justement des fuites isolées par pays. Par ailleurs, quelle alternative avons-nous, si ce n’est un système opaque contractuel privé, où seuls les plus puissants accèdent aux meilleures données via des accords bilatéraux ? Un continent où l’on sacrifie toute exigence de souveraineté culturelle pour éviter de “faire peur” à quelques entreprises ? Cette redevance, sous réserve d’être bien dosée, pourrait au contraire recréer un cercle vertueux. Là où il y a redistribution, il y a incitation à produire. Car on ne peut pas prétendre nourrir l’intelligence artificielle avec du vide économique, social et culturel. Pour cette raison, une fois ce “péché originel de l’IA” résolu, à plus long terme, il faudra aller encore plus loin.

 

À plus long terme : bâtir une véritable économie de la donnée 

Car pour fonctionner au bénéfice de tous, les modèles de demain auront besoin de données (très) spécifiques, contextualisées et à jour. Il ne s’agit pas de refaire les modèles fondationnels comme GPT, qui est généraliste, mais de favoriser l’émergence de modèles spécialisés construits par-dessus, plus petits, adaptés à des usages ciblés, notamment dans les services publics, la recherche ou la médecine. Prenons un exemple concret : un service de télémédecine dopé à l’IA. Pour être utile, il doit comprendre des données métier, comme les comptes rendus médicaux, les habitudes de langage des professionnels de santé. Cela suppose d’entraîner des modèles sur des jeux de données médicaux réels, évidemment inaccessibles en ligne. Même si les modèles progressent techniquement pour être de moins en moins gourmands en data, l’accès à ces données reste une condition de précision (pour éviter les hallucinations), mais aussi de légitimité. Surtout dans les secteurs à fort impact social, où l’erreur n’est pas une option. Or aujourd’hui, face à la menace d’un usage non consenti, la seule option pour les détenteurs est de verrouiller l’accès à leurs données autant que possible. Cela fragmente l’écosystème, crée des asymétries, et appauvrit la base de connaissances mondiale.

C’est pourquoi plusieurs rapports récents, notamment celui du Conseil supérieur de la propriété littéraire et artistique (CSPLA) dirigé par Alexandra Bensamoun, publié en mai 2025[6], qui souligne “ l’intérêt conjoint des opérateurs culturels et des opérateurs de l’IA à investir dans un écosystème soutenable garantissant à la fois la présence des œuvres européennes dans les systèmes d’IA et la pérennité de leur financement”, appellent à structurer un véritable marché de la donnée d’entraînement sous licence. L’enjeu n’est pas de vendre des corpus en bloc, mais d’autoriser un accès sécurisé, traçable, et justement rémunéré à des données de qualité, souvent privées. Réplique possible : ce marché est à inventer. Il pourra être cofinancé par la redevance IA évoquée plus haut, s’appuyer sur des modèles freemium (comme Hugging Face), et ne viser qu’un flux minimal, mais traçable, de valeur.

Ce modèle a un mérite fondamental : il est soutenable. Il ne repose ni sur le pillage, ni sur l’enfermement. Il reconnaît que l’intelligence artificielle n’est pas magique, mais collective. Et que pour enrichir l’humanité, il faut d’abord enrichir ceux qui nourrissent l’intelligence des machines. À terme, ces mécanismes pourraient même s’inspirer des logiques d’accès en continu – déjà éprouvées dans la musique ou la vidéo – pour permettre une utilisation granulaire et maîtrisée des données par les IA, dans un cadre de confiance.

 

[1] PCInpact, 5 % du C.A. d’Archos siphonné par la taxe Copie Privée”

[2] Senftleben, M. Generative AI and Author Remuneration. IIC 54, 1535–1560 (2023)

[3] Identifying the sources of ideological bias in GPT models through linguistic variation in output, Walker & Timoneda, 2024, montre que “GPT est plus conservateur en polonais et plus libéral en suédois”, démontrant un biais tiré des données d’entraînement.

[4] Pour référence, la liste de procès en cours.

[5] Le JDD, “Google News va fermer ses Services en Espagne”.

[6] “Rémunération des contenus culturels utilisés par les systèmes d’intelligence artificielle”, Mai 2025, Mission confiée par le Conseil Supérieur de la Propriété Littéraire et Artistique à Alexandra Bensamoun et Joëlle Farchy – Projet de Rapport

 


À lire également : Déployer l’IA, oui, mais pour quoi faire ? 

Vous avez aimé cet article ? Likez Forbes sur Facebook

Abonnez-vous au magazine papier

et découvrez chaque trimestre :

1 an, 4 numéros : 30 € TTC au lieu de 36 € TTC