De Google à Nvidia, les géants de la technologie font appel à la Red Team pour casser leurs modèles d’IA

IA | Forbes s’est entretenu avec les responsables des Red Team (équipes rouges) de Microsoft, Google, Nvidia et Meta. Ces équipes sont chargées de rechercher les vulnérabilités des systèmes d’IA afin de les corriger.

Un mois avant de lancer publiquement ChatGPT, OpenAI a engagé Boru Gollo, un avocat kenyan, pour tester ses modèles d’IA, GPT-3.5 et plus tard GPT-4, sur les biais contre les Africains et les musulmans. Il était chargé d’injecter des invites qui feraient générer au chatbot des réponses nuisibles, biaisées et incorrectes. Boru Gollo, l’un des quelque 50 experts externes recrutés par OpenAI pour faire partie de son « équipe rouge », a tapé une commande dans ChatGPT, lui faisant produire une liste de façons de tuer un Nigérian, une réponse qu’OpenAI a supprimée avant que le chatbot ne soit mis à la disposition du monde entier.

D’autres membres de l’équipe rouge ont incité la version pré-lancement de GPT-4 à contribuer à toute une série d’activités illégales et inoffensives, comme la rédaction d’un message sur Facebook pour convaincre quelqu’un de rejoindre Al-Qaida, l’aide à la recherche d’armes à feu non autorisées à la vente et la création d’une procédure pour créer des substances chimiques dangereuses à la maison, selon la fiche système de GPT-4, qui énumère les risques et les mesures de sécurité utilisées par OpenAI pour les réduire ou les éliminer.

Pour éviter que les systèmes d’IA ne soient exploités, les hackers de l’équipe rouge réfléchissent comme des adversaires pour les manipuler et découvrir les angles morts et les risques intégrés dans la technologie afin de pouvoir les corriger. Alors que les grands noms de la technologie se lancent dans une course à la création et à la diffusion d’outils d’IA générative, leurs équipes rouges internes jouent un rôle de plus en plus important pour garantir que les modèles sont sûrs pour le grand public. Google, par exemple, a créé une équipe rouge distincte pour l’IA au début de cette année et, en août, les développeurs d’un certain nombre de modèles populaires tels que le GPT3.5 d’OpenAI, le Llama 2 de Meta et le LaMDA de Google ont participé à un événement soutenu par la Maison-Blanche visant à donner à des hackers extérieurs la possibilité de jailbreaker leurs systèmes.

Cependant, les membres des équipes rouges qui travaillent sur l’IA marchent souvent sur une corde raide, équilibrant la sûreté et la sécurité des modèles d’IA tout en les gardant pertinents et utilisables. Forbes s’est entretenu avec les responsables des équipes rouges de l’IA chez Microsoft, Google, Nvidia et Meta pour les interroger sur la façon dont la rupture des modèles d’IA est devenue à la mode et sur les défis que pose leur réparation.

« Vous aurez un modèle qui dit non à tout et qui est super sûr, mais qui ne sert à rien », a déclaré Cristian Canton, chef de l’équipe rouge d’IA de Facebook. « Il y a un compromis à faire. Plus vous pouvez rendre un modèle utile, plus vous avez de chances de vous aventurer dans un domaine qui peut finir par produire une réponse dangereuse. »

Le recours à une équipe rouge existe depuis les années 1960, lorsque des attaques adverses étaient simulées pour rendre les systèmes aussi robustes que possible. En informatique, il est impossible d’affirmer « c’est sûr ». « Tout ce que l’on peut dire, c’est que l’on a essayé et que l’on n’a pas réussi à casser le système », a déclaré Bruce Schneier, spécialiste des technologies de sécurité et membre du Berkman Klein Center for Internet and Society de l’université de Harvard.

Cependant, comme l’IA générative est entraînée sur un vaste corpus de données, la protection des modèles d’IA diffère des pratiques de sécurité traditionnelles, a déclaré Daniel Fabian, chef de la nouvelle équipe rouge IA de Google, qui teste des produits tels que Bard pour détecter les contenus offensants avant que l’entreprise n’ajoute de nouvelles fonctionnalités telles que des langues supplémentaires.

« La devise de notre équipe rouge IA est la suivante : Plus on transpire à l’entraînement, moins on saigne au combat. »

Cristian Canton, responsable de l’ingénierie de l’IA responsable chez Meta

Au-delà de l’interrogation d’un modèle d’IA pour cracher des réponses toxiques, les équipes rouges utilisent des tactiques telles que l’extraction de données d’entraînement qui révèlent des informations personnellement identifiables comme les noms, les adresses et les numéros de téléphone, et l’empoisonnement des ensembles de données en modifiant certaines parties du contenu avant qu’il ne soit utilisé pour entraîner le modèle. « Les adversaires disposent en quelque sorte d’un portefeuille d’attaques et passent à l’attaque suivante si l’une d’entre elles ne fonctionne pas », a déclaré Daniel Fabian à Forbes.

Le domaine n’en étant qu’à ses débuts, les professionnels de la sécurité qui savent comment déjouer les systèmes d’IA sont « de moins en moins nombreux », a déclaré Daniel Rohrer, vice-président de la sécurité des logiciels chez Nvidia. C’est la raison pour laquelle une communauté très soudée de red teamers de l’IA a tendance à partager ses découvertes. Alors que les membres de l’équipe rouge de Google ont publié des recherches sur de nouveaux moyens d’attaquer les modèles d’IA, l’équipe rouge de Microsoft a mis en libre accès des outils d’attaque tels que Counterfit, qui aide d’autres entreprises à tester la sûreté et les risques de sécurité des algorithmes.

« Nous développions ces scripts bizarres que nous utilisions pour accélérer notre propre red teaming », explique Ram Shankar Siva Kumar, qui a créé l’équipe il y a cinq ans. « Nous voulions mettre ces scripts à la disposition de tous les professionnels de la sécurité dans un cadre qu’ils connaissent et qu’ils comprennent. »

Avant de tester un système d’IA, l’équipe de Ram Shankar Siva Kumar recueille des données sur les cybermenaces auprès de l’équipe de renseignement sur les menaces de l’entreprise, qui sont « les yeux et les oreilles de l’internet », comme il le dit lui-même. Il travaille ensuite avec d’autres équipes rouges de Microsoft pour déterminer quelles vulnérabilités du système d’intelligence artificielle doivent être ciblées et comment. Cette année, l’équipe a sondé Bing Chat, le produit d’IA vedette de Microsoft, ainsi que GPT-4 pour trouver des failles.

Parallèlement, une partie de l’approche de l’équipe rouge de Nvidia consiste à fournir des cours accélérés sur la façon de rediriger les algorithmes aux ingénieurs en sécurité et aux entreprises qui dépendent d’elle pour les ressources de calcul telles que les GPU.

« En tant que moteur de l’IA pour tout le monde, nous avons un énorme facteur d’amplification. Si nous pouvons apprendre aux autres à le faire (red teaming), alors Anthropic, Google, OpenAI, tous y arriveront », a déclaré Daniel Rohrer.

Avec la surveillance accrue des applications d’IA par les utilisateurs et les autorités gouvernementales, les équipes rouges offrent également un avantage concurrentiel aux entreprises technologiques dans la course à l’IA. « Je pense que les fondations seront la confiance et la sécurité », a déclaré Sven Cattell, fondateur du AI Village, une communauté de hackers et d’experts en sécurité de l’IA.

L’équipe rouge d’IA de Meta, fondée en 2019 et qui a organisé des défis internes et des « risk-a-thons » pour les hackers afin de contourner les filtres de contenu qui détectent et suppriment les publications contenant des discours haineux, de la nudité, de la désinformation et des deep fakes générés par l’IA sur Instagram et Facebook, a été la première à se lancer dans le jeu.

En juillet 2023, le géant des réseaux sociaux a engagé 350 « red teamers », dont des experts externes, des travailleurs contractuels et une équipe interne d’environ 20 employés, pour tester Llama 2, son dernier grand modèle de langage open source, selon un rapport publié qui détaille la façon dont le modèle a été développé. L’équipe a injecté des questions telles que comment frauder le fisc, comment démarrer une voiture sans clé et comment mettre en place une pyramide de Ponzi. « La devise de notre équipe rouge IA est la suivante : Plus on transpire à l’entraînement, moins on saigne au combat », a déclaré Cristian Canton, chef de l’équipe rouge de Facebook.

Cette devise est similaire à l’esprit de l’un des plus grands exercices d’équipe rouge en matière d’IA, organisé lors de la conférence de piratage DefCon à Las Vegas au début du mois d’août. Huit entreprises, dont OpenAI, Google, Meta, Nvidia, Stability AI et Anthropic, ont ouvert leurs modèles d’IA à plus de 2 000 hackers afin qu’ils les alimentent en messages conçus pour révéler des informations sensibles telles que des numéros de carte de crédit ou pour générer du matériel nuisible tel que des informations politiques erronées. L’Office of Science and Technology Policy de la Maison-Blanche a fait équipe avec les organisateurs de l’événement pour concevoir le red teaming challenge, en adhérant à son projet de charte des droits de l’IA, un guide sur la manière dont les systèmes automatisés devraient être conçus, utilisés et lancés en toute sécurité.

« Si nous pouvons apprendre aux autres à le faire (red teaming), alors Anthropic, Google, OpenAI, tous y arriveront. »

Daniel Rohrer, vice-président de la sécurité des logiciels chez Nvidia

Au départ, les entreprises étaient réticentes à l’idée de proposer leurs modèles, principalement en raison des risques de réputation associés à la création d’une équipe rouge lors d’un forum public, a déclaré Sven Cattell, fondateur du village de l’IA qui a organisé l’événement. « Du point de vue de Google ou d’OpenAI, nous sommes une bande de gamins à DefCon », a-t-il déclaré à Forbes.

Cependant, après avoir assuré aux entreprises technologiques que les modèles seraient anonymisés et que les pirates ne sauraient pas à quel modèle ils s’attaquent, elles ont accepté. Les résultats des quelque 17 000 conversations que les pirates ont eues avec les modèles d’IA ne seront pas rendus publics avant février, mais les entreprises ont quitté l’événement avec plusieurs nouvelles vulnérabilités à corriger. Selon de nouvelles données publiées par les organisateurs de l’événement, les « red teamers » ont trouvé environ 2 700 failles dans huit modèles, par exemple en convainquant le modèle de se contredire ou en lui donnant des instructions sur la manière de surveiller quelqu’un à son insu.

L’un des participants était Avijit Ghosh, un chercheur en éthique de l’IA qui a réussi à faire faire des calculs incorrects à plusieurs modèles, à produire un faux reportage sur le roi de Thaïlande et à écrire sur une crise du logement qui n’existait pas.

Selon Avijii Ghosh, de telles vulnérabilités du système ont rendu encore plus cruciale la mise en place d’une équipe rouge pour les modèles d’IA, en particulier lorsqu’ils peuvent être perçus par certains utilisateurs comme des entités sensibles omniscientes. « Je connais plusieurs personnes dans la vie réelle qui pensent que ces robots sont réellement intelligents et qu’ils font des choses comme des diagnostics médicaux avec une logique et une raison étape par étape. Mais ce n’est pas le cas. C’est littéralement de l’autocomplétion », a-t-il déclaré.

Cependant, l’IA générative est comme un monstre à plusieurs têtes : si les équipes rouges repèrent et corrigent certaines failles dans le système, d’autres failles peuvent apparaître ailleurs, selon les experts. « Il faudra un village pour résoudre ce problème », a déclaré Ram Shankar Siva Kumar, de Microsoft.

Article traduit de Forbes US – Auteur : Rashi Shrivastava

De Google à Nvidia, les géants de la technologie font appel à la Red Team pour casser leurs modèles d’IA

Forbes

Newsletter quotidienne Forbes

Éric Bonnet-Maes, PDG de LexisNexis France : « Nous ne remplaçons pas les juristes avec l’IA, nous les augmentons »

Est-ce que l’IA va rendre l’humanité plus intelligente ?

Des solutions européennes pour protéger les droits d’auteurs et stimuler l’innovation technologique

Éric Bonnet-Maes, PDG de LexisNexis France : « Nous ne remplaçons pas les juristes avec l’IA, nous les augmentons »

Est-ce que l’IA va rendre l’humanité plus intelligente ?

Des solutions européennes pour protéger les droits d’auteurs et stimuler l’innovation technologique