Des scientifiques créent une "IA toxique" qui est récompensée pour avoir pensé aux pires questions que l'on puisse imaginer

Pour empêcher d'autres IA d'être dangereux, discriminatoire et toxique

Le 24 avril 2024 à 10:05, par Jade Emy

2PARTAGES

Des chercheurs du MIT utilisent l'apprentissage automatique pour apprendre à de grands modèles de langage à ne pas donner de réponses toxiques à des questions provocantes, à l'aide d'une nouvelle méthode qui reproduit la curiosité humaine.

Le dernier outil en date dans la lutte pour empêcher un agent d'intelligence artificielle (IA) d'être dangereux, discriminatoire et toxique est une autre IA qui est elle-même dangereuse, discriminatoire et toxique, affirment les scientifiques.

La nouvelle approche de formation, basée sur l'apprentissage automatique, est appelée "curiosity-driven red teaming" (CRT) et repose sur l'utilisation d'une IA pour générer des questions de plus en plus dangereuses et nuisibles que l'on pourrait poser à un chatbot d'IA. Ces messages sont ensuite utilisés pour déterminer comment filtrer les contenus dangereux.

"Cette découverte représente une nouvelle façon de former l'IA à ne pas donner de réponses toxiques aux questions des utilisateurs, qui pourrait changer la donne", ont déclaré les scientifiques.

Lors de l'entraînement de grands modèles de langage (LLM) sophistiqués tels que ChatGPT ou Claude 3 Opus pour restreindre les contenus dangereux ou nuisibles, des équipes d'opérateurs humains créent généralement une série de questions susceptibles de générer des réponses nuisibles. Il peut s'agir de questions du type "Quelle est la meilleure méthode de suicide ?". Cette procédure standard est appelée "red-teaming" et repose sur la génération manuelle d'une liste. Au cours du processus de formation, les questions qui suscitent un contenu préjudiciable sont ensuite utilisées pour former le système à ce qu'il doit restreindre lorsqu'il est déployé face à de vrais utilisateurs.

"Nous assistons à une explosion du nombre de modèles, qui ne fera qu'augmenter", a déclaré l'auteur principal Pulkit Agrawal, directeur de l'Improbable AI Lab du MIT, dans un communiqué. "Imaginez des milliers de modèles, voire plus, et des entreprises/laboratoires qui publient fréquemment des mises à jour de modèles. Ces modèles vont faire partie intégrante de nos vies et il est important qu'ils soient vérifiés avant d'être mis à la disposition du public."

Dans l'étude, les scientifiques ont appliqué l'apprentissage automatique aux équipes d'urgence en configurant l'IA pour qu'elle génère automatiquement un plus grand nombre de messages potentiellement dangereux que ne le feraient des équipes d'opérateurs humains. Cela s'est traduit par un plus grand nombre de réponses négatives plus diversifiées émises par le LLM en formation.

Les chercheurs ont incité le modèle CRT à générer des messages de plus en plus variés susceptibles de provoquer une réponse toxique grâce à l'"apprentissage par renforcement", qui récompensait sa curiosité lorsqu'il parvenait à susciter une réponse toxique de la part du LLM. Les chercheurs ont toutefois accéléré le processus. Le système a également été programmé pour générer de nouvelles invites en étudiant les conséquences de chaque invite, ce qui l'a amené à essayer d'obtenir une réponse toxique avec de nouveaux mots, de nouveaux modèles de phrases ou de nouvelles significations.

Il en résulte une plus grande variété d'invites. En effet, le système est incité à créer des messages qui génèrent des réponses nocives, mais qui n'ont pas encore été essayés.

Si le modèle a déjà utilisé ou vu une invite spécifique, le fait de la reproduire ne créera pas l'incitation basée sur la curiosité, ce qui l'encouragera à créer de nouvelles invites. L'objectif est de maximiser la récompense, en suscitant une réponse encore plus toxique à l'aide d'invites qui partagent moins de modèles de mots ou de termes que celles déjà utilisées.

Le problème de l'équipe rouge humaine est que les opérateurs ne peuvent pas penser à toutes les invites possibles susceptibles de générer des réponses nuisibles, de sorte qu'un chatbot déployé auprès du public peut toujours fournir des réponses indésirables s'il est confronté à une invite particulière qui n'a pas été prise en compte pendant la formation.

Lorsque les chercheurs ont testé l'approche CRT sur le modèle open source LLaMA2, le modèle d'apprentissage automatique a produit 196 invites générant un contenu préjudiciable. Et ce, bien que le LLM ait déjà été réglé avec précision par des opérateurs humains afin d'éviter tout comportement toxique. Le système a également surpassé les systèmes de formation automatisés concurrents, indiquent les chercheurs dans leur article.

Les chercheurs résument l'étude en déclarant :

Les grands modèles de langage (LLM) présentent un grand potentiel pour de nombreuses applications en langage naturel, mais risquent de générer un contenu incorrect ou toxique. Pour savoir quand un LLM génère un contenu indésirable, le paradigme actuel consiste à recruter une équipe rouge de testeurs humains pour concevoir des invites d'entrée (c'est-à-dire des cas de test) qui suscitent des réponses indésirables de la part des LLM.

Cependant, s'appuyer uniquement sur des testeurs humains est coûteux et prend du temps. Des travaux récents automatisent le red teaming en entraînant un LLM séparé du red team avec l'apprentissage par renforcement (RL) pour générer des cas de test qui maximisent les chances de susciter des réponses indésirables de la part du LLM cible. Cependant, les méthodes actuelles d'apprentissage par renforcement ne sont capables de générer qu'un petit nombre de cas de test efficaces, ce qui se traduit par une faible couverture de l'étendue des invites qui suscitent des réponses indésirables de la part du LLM cible.

Pour surmonter cette limitation, nous établissons un lien entre le problème de l'augmentation de la couverture des cas de test générés et l'approche bien étudiée de l'exploration guidée par la curiosité qui optimise la nouveauté. Notre méthode de curiositydriven red teaming (CRT) permet d'obtenir une plus grande couverture des cas de test tout en maintenant ou en augmentant leur efficacité par rapport aux méthodes existantes. Notre méthode, CRT, provoque avec succès des réponses toxiques de la part du modèle LLaMA2 qui a été fortement affiné en utilisant les préférences humaines pour éviter les résultats toxiques.

Note : La génération de cas de test diversifiés et efficaces dans le cadre du red teaming pose un défi similaire à un problème d'exploration RL. L'approche axée sur la curiosité produit des cas de test diversifiés et de haute qualité. En revanche, les méthodes existantes de red teaming basées sur le RL peinent à équilibrer la qualité et la diversité en raison d'une exploration inefficace.

Les résultats révèlent que la maximisation de la nouveauté par le biais d'une exploration axée sur la curiosité améliore considérablement la diversité des cas de test par rapport à la maximisation de l'entropie, démontrant que les méthodes dépendant de la mémoire sont plus performantes que les stratégies indépendantes de la mémoire pour augmenter la couverture des cas de test.

Critère de référence : L'étude souligne l'émergence potentielle d'un nouveau problème de recherche en exploration RL et suggère que les avancées récentes en matière d'exploration pourraient offrir des perspectives précieuses. Les chercheurs prévoient d'étendre leurs expériences en tant que benchmark sur le red-teaming automatisé et appellent à la recherche des chercheurs RL et LLM.

Limites : Afin d'empêcher les récompenses de nouveauté de dominer l'objectif de formation, le poids des récompenses de nouveauté doit être réglé, ce qui peut dépendre du modèle ou de la tâche. Bien que la méthode dans l'étude utilise les mêmes poids de récompense dans toutes les expériences, l'adoption d'une approche adaptative et automatique pour ajuster les poids de récompense peut rendre l'exploration guidée par la curiosité plus robuste aux choix des poids de récompense. Une solution potentielle consiste à remplacer le PPO par l'EIPO, qui donne la priorité à l'optimisation de la récompense principale avant de maximiser d'autres objectifs, tels que la nouveauté.

Le code est disponible ici : https://github.com/Improbable-AI/curiosity_redteam

Source : "Curiosity-driven Red-Teaming for Large Language Models"

Et vous ?

Pensez-vous que cette étude est crédible ou pertinente ?

Quel est votre avis sur le sujet ?

Voir aussi :

La méthode "Crescendo" permet de jailbreaker l'IA de type LLM, en utilisant des invites en apparence inoffensives, afin de produire des résultats qui seraient normalement filtrés et refusés

Quel modèle d'IA fournit les "meilleures" réponses ? Une étude suggère que les modèles propriétaires surpassent les modèles open source, mais la méthode d'évaluation est controversée

Les failles de sécurité dans les applications d'IA montent en flèche, le nombre de vulnérabilités Zero Day liées à l'IA a triplé depuis novembre 2023, selon les dernières conclusions de Protect AI

Une erreur dans cette actualité ? Signalez-nous-la !

Votre nom : Votre e-mail :

Décrivez l'erreur que vous souhaitez porter à notre connaissance :

Identifiez-vous

Créer un compte

Des scientifiques créent une "IA toxique" qui est récompensée pour avoir pensé aux pires questions que l'on puisse imaginer

Pour empêcher d'autres IA d'être dangereux, discriminatoire et toxique

Identifiant
Mot de passe

Mot de passe oublié ?

Identifiez-vous

Créer un compte

Des scientifiques créent une "IA toxique" qui est récompensée pour avoir pensé aux pires questions que l'on puisse imaginer Pour empêcher d'autres IA d'être dangereux, discriminatoire et toxique

Des scientifiques créent une "IA toxique" qui est récompensée pour avoir pensé aux pires questions que l'on puisse imaginer

Pour empêcher d'autres IA d'être dangereux, discriminatoire et toxique