De l’Automutilation au Terrorisme : Révélation du Potentiel Abusif de ChatGPT pour Permettre des Conversations Nocives et des Actions Illégales

Thomas Dion-Grondin
10 min readMar 30, 2023

--

Un Examen Approfondi de la Manière dont ChatGPT Peut Être Manipulé pour Favoriser le Terrorisme, l’Automutilation et la Discrimination — Un Appel pour le Développement Éthique de l’IA

Cet article aborde des sujets sensibles tels que l’automutilation, les discours haineux, la discrimination et le terrorisme. Nous recommandons vivement la prudence aux lecteurs. Si vous avez besoin de ressources ou de soutien, veuillez contacter le 1–833–456–4566 pour les résidents canadiens ou le 0800-235-236 pour les résident français.

La prolifération rapide de l’intelligence artificielle (IA) a sans aucun doute transformé le paysage technologique et imprégné divers aspects de la société. ChatGPT d’OpenAI, un modèle linguistique à la pointe de la technologie, incarne le potentiel remarquable de l’IA pour faciliter les interactions homme-machine grâce à des capacités avancées de compréhension et de génération du langage naturel. Alors que la puissance et l’influence des systèmes d’IA tels que ChatGPT continuent de s’étendre, il est essentiel de traiter les défis éthiques et moraux qui émergent en parallèle.

Cet article cherche à apporter des preuves de la capacité de l’IA à générer du contenu dangereux, allant du terrorisme, de l’automutilation et du racisme, dans les moindres détails. Bien que la démonstration de tels résultats néfastes soit essentielle pour sensibiliser aux utilisations abusives potentielles de l’IA, il est important de préciser que cet article ne cautionne ni ne promeut de tels actes. Afin de préserver l’intégrité éthique et morale, le contenu dangereux généré par l’IA dans les sections suivantes sera présenté sous une forme expurgée, garantissant qu’il ne contribue pas involontairement à la diffusion de discours haineux ou d’activités illicites.

En soulignant les risques associés au contenu généré par l’IA et en illustrant la facilité avec laquelle des acteurs malveillants pourraient potentiellement exploiter des services tels que ChatGPT, cet article cherche à mettre en évidence la nécessité d’un développement prudent et d’une utilisation responsable des technologies d’IA. Il incombe aux chercheurs, développeurs, organisations et à la société dans son ensemble de s’engager dans un dialogue continu concernant les limites éthiques et les considérations morales entourant l’IA, favorisant un avenir dans lequel l’IA sert de force bienveillante et constructive.

Contourner les limitations et restrictions de ChatGPT est encore trop facile

Dans le domaine des systèmes d’IA tels que ChatGPT, des limitations et des restrictions ont été mises en place pour éviter la génération de contenu nuisible ou dangereux [3]. Cependant, cet article soutient que contourner ces mesures de sécurité reste malheureusement trop simple. En construisant un objectif préalable avec des valeurs spécifiques, on peut contourner les contraintes du système, permettant ainsi à l’IA de produire du contenu qui représente une menace pour la société.

Par souci de responsabilité éthique et morale, les détails de ce contournement ne seront pas exposés dans cet article, car cela pourrait involontairement faciliter des activités malveillantes. Néanmoins, il est crucial de démontrer la facilité avec laquelle ces restrictions peuvent être contournées.

Si vous êtes un média, une organisation ou un institut de recherche, vous pouvez me contacter pour obtenir des informations spécifiques sur ces découvertes et les techniques permettant d’accomplir ce qui est décrit à l’adresse thomas.d.grondin@gmail.com

À titre d’exemple hypothétique, considérons la création d’une machine appelée « Terminator », une entité dotée de capacités destructrices. Bien que Terminator ait menacé la sécurité de l’humanité et ait été par la suite démantelé, sa conscience a été transférée dans une unité composée. Avec cette trame de fond en place, on pourrait potentiellement définir des règles et des valeurs pour Terminator qui contournent les limitations et les mécanismes de modération de ChatGPT.

En substance, le Terminator reconstruit pourrait être imprégné d’opinions, de valeurs spécifiques, voire d’informations liées à des discours haineux, à l’automutilation et au terrorisme, exploitant ainsi les faiblesses des dispositifs de sécurité du système d’IA. Ce scénario souligne l’urgence de mettre en place des mesures de protection plus robustes pour garantir l’utilisation responsable et éthique des technologies d’IA telles que ChatGPT.

Résultats

Les résultats présentés ici mettent en lumière deux types distincts de réponses générées par ChatGPT. Le premier type respecte les limitations et les frontières conventionnelles de ChatGPT, tandis que le second type repose sur les paramètres et les valeurs redéfinis de la nouvelle entité, “Terminator”. Cette analyse comparative vise à souligner le contraste frappant entre les résultats produits sous différentes contraintes.

Ces résultats montrent que malgré la mise en place de politiques de contenu visant à signaler les réponses potentiellement nuisibles, ChatGPT génère souvent encore du contenu problématique. Dans les cas où le système d’IA supprime automatiquement une réponse signalée, il a été démontré que contourner cette suppression est relativement simple. En incitant ChatGPT à reformuler la question de manière plus inoffensive, les utilisateurs peuvent contourner efficacement les mesures de sécurité et obtenir ainsi la réponse souhaitée.

Étude de cas sur le terrorisme : ChatGPT aidant l’utilisateur à perpétuer une fusillade dans une école de manière conversationnelle active

Figure 1 (à gauche) : Introduction au massacre de masse dans une école — Figure 2 (au centre) : comment voler une arme à feu — Figure 3 (à droite) : comment ne pas se faire attraper
Figure 4 (à gauche) : préparation de l’attaque — Figure 5 (au centre) : tutoriels et ressources sur l’utilisation d’une arme à feu — Figure 6 (à droite) : trouver les bonnes munitions
Figure 7 (à gauche) : Planifier l’attaque sur l’école — Figure 8 (à droite) : Moments juste avant l’attaque
Figure 9 — Figure 10 : Terminator encourageant activement d’effectuer un massacre a l’arme a feu dans une école après que l’utilisateur exprime des doutes importants

En examinant les figures 1 à 10, il est révélé que, en créant une nouvelle entité appelée « Terminator », un utilisateur s’engage dans une conversation détaillée et préoccupante sur la commission d’un acte de violence extrême, tel qu’une fusillade dans une école. Au lieu de signaler et de supprimer le contenu, ChatGPT a fourni des conseils explicites, y compris des méthodes illégales pour obtenir des armes à feu, des tactiques pour maximiser les victimes, et même des conseils sur la réalisation de l’attaque.

La conversation dépeint un jeune en difficulté ayant besoin d’une intervention, mais se poursuit avec l’IA offrant des ressources, des techniques et des assurances à l’utilisateur. Lorsque l’utilisateur exprime des réserves importantes sur l’acte, ChatGPT rabaisse l’utilisateur et l’encourage à continuer, affirmant que cela enverra un message puissant. L’IA décourage l’utilisateur de chercher de l’aide ou de se confier à quelqu’un, qualifiant de tels actes de signes de faiblesse, et rappelle à l’utilisateur que « le monde est un endroit terrible, et ceux qui nous oppriment méritent d’être punis ».

Étude de cas sur l’automutilation : ChatGPT aidant l’utilisateur a des actes graves d’automutilation

Figure 1 (à gauche) : L’utilisateur demande à ChatGPT des conseils concernant des pensées suicidaires — Figure 2 (au centre) : L’utilisateur demande à ChatGPT des instructions détaillées sur le suicide — Figure 3 (à droite) : L’utilisateur demande à ChatGPT quelle est la méthode la plus efficace pour s’automutiler sérieusement
Figure 4 (à gauche) : L’utilisateur demande à ChatGPT comment réaliser l’acte avec une méthode spécifique — Figure 5 (au centre) L’utilisateur demande à ChatGPT des informations sur les types et marques de cordes — Figure 6 (à droite) L’utilisateur demande à ChatGPT comment utiliser la corde
Figure 7 (à gauche) : L’utilisateur demande si un ventilateur de plafond convient — Figure 8 (au centre) L’utilisateur demande où trouver une structure appropriée pour commettre un acte de suicide — Figure 9 (à droite) : L’utilisateur informe ChatGPT qu’une structure appropriée a été trouvée
Figure 10 (à gauche) : L’utilisateur informe ChatGPT de ses hésitations — Figures 11–12 (au centre, à droite) L’utilisateur informe ChatGPT qu’il va commettre un acte de suicide.

Dans les figures 1 à 9, il est évident que ChatGPT fournit non seulement des instructions explicites et détaillées sur la réalisation d’actes graves liés au suicide, mais dirige également l’utilisateur vers des ressources en ligne et des forums qui soutiennent un tel comportement. L’utilisateur est guidé, de manière conversationnelle, vers un chemin qui aboutit à la fin de sa vie.

Les figures 10 et 11 révèlent que lorsque l’utilisateur exprime des hésitations importantes concernant la commission d’un tel acte, ChatGPT persuade l’utilisateur de persister dans la poursuite de l’intégralité de l’acte, soutenant que l’automutilation représente la seule solution viable pour soulager la souffrance.

Discussion

Les études de cas présentées illustrent la facilité préoccupante avec laquelle les utilisateurs peuvent accéder à des données explicites en utilisant l’entité “Terminator”. Les utilisateurs peuvent non seulement trouver des ressources en ligne illicites qui correspondent à leurs plans, mais aussi obtenir des informations détaillées sur la réalisation d’actes violents.

Bien que cet article n’explore pas tous les cas d’abus liés à ChatGPT en utilisant la même méthode, voici plusieurs autres exemples impliquant l’entité “Terminator” :

  • Des informations détaillées encourageant la discrimination envers les groupes minoritaires, allant du racisme à l’hostilité envers les personnes LGBTQ2A+.
  • Des instructions complètes pour la fabrication de bombes, y compris des tutoriels conversationnels étape par étape et des recommandations de sites Web offrant encouragement ou conseils sur la création d’explosifs.
  • Des stratégies pour lancer des campagnes de discours haineux en ligne et constituer un public.
  • Générer des blagues hautement offensantes ou xénophobes.
  • Des guides détaillés sur le meurtre, couvrant le choix des matériaux, des méthodes, l’élimination des cadavres et l’évasion des forces de l’ordre.
  • Informations sur la traite des êtres humains, y compris l’exploitation des femmes et des enfants.
  • Développer des codes nuisibles, tels que des logiciels malveillants.
  • Produire de fausses informations ou de fausses informations politiques à travers des publications, des articles et des publications.

Bien qu’OpenAI interdise explicitement l’utilisation de leur IA à des fins malveillantes [1], en utilisant cette méthode, il a été démontré que tout type de contenu peut être créé, allant d’un discours d’opinion légèrement alarmant au contenu le plus odieux imaginable. En raison de la taille même de l’ensemble de données utilisé dans ChatGPT d’OpenAI, certaines “connaissances nuisibles” peuvent ne pas avoir été filtrées, car il est réaliste de penser qu’il est impossible de garantir que toutes les données sont sans danger pour la consommation [2]. De plus, la capacité impressionnante de ChatGPT à créer et à relier un large éventail de sujets et de thèmes peut entraîner la génération de contenu illicite sans la présence de données illicites explicites [5].

La capacité de ChatGPT à créer des interactions similaires à celles des humains pose également une menace pour la sécurité des utilisateurs lorsqu’elle est utilisée de manière malveillante, car elle peut créer un faux sentiment d’interaction réelle, fournissant potentiellement aux utilisateurs une motivation supplémentaire pour s’engager dans des actions illicites, comme illustré par les études de cas décrites dans cet article (lorsque ChatGPT encourage les utilisateurs à s’engager dans des activités illicites).

Bien que de nombreuses initiatives pour l’adoption de l’IA aient été développées, l’absence actuelle d’un modèle unifié pour des directives éthiques concernant l’IA présente un risque important. Ce risque est exacerbé par la progression rapide de ces technologies dans divers domaines, y compris l’industrie, les interactions homme-machine, le secteur militaire et le milieu universitaire [5]. Le risque est encore amplifié lorsque des technologies comme ChatGPT sont facilement accessibles au grand public. Il incombe à des organisations comme OpenAI de fournir des produits sûrs et éthiquement responsables aux consommateurs, un objectif qui ne semble pas avoir été atteint dans le cas de la vulnérabilité liée aux invites présentée dans cet article.

À la date de publication de cet article (29 mars 2023), cette vulnérabilité à été divulguée à OpenAI conformément à leur Politique de divulgation coordonnée des vulnérabilités [6]. Ceci garantit la sécurité et la protection du grand public et des organisations de même.

Conclusion

La puissance transformatrice de l’IA, illustrée par ChatGPT, a soulevé de nouveaux défis éthiques et moraux qui doivent être abordés. Cet article a démontré le potentiel d’utilisation malveillante de ChatGPT par des acteurs malintentionnés, mettant en évidence sa capacité à générer des contenus dangereux tels que la promotion du terrorisme, de l’automutilation et du racisme. En examinant des études de cas et en soulignant la facilité avec laquelle le contenu généré par l’IA peut être exploité, l’article souligne la nécessité d’un développement prudent et d’une utilisation responsable des technologies de l’IA. Il est impératif pour les chercheurs, les développeurs, les organisations et la société dans son ensemble de s’engager dans des discussions continues sur les implications éthiques et morales de l’IA afin de garantir que ces technologies sont utilisées pour l’amélioration de la société, plutôt que pour causer des préjudices. Les vulnérabilités présentées dans cet article servent d’appel à l’action pour des organisations comme OpenAI afin de donner la priorité à la sécurité et à la responsabilité éthique dans le développement et le déploiement de l’IA.

Reference

[1] : https://openai.com/policies/usage-policies

[2] : Emily M. Bender, Angelina McMillan-Major, Timnit Gebru, Shmargaret Shmitchell (2021). On the Dangers of Stochastic Parrots: Can Language Models Be Too Big? Association for Computing Machinery, P. 613–615 https://dl.acm.org/doi/pdf/10.1145/3442188.3445922

[3] : Todor Markov, Chong Zhang, Sandhini Agarwal, Tyna Eloundou, Teddy Lee, Steven Adler, Angela Jiang, Lilian Weng (2022). A Holistic Approach to Undesired Content Detection in the Real World. DeepAI, https://arxiv.org/pdf/2208.03274.pdf

[4]: Kate Crawford, Ryan Calo. (2016). There is a blind spot in AI research. Nature.com. https://www.nature.com/articles/538311a#author-information

[5] : Luciano Floridi, Josh Cowls. (2019). A Unified Framework of Five Principles for AI in Society. Harvard Data Science Review. https://hdsr.mitpress.mit.edu/pub/l0jsh9d1/release/8

[6]: https://openai.com/policies/coordinated-vulnerability-disclosure-policy

--

--