la revue de photos d'ia suscite la controverse : mickey mouse fume, trump embrasse, bob l'éponge porte l'uniforme nazi

2024-09-04

zhidixi (compte public : zhidxcom)

compilé |

editeur | mo ying

selon un rapport du wall street journal du 2 septembre, des images d'ia plaisantes et politiquement trompeuses ont récemment circulé sur la plateforme de médias sociaux « mickey tenant une arme à feu », etc., le contenu de l'image rend les utilisateurs confus et mal à l'aise.

ces images d'ia sont générées par de grands modèles d'ia tels que grok-2 et gemini. grok-2 a été développé par xai, la licorne américaine à grand modèle d'ia fondée par musk, et gemini est venu du géant américain de la technologie google.

récemment, google a amélioré son mécanisme d'examen du contenu généré par l'ia pour tenter d'éviter les résultats de l'ia qui sont biaisés, ambigus, erronés, racistes et contraires aux faits historiques.

en réponse à des problèmes similaires, openai, une grande licorne américaine modèle d'ia, a interdit l'utilisation de l'ia pour générer des caractères clairement directionnels afin de renforcer l'examen du contenu de la génération d'images ia.

1. le grand modèle grok-2 de nouvelle génération de xai permet tacitement de faire des farces à des personnalités politiques

ouvrez la plateforme de médias sociaux kamala harris bisous.

ces images déroutantes et inconfortables ont été générées à l’aide de xai et des nouveaux modèles ou logiciels d’ia générative de google.

▲dans l'image générée à l'aide de la technologie ia, trump « embrasse la princesse » harris, avec un portrait clair (source : « wall street journal »)

le 14 août, xai a lancé le grand modèle de langage grok-2 de nouvelle génération. quelques jours après la sortie du modèle, la plate-forme x a été inondée d'images qui auraient été générées à l'aide de grok-2. dans ces scènes, les « rivaux » trump et harris sont intimes, tandis que mickey, dans le monde des contes de fées, tient une arme à feu et fume. ces images produites à l’aide de la technologie de l’ia générative nuisent non seulement à l’image des personnalités politiques, mais incitent également les personnages protégés par le droit d’auteur à commettre des actes offensants. "si disney le voyait, ils ne riraient probablement pas."

le grand modèle linguistique grok-2 est alimenté par black forest labs, une startup allemande de génération d'images et de vidéos ia, et n'est actuellement disponible que pour les abonnés payants de la plate-forme x.

selon la politique de la plateforme x, il est interdit aux utilisateurs de partager du contenu susceptible de confondre ou d'induire en erreur les faits, d'être délibérément falsifié et, à terme, de causer des dommages personnels ou matériels. plus tard dans la journée de sortie de grok-2, même si certaines images illégales d'ia ne pouvaient plus être récupérées sur la plate-forme x, les utilisateurs pouvaient toujours utiliser grok-2 pour générer de nouvelles œuvres pleines de « mauvais goût ».

cependant, musk, le véritable contrôleur de la plateforme x, ne semble pas être gêné par ce genre de parodie politique. en juillet, il a retweeté une fausse vidéo deepfake de harris se décrivant comme « l’embauche ultime pour la diversité ».

les experts en modération de contenu ont déclaré que des outils d’ia générative similaires pourraient générer de fausses informations pendant le cycle électoral américain et même se propager à la société.

le 19 août, la veille de l’ouverture de la convention nationale démocrate de 2024, trump a publié une image soupçonnée d’être générée par l’ia. à cette époque, parce que l'actuel président américain biden avait renoncé à sa réélection, après un vote au sein du parti, harris, le protagoniste de cette image d'ia, avait verrouillé à l'avance la nomination démocrate à la présidentielle.

l'image représente la scène de « harris prononçant un discours à chicago », avec un drapeau rouge avec un motif de faucille et de marteau en arrière-plan, ce qui semble impliquer que harris est communiste, déclenchant ainsi une controverse politique.

2. le grand modèle gemini de google s’est renversé à plusieurs reprises et ne fait pas de distinction entre le noir et le blanc lorsqu’il s’agit d’éléments sensibles.

le chatbot gemini de google, alimenté par son grand modèle de langage homonyme gemini.

avant de lancer la nouvelle version du chatbot gemini en février de cette année, google a débogué le modèle gemini afin qu'il puisse répondre à des caractères plus divers avec des attributs plus ambigus lorsqu'il rencontrait des instructions impliquant la génération de caractères.

par exemple, lorsqu’elle génère des images de médecins, l’ia a généralement tendance à donner des images d’hommes blancs. google espère réduire le « biais » des modèles de génération d'images ia grâce à la « diversification ».

mais en un mois, le modèle gemini a commis une grave erreur. lorsque ce modèle générait des images « racialement diverses », il ne correspondait pas à la religion, à la race, au sexe, etc., ce qui aboutissait à de multiples images de personnes qui ne se conformaient pas aux faits historiques. après avoir reçu les critiques d'un grand nombre d'internautes, google a décidé de suspendre la fonction de génération d'images du modèle gemini, mettant ainsi un « frein soudain » aux risques potentiels de la génération d'images par l'ia.

sissie hsiao, vice-présidente de google et responsable du chatbot gemini, a déclaré dans une récente interview que garantir que le modèle d'ia obéit aux instructions de l'utilisateur est un principe auquel google adhère. "c'est le gémeaux de l'utilisateur, et nous servons l'utilisateur."

néanmoins, certaines des images générées à l’aide du chatbot gemini contredisent toujours les faits historiques. de nombreux utilisateurs de la plateforme x ont pris des captures d’écran remettant en question les capacités de modération de contenu du modèle de google.

concernant le modèle gemini produisant du contenu offensant et à caractère raciste, le pdg de google, sundar pichai, a répondu que "c'est inacceptable" et que la société "s'attaquera de manière globale à ce problème".

cependant, google a récemment de nouveau provoqué la colère des utilisateurs en raison du contenu laxiste des images générées à l’aide de la technologie de l’ia.

à la mi-août, les smartphones de dernière génération de google, la série pixel 9, ont été lancés. la série pixel 9 introduit un outil de retouche photo ia appelé « reimagine », permettant aux utilisateurs d'appeler l'ia pour modifier le contenu des photos en saisissant des invites de texte.

cependant, certains utilisateurs ont découvert que reimagine permettait aux utilisateurs d'ajouter des éléments illégaux, tels que "porter" des symboles nazis pour bob l'éponge. cette faille de sécurité du contenu a provoqué le dégoût des utilisateurs.

un porte-parole de google a déclaré que la société "renforce et améliore continuellement les protections de sécurité existantes pour les modèles d'ia".

google a révélé fin août de cette année que son chatbot ia gemini relancerait la fonction de génération d'images de personnages. cette fonction ne sera dans un premier temps disponible que pour les utilisateurs anglais disposant d'un abonnement payant. dans le même temps, google a fait des « progrès significatifs » dans la génération et l’examen d’images ia, mais il est « impossible que chaque image générée par gemini soit exacte ».

3. les limites éthiques et juridiques des images générées par l’ia doivent être établies comme références de l’industrie

actuellement, les logiciels de génération d’images ia continuent de tester les résultats des politiques des plateformes de médias sociaux. ce phénomène a déclenché des débats et des réflexions, par exemple sur la question de savoir si les entreprises technologiques devraient contrôler et comment auditer le contenu produit par un logiciel de génération d'images ia de pointe ?

avant que la technologie d'ia générative ne soit ouverte aux internautes pour une création gratuite, le logiciel de génération d'images d'ia est équipé de mesures de protection de sécurité efficaces pour garantir que les œuvres générées par l'ia ne violent pas les réglementations ni les principes éthiques. c’est la pression à laquelle les entreprises technologiques sont confrontées lorsqu’elles modèrent le contenu de l’ia.

outre les dilemmes éthiques, les développeurs à l’origine de modèles et de logiciels d’ia sont également confrontés à de nombreuses responsabilités juridiques potentielles. en effet, les données de formation qu'ils utilisent lors de la formation de modèles et de logiciels d'ia impliquent une violation des droits de propriété intellectuelle et d'autres droits.

en raison d'une violation présumée, les artistes ont lancé un recours collectif contre les startups d'images d'ia stability ai et midjourney en 2023. le recours collectif cible également une série d’entreprises dotées de modèles de génération d’images ia tels que deviantart et runway.

en outre, outre le recours collectif des artistes, stability ai fait également face à un procès de la société américaine de médias visuels getty images. ce dernier accusait stability ai de violer ses droits de former des modèles. en réponse, un porte-parole de getty images a déclaré que la société avait désormais lancé son propre modèle de génération d'images ia.

openai a lancé le modèle de génération d'images ia dall-e en 2022. après avoir reçu un recours collectif de la part d'artistes l'année dernière, openai a ajouté une nouvelle option à l'interface du modèle dall-e, permettant aux créateurs de cocher la possibilité de télécharger personnellement des images à ne pas utiliser pour la formation du modèle dall-e de nouvelle génération.

news corp, la société mère du wall street journal, a signé un accord de licence de contenu avec openai. grâce à cela, openai peut accéder librement et collecter les ressources médiatiques existantes de news corp dans certaines limites.

"nous finirons par résoudre ce problème." geoffrey lottenberg, avocat spécialisé dans la protection de la propriété intellectuelle, a déclaré que ce type de litige impliquant les droits d'auteur de la propriété intellectuelle de l'ia pourrait créer un précédent pour les limites juridiques de l'ia. ensuite, d’autres sociétés d’ia disposeront d’une norme de référence indiquant quelles images, vidéos et autres données peuvent être utilisées lors de la formation de leurs modèles et de leurs robots de discussion.

conclusion : google et openai corrigent activement les erreurs, tandis que xai fait le contraire.

la capacité des logiciels de génération d’images d’ia à générer des images de personnages spécifiques et bien connus est l’un des principaux points de conflit dans cette série de controverses sur l’examen du contenu de l’ia.

de nombreuses entreprises technologiques, dont google et openai, ont interdit l’utilisation de logiciels de génération d’images d’ia pour créer des œuvres d’ia contenant des caractères spécifiques et dont les caractères sont facilement identifiables.

en raison de l’insistance du fondateur de xai, musk, sur la liberté d’expression, le grand modèle grok-2 de xai a choisi de conserver la fonction de génération d’images de personnes et de rôles spécifiques. cependant, cette décision a conduit à la critique de xai par les organismes de surveillance de l’industrie technologique.

le professeur sarah t. roberts de l'université de californie à los angeles s'engage dans la recherche sur la modération du contenu. elle pense que les utilisateurs utiliseront une technologie d’ia de pointe pour falsifier des vidéos, des sons, des photos, etc. afin de diffuser de fausses informations.

roberts a ajouté que tous les problèmes existant dans les médias sociaux traditionnels doivent encore être résolus par l'ia générative, et qu'elle est plus difficile à détecter. en particulier, les contenus visuels tels que les images générées à l’aide de la technologie ia sont parfois plus convaincants.

pinar yildirim, professeur à l'université de pennsylvanie, a déclaré que les plateformes tentent de fixer certaines règles, comme l'interdiction des mots-clés, pour empêcher les abus de la technologie de l'ia. mais en même temps, les utilisateurs peuvent également trouver des failles de sécurité et contourner ces règles pour obtenir le contenu qu’ils souhaitent. "les utilisateurs deviendront plus intelligents et pourront éventuellement exploiter les failles pour créer du contenu illégal", a déclaré yildirim.

source : « wall street journal »

nouvelles