la revisione delle foto dell'intelligenza artificiale provoca polemiche: topolino fuma, trump bacia, spongebob indossa l'uniforme nazista

2024-09-04

zhidixi (account pubblico: zhidxcom)

compilato |. xu yu

editore |. mo ying

secondo un rapporto del wall street journal del 2 settembre, sulla piattaforma di social media sono state recentemente diffuse alcune immagini di intelligenza artificiale scherzose e politicamente fuorvianti, il contenuto dell'immagine fa sentire gli utenti confusi e a disagio.

queste immagini ai sono generate da grandi modelli ai come grok-2 e gemini. grok-2 è stato sviluppato da xai, il modello di unicorno americano di grandi dimensioni fondato da musk, e gemini proveniva dal colosso tecnologico americano google.

recentemente, google ha migliorato il suo meccanismo di revisione per i contenuti generati da immagini tramite intelligenza artificiale per cercare di evitare risultati parziali, ambigui, sbagliati, razzisti e contrari ai fatti storici.

in risposta a problemi simili, openai, un grande unicorno americano modello di intelligenza artificiale, ha vietato l’uso dell’intelligenza artificiale per generare caratteri chiaramente direzionali per rafforzare la revisione dei contenuti della generazione di immagini ai.

1. il modello grande di nuova generazione grok-2 di xai, consente tacitamente di fare scherzi ai personaggi politici

apri la piattaforma di social media kamala harris kisses.

queste immagini sconcertanti e scomode sono state generate utilizzando xai e i nuovi modelli o software di intelligenza artificiale generativa di google.

▲nell'immagine generata utilizzando la tecnologia ai, trump "abbraccia la principessa" harris, con un ritratto nitido (fonte: "wall street journal")

il 14 agosto, xai ha lanciato il modello linguistico di grandi dimensioni di nuova generazione grok-2. pochi giorni dopo il rilascio del modello, la piattaforma x fu inondata di immagini che si diceva fossero state generate utilizzando grok-2. in queste scene, i "rivali" trump e harris sono intimi, mentre topolino nel mondo delle fiabe impugna una pistola e fuma. queste immagini prodotte utilizzando la tecnologia dell’intelligenza artificiale generativa non solo danneggiano l’immagine di personaggi politici, ma inducono anche personaggi protetti da copyright a compiere azioni offensive. "se la disney lo vedesse, probabilmente non riderebbero."

il modello linguistico di grandi dimensioni grok-2 è alimentato da black forest labs, una startup tedesca di generazione di immagini e video con intelligenza artificiale, ed è attualmente disponibile solo per gli abbonati a pagamento della piattaforma x.

secondo la politica della piattaforma x, agli utenti è vietato condividere contenuti che possano confondere o fuorviare i fatti, essere deliberatamente falsificati e, in definitiva, portare a danni personali o materiali. più tardi, il giorno in cui è stato rilasciato grok-2, sebbene alcune immagini ai illegali non potessero più essere recuperate sulla piattaforma x, gli utenti potevano ancora utilizzare grok-2 per generare nuovi lavori pieni di "cattivo gusto".

tuttavia, musk, l'attuale controllore della piattaforma x, non sembra preoccuparsi di questo tipo di parodia politica. a luglio, ha ritwittato un video falso e deepfake in cui harris si autodefiniva "l'assunzione definitiva della diversità".

gli esperti di moderazione dei contenuti hanno affermato che simili strumenti di intelligenza artificiale generativa potrebbero generare alcune informazioni false durante il ciclo elettorale statunitense e persino diffondersi nella società.

il 19 agosto, il giorno prima dell’apertura della convenzione nazionale democratica del 2024, trump ha pubblicato un’immagine che si sospettava fosse stata generata dall’intelligenza artificiale. all’epoca, poiché l’attuale presidente americano biden aveva rinunciato alla rielezione, dopo il voto interno al partito, harris, il protagonista di questa immagine ai, aveva bloccato in anticipo la nomina presidenziale democratica.

l'immagine raffigura la scena di "harris che tiene un discorso a chicago", con una bandiera rossa con il motivo di falce e martello sullo sfondo, il che sembra implicare che harris sia un comunista, innescando così polemiche politiche.

2. il grande modello gemini di google si è ribaltato più volte e non fa distinzione tra bianco e nero quando si tratta di elementi sensibili.

il chatbot gemini di google, basato sul suo omonimo modello linguistico di grandi dimensioni gemini.

prima di lanciare la nuova versione del chatbot gemini nel febbraio di quest'anno, google ha eseguito il debug del modello gemini in modo che potesse rispondere a caratteri più diversi con attributi più ambigui quando incontrava istruzioni che coinvolgevano la generazione di caratteri.

ad esempio, quando si generano immagini di medici, l’intelligenza artificiale tende solitamente a fornire immagini di uomini bianchi. google spera di ridurre la “distorsione” dei modelli di generazione di immagini ai attraverso la “diversificazione”.

ma nel giro di un mese il modello gemini commise un grosso errore. quando questo modello generava immagini "razzialmente diverse", non corrispondeva a religione, razza, genere, ecc., risultando in molteplici immagini di persone che non erano conformi ai fatti storici. dopo aver ricevuto critiche da un gran numero di netizen, google ha deciso di sospendere la funzione di generazione di immagini del modello gemini, ponendo un "freno improvviso" ai potenziali rischi della generazione di immagini tramite intelligenza artificiale.

sissie hsiao, vicepresidente di google e responsabile del chatbot gemini, ha affermato in una recente intervista che garantire che il modello di intelligenza artificiale rispetti le istruzioni dell'utente è un principio a cui google aderisce. "questo è il gemelli dell'utente e noi serviamo l'utente."

tuttavia, alcune delle immagini generate utilizzando il chatbot gemini contraddicono ancora i fatti storici. molti utenti della piattaforma x hanno acquisito screenshot mettendo in dubbio le capacità di moderazione dei contenuti del modello di google.

per quanto riguarda il modello gemini che produce contenuti offensivi e di parte dal punto di vista razziale, il ceo di google sundar pichai ha risposto che "questo è inaccettabile" e che la società "affronterà in modo esauriente la questione".

tuttavia, google ha recentemente fatto arrabbiare nuovamente gli utenti a causa del contenuto lassista delle immagini generate utilizzando la tecnologia ai.

a metà agosto sono stati lanciati gli smartphone di ultima generazione di google, la serie pixel 9. la serie pixel 9 introduce uno strumento di fotoritocco ai chiamato "reimagine", quindi gli utenti possono chiamare l'intelligenza artificiale per modificare il contenuto delle foto inserendo istruzioni di testo.

tuttavia, alcuni utenti hanno scoperto che reimagine consente agli utenti di aggiungere alcuni elementi illegali, come "indossare" simboli nazisti per spongebob. questa falla nella sicurezza dei contenuti ha causato disgusto tra gli utenti.

un portavoce di google ha affermato che la società sta “rafforzando e migliorando continuamente le protezioni di sicurezza esistenti per i modelli di intelligenza artificiale”.

google ha rivelato alla fine di agosto di quest'anno che il suo chatbot ai gemini rilancerà la funzione di generazione delle immagini dei personaggi. questa funzione sarà inizialmente disponibile solo per gli utenti inglesi con abbonamenti a pagamento. allo stesso tempo, google ha compiuto “progressi significativi” nella generazione e nella revisione delle immagini tramite intelligenza artificiale, ma è “impossibile che ogni immagine generata da gemini sia accurata”.

3. i confini etici e legali delle immagini generate dall’intelligenza artificiale devono essere stabiliti come parametri di riferimento del settore

attualmente, il software di generazione di immagini basato sull’intelligenza artificiale continua a testare i profitti delle politiche delle piattaforme di social media. questo fenomeno ha innescato dibattiti e riflessioni, ad esempio se le aziende tecnologiche debbano controllare e come verificare l'output dei contenuti mediante un software all'avanguardia per la generazione di immagini ai?

prima che la tecnologia dell’intelligenza artificiale generativa venga aperta ai netizen per la creazione gratuita, il software di generazione delle immagini dell’intelligenza artificiale è dotato di efficaci misure di protezione della sicurezza per garantire che le opere generate dall’intelligenza artificiale non violino le normative o i principi etici. questa è la pressione che le aziende tecnologiche devono affrontare nel moderare i contenuti ai.

oltre ai dilemmi etici, gli sviluppatori dietro modelli e software di intelligenza artificiale devono affrontare anche molte potenziali responsabilità legali. questo perché i dati di addestramento utilizzati durante l’addestramento di modelli e software di intelligenza artificiale comportano la violazione dei diritti di proprietà intellettuale e di altri diritti.

a causa della presunta violazione, gli artisti hanno avviato un'azione legale collettiva contro le startup di immagini ai stability ai e midjourney nel 2023. l'azione legale collettiva prende di mira anche una serie di aziende con modelli di generazione di immagini ai come deviantart e runway.

inoltre, oltre alla class action degli artisti, stability ai si trova ad affrontare anche una causa da parte della società americana di media visivi getty images. quest'ultimo ha accusato stability ai di aver violato i suoi diritti di addestramento dei modelli. in risposta, un portavoce di getty images ha affermato che la società ha ora lanciato il proprio modello di generazione di immagini ai.

openai ha lanciato il modello di generazione di immagini ai dall-e nel 2022. dopo aver ricevuto un'azione legale collettiva da parte degli artisti lo scorso anno, openai ha aggiunto una nuova opzione all'interfaccia del modello dall-e, consentendo ai creatori di verificare l'opzione di caricare personalmente immagini da non utilizzare per l'addestramento del modello dall-e di prossima generazione.

news corp, la società madre del wall street journal, ha firmato un accordo di licenza sui contenuti con openai. grazie a ciò, openai può accedere e raccogliere liberamente le risorse multimediali esistenti di news corp entro determinati limiti.

"lo scopriremo prima o poi." l'avvocato specializzato in protezione della proprietà intellettuale geoffrey lottenberg ha affermato che questo tipo di controversie legali che coinvolgono i diritti d'autore sulla proprietà intellettuale dell'ia potrebbero costituire un precedente per i confini legali dell'ia. quindi, altre società di intelligenza artificiale avranno uno standard di riferimento per quali immagini, video e altri dati possono essere utilizzati durante l’addestramento dei loro modelli e robot di chat.

conclusione: google e openai correggono attivamente gli errori, mentre xai fa il contrario.

la capacità del software di generazione di immagini ai di generare immagini di figure specifiche e ben note è uno dei principali punti di conflitto in questo round di controversia sulla revisione dei contenuti ai.

molte aziende tecnologiche, tra cui google e openai, hanno vietato l’uso di software di generazione di immagini ai per creare opere di intelligenza artificiale che contengano personaggi specifici e i cui personaggi siano facilmente identificabili.

a causa dell’insistenza del fondatore di xai musk sulla libertà di parola, il modello grande grok-2 di xai ha scelto di mantenere la funzione di generazione di immagini di persone e ruoli specifici. tuttavia, la mossa ha portato xai a essere criticato dagli osservatori del settore tecnologico.

la professoressa sarah t. roberts dell'università della california, los angeles, è impegnata nella ricerca sulla moderazione dei contenuti. crede che gli utenti utilizzeranno la tecnologia ai all'avanguardia per falsificare video, suoni, foto, ecc. per diffondere informazioni false.

roberts ha aggiunto che tutti i problemi esistenti nei social media tradizionali devono ancora essere affrontati dall’intelligenza artificiale generativa, ed è più difficile da individuare. in particolare, i contenuti visivi come le immagini generate utilizzando la tecnologia ai sono talvolta più convincenti.

pinar yildirim, professore all’università della pennsylvania, ha affermato che le piattaforme cercano di stabilire alcune regole, come il divieto di parole chiave, per prevenire l’abuso della tecnologia ai. ma allo stesso tempo, gli utenti possono anche trovare buchi di sicurezza e aggirare queste regole per ottenere i contenuti che desiderano. "gli utenti diventeranno più intelligenti e alla fine saranno in grado di sfruttare le lacune per creare contenuti illegali", ha affermato yildirim.

fonte: "wall street journal"

notizia