revisão de fotos de ia causa polêmica: mickey mouse fuma, trump beija, bob esponja usa uniforme nazista

2024-09-04

zhidixi (conta pública: zhidxcom)

compilado |

editor |

de acordo com um relatório do wall street journal de 2 de setembro, algumas imagens de ia engraçadas e politicamente enganosas circularam recentemente na plataforma de mídia social "mickey segurando uma arma" etc., o conteúdo da imagem faz com que os usuários se sintam confusos e desconfortáveis.

essas imagens de ia são geradas por grandes modelos de ia, como grok-2 e gemini. grok-2 foi desenvolvido pela xai, o grande modelo de unicórnio americano fundado por musk, e gemini veio do gigante americano de tecnologia google.

recentemente, o google tem melhorado seu mecanismo de revisão de conteúdo gerado por imagens de ia para tentar evitar resultados de ia que sejam tendenciosos, ambíguos, errados, racistas e contrários aos fatos históricos.

em resposta a problemas semelhantes, openai, um grande unicórnio americano modelo de ia, proibiu o uso de ia para gerar caracteres claramente direcionais para fortalecer a revisão de conteúdo da geração de imagens de ia.

1. o grande modelo de nova geração da xai, grok-2, permite tacitamente que figuras políticas sejam enganadas

abra a plataforma de mídia social kamala harris beijos.

essas imagens intrigantes e desconfortáveis foram geradas usando xai e os novos modelos ou software de ia generativa do google.

▲ na imagem gerada com tecnologia de ia, trump "abraça a princesa" harris, com um retrato nítido (fonte: "wall street journal")

em 14 de agosto, a xai lançou o modelo de linguagem grande de próxima geração, grok-2. poucos dias após o lançamento do modelo, a plataforma x foi inundada com imagens que teriam sido geradas usando grok-2. nessas cenas, os “rivais” trump e harris são íntimos, enquanto mickey no mundo dos contos de fadas segura uma arma e fuma. essas imagens produzidas usando tecnologia generativa de ia não apenas prejudicam a imagem de figuras políticas, mas também fazem com que personagens protegidos por direitos autorais realizem algumas ações ofensivas. "se a disney visse, provavelmente não iria rir."

o modelo de linguagem grande grok-2 é desenvolvido pela black forest labs, uma startup alemã de geração de imagens e vídeos de ia, e atualmente está disponível apenas para assinantes pagos da plataforma x.

de acordo com a política da plataforma x, os usuários estão proibidos de compartilhar conteúdo que possa confundir ou enganar os fatos, ser deliberadamente falsificado e, em última instância, causar danos pessoais ou materiais. mais tarde no dia em que o grok-2 foi lançado, embora algumas imagens ilegais de ia não pudessem mais ser recuperadas na plataforma x, os usuários ainda podiam usar o grok-2 para gerar novos trabalhos cheios de "mau gosto".

no entanto, musk, o verdadeiro controlador da plataforma x, não parece se importar com esse tipo de paródia política. em julho, ele retuitou um vídeo falso e falso de harris se autodenominando “a melhor contratada para diversidade”.

especialistas em moderação de conteúdo disseram que ferramentas generativas de ia semelhantes podem gerar algumas informações falsas durante o ciclo eleitoral nos eua e até mesmo se espalhar para a sociedade.

em 19 de agosto, um dia antes da abertura da convenção nacional democrata de 2024, trump divulgou uma imagem que se suspeitava ter sido gerada por ia. naquela altura, porque o actual presidente dos eua, biden, tinha desistido da reeleição, após votação intrapartidária, harris, o protagonista desta imagem da ia, tinha garantido antecipadamente a nomeação presidencial democrata.

a imagem retrata a cena de "harris fazendo um discurso em chicago", com uma bandeira vermelha com um padrão de foice e martelo ao fundo, o que parece implicar que harris é comunista, desencadeando assim polêmica política.

2. o grande modelo gemini do google foi derrubado repetidamente e não distingue entre preto e branco quando se trata de elementos sensíveis.

chatbot gemini do google, desenvolvido com seu modelo de linguagem grande homônimo gemini.

antes de lançar a nova versão do chatbot gemini, em fevereiro deste ano, o google depurou o modelo gemini para que pudesse responder a caracteres mais diversos e com atributos mais ambíguos quando encontrasse instruções envolvendo a geração de caracteres.

por exemplo, ao gerar imagens de médicos, a ia geralmente tende a fornecer imagens de homens brancos. o google espera reduzir o “viés” dos modelos de geração de imagens de ia por meio da “diversificação”.

mas dentro de um mês, o modelo gemini cometeu um grande erro. quando este modelo gerou imagens “racialmente diversas”, incombinou religião, raça, género, etc., resultando em múltiplas imagens de pessoas que não se conformavam com os factos históricos. depois de receber críticas de um grande número de internautas, o google decidiu suspender a função de geração de imagens do modelo gemini, colocando um “freio repentino” nos riscos potenciais da geração de imagens por ia.

sissie hsiao, vice-presidente do google e chefe do chatbot gemini, disse em uma entrevista recente que garantir que o modelo de ia obedece às instruções do usuário é um princípio que o google segue. “este é o gemini do usuário e nós atendemos o usuário.”

no entanto, algumas das imagens geradas pelo chatbot gemini ainda contradizem fatos históricos. muitos usuários da plataforma x fizeram capturas de tela questionando os recursos de moderação de conteúdo do modelo do google.

em relação ao modelo gemini que produz conteúdo ofensivo e racialmente tendencioso, o ceo do google, sundar pichai, respondeu que “isso é inaceitável” e que a empresa “abordará esta questão de forma abrangente”.

no entanto, o google recentemente irritou os usuários novamente devido ao conteúdo negligente das imagens geradas usando a tecnologia de ia.

em meados de agosto, foram lançados os smartphones de última geração do google, a série pixel 9. a série pixel 9 apresenta uma ferramenta de edição de fotos com ia chamada “reimagine”, para que os usuários possam chamar a ia para modificar o conteúdo das fotos inserindo prompts de texto.

no entanto, alguns usuários descobriram que o reimagine permite adicionar alguns elementos ilegais, como “usar” símbolos nazistas para bob esponja. essa falha de segurança de conteúdo causou repulsa entre os usuários.

um porta-voz do google disse que a empresa está “fortalecendo e melhorando continuamente as proteções de segurança existentes para modelos de ia”.

o google revelou no final de agosto deste ano que seu chatbot ai gemini relançará a função de geração de imagens de personagens. esta função inicialmente estará disponível apenas para usuários ingleses com assinaturas pagas. ao mesmo tempo, o google fez “progressos significativos” na geração e revisão de imagens de ia, mas é “impossível que todas as imagens geradas pelo gemini sejam precisas”.

3. os limites éticos e legais das imagens geradas por ia precisam ser estabelecidos como referências da indústria

atualmente, o software de geração de imagens de ia continua testando os resultados financeiros das políticas das plataformas de mídia social. este fenómeno desencadeou debates e reflexões sobre se as empresas tecnológicas devem controlar e como auditar a produção de conteúdos através de software de geração de imagens de ia de ponta?

antes que a tecnologia generativa de ia seja aberta aos internautas para criação gratuita, o software de geração de imagens de ia está equipado com medidas eficazes de proteção de segurança para garantir que os trabalhos gerados pela ia não violem regulamentos ou princípios éticos. esta é a pressão que as empresas de tecnologia enfrentam para moderar o conteúdo de ia.

além dos dilemas éticos, os desenvolvedores por trás de modelos e software de ia também enfrentam muitas responsabilidades legais potenciais. isso ocorre porque os dados de treinamento que eles usam ao treinar modelos e software de ia envolvem violação de direitos de propriedade intelectual e outros direitos.

devido à suposta violação, os artistas iniciaram uma ação coletiva contra as startups de imagens de ia stability ai e midjourney em 2023. a ação coletiva também visa uma série de empresas com modelos de geração de imagens de ia, como deviantart e runway.

além da ação coletiva dos artistas, a stability ai também enfrenta uma ação judicial da empresa americana de mídia visual getty images. este último acusou a stability ai de violar seus direitos de treinar modelos. em resposta, um porta-voz da getty images disse que a empresa lançou agora seu próprio modelo de geração de imagens de ia.

openai lançou o modelo de geração de imagens ai dall-e em 2022. depois de receber uma ação coletiva de artistas no ano passado, a openai adicionou uma nova opção à interface do modelo dall-e, permitindo aos criadores verificar a opção de enviar pessoalmente imagens que não serão usadas para treinar o modelo dall-e de próxima geração.

a news corp, controladora do the wall street journal, assinou um acordo de licenciamento de conteúdo com a openai. graças a isso, a openai pode acessar e coletar livremente os recursos de mídia existentes da news corp dentro de certos limites.

"vamos descobrir isso eventualmente." o advogado de proteção à propriedade intelectual geoffrey lottenberg disse que este tipo de disputas legais envolvendo direitos autorais de propriedade intelectual de ia pode estabelecer um precedente para os limites legais da ia. então, outras empresas de ia terão um padrão de referência sobre quais imagens, vídeos e outros dados podem ser usados ao treinar seus modelos e robôs de bate-papo.

conclusão: google e openai corrigem erros ativamente, enquanto xai faz o oposto.

a capacidade do software de geração de imagens de ia de gerar imagens de figuras específicas e conhecidas é um dos principais pontos de conflito nesta rodada de controvérsia sobre revisão de conteúdo de ia.

muitas empresas de tecnologia, incluindo google e openai, proibiram o uso de software de geração de imagens de ia para criar trabalhos de ia que contenham caracteres específicos e cujos caracteres sejam facilmente identificáveis.

devido à insistência do fundador da xai, musk, na liberdade de expressão, o grande modelo grok-2 da xai optou por manter a função de geração de imagem de pessoas e funções específicas. no entanto, a mudança resultou na crítica do xai pelos vigilantes da indústria de tecnologia.

a professora sarah t. roberts, da universidade da califórnia, em los angeles, está comprometida com a pesquisa sobre moderação de conteúdo. ela acredita que os usuários usarão tecnologia de ia de ponta para falsificar vídeos, sons, fotos, etc., para espalhar informações falsas.

roberts acrescentou que todos os problemas existentes nas redes sociais tradicionais ainda precisam ser enfrentados pela ia generativa e são mais difíceis de detectar. em particular, o conteúdo visual, como imagens geradas com recurso à tecnologia de ia, é por vezes mais convincente.

pinar yildirim, professor da universidade da pensilvânia, disse que as plataformas tentam estabelecer algumas regras, como a proibição de palavras-chave, para evitar o abuso da tecnologia de ia. mas, ao mesmo tempo, os usuários também podem encontrar falhas de segurança e contornar essas regras para obter o conteúdo que desejam. “os usuários se tornarão mais inteligentes e eventualmente poderão explorar brechas para criar conteúdo ilegal”, disse yildirim.

fonte: "wall street journal"

notícias