revelando o segredo da ia forjando a gravação de xiao yang: custo zero e leva apenas três segundos

2024-09-30

a "gravação de lu wenqing" exposta no incidente de xiao yang primeiro causou protestos públicos devido à escala do conteúdo, e então descobriu-se que tudo foi forjado pela ia.

com o tempo, a tecnologia de ia foi mais uma vez colocada em primeiro plano.

foto/resposta oficial da yanyu technology

independentemente de a tecnologia ser boa ou ruim, em essência, a gravação sintetizada por ia pode ser entendida como uma espécie de deepfake, que utiliza algoritmos de aprendizado profundo para simular e forjar áudio e vídeo, ou seja, por meio do modelo de aprendizado profundo em tecnologia de inteligência artificial , as vozes, expressões faciais e movimentos corporais das pessoas são reunidos em conteúdo falso muito realista.

do ponto de vista técnico, é neutro. além da simulação de voz, métodos semelhantes também incluem mudança de rosto por ia, síntese de rosto, geração de vídeo, etc., coletivamente chamados de falsificação profunda.

no entanto, a tecnologia neutra não pode impedir os utilizadores de procurarem más intenções.

lan mediahui consultou lin hongxiang, fundador e ceo da fengping intelligence, uma empresa humana digital líder em ia. em relação a este tipo de incidente, lin hongxiang disse francamente que a melhoria na eficiência da produção trazida pela ia é abrangente, mas no meio da expansão. de “aplicação”, para que as violações sejam completamente isoladas, podem ser necessárias regulamentações sistemáticas e implementação eficaz.

de acordo com o nível técnico atual da indústria, os usuários só precisam encontrar alguns minutos de material disperso como amostras de aprendizagem de ia para clonar rapidamente uma voz humana completa de ia. algumas das pausas da fala, emoções e entonações na gravação podem ser adicionadas, subtraídas e ajustadas através de meios técnicos.

além disso, quando se trata de aplicações práticas, o custo de copiar um conjunto de vozes humanas de ia "agora não é alto". muitas aplicações no mercado oferecem algumas entradas gratuitas. tomando o modelo envolvido como exemplo, o modelo reecho oferece voz gratuita. serviço de clonagem, a versão mais profissional exige uma taxa adicional.

uma seção da transmissão ao vivo do boss lu interceptada da internet foi convertida em áudio e importada. em apenas alguns segundos, a voz da ia do boss lu foi clonada.

em seguida, imitamos uma gravação do incidente original com emoções e texto escandalosos e a usamos como modelo de importação de roteiro para criar uma gravação de lu wenqingrui comentando sobre musk, e pronto.

“xiao ma e os outros se foram, certo? estou te dizendo, quem eu quiser que seja popular pode ser popular, entenda. conheço muitos ceos e não elogio ninguém que elogio. musk para mim, não funciona, sabe, não funciona, e não funciona quando a gente bebe. quem é ele? ”

falando francamente, se você já ouviu esses tipos de chamadas fraudulentas de ia muitas vezes ou é sensível a vozes humanas, pode realmente dizer que o áudio da ia tem uma "sensação de máquina" - a entonação é muito estável do começo ao fim, e nunca soará quando as pessoas estiverem emocionalmente excitadas. será assim. mas este é apenas o modelo de versão normal mais básico e a função de clonagem instantânea. se houver corpus mais suficiente e a função de clonagem profissional for selecionada, o efeito será mais “real”.

então, é possível que o áudio e o vídeo sintetizados pela ia sejam tão intuitivos quanto um detector de mentiras para distinguir a autenticidade através dos dados?

a nível técnico, é viável. lin hongxiang disse que, além da autorização do próprio usuário, existem de fato padrões relevantes em construção na indústria humana digital de ia, exigindo que todos os tipos de conteúdo gerado por ia sejam adicionados com "marcas de recursos" especiais identificáveis.

este rótulo não está simplesmente adicionando uma marca d'água "gerado por xx ai" no canto, tomando o som sintetizado por ia como exemplo, ele adicionará bandas de frequência de ruído adicionais fora da banda de frequência dos sons da fala humana, mesmo dentro da faixa de sons visíveis. adicione certas bandas de frequência características.

esta frequência característica pode ser identificada pela máquina. se a identificação for necessária, o dispositivo pode extrair essas bandas de frequência e, teoricamente, a autenticidade pode ser determinada.

mas, no momento, não há muitas empresas dispostas a popularizar esta função. o fator limitante é o custo de mais um procedimento. embora o custo de um modelo de uso único não seja alto, cada modelo de áudio e vídeo é pré-instalado. na fase de formação e os custos incorridos no desenvolvimento do modelo de áudio e vídeo da próxima geração após a produção faseada ainda exercem grande pressão sobre as empresas de ia nesta fase.

atualmente, a indústria de áudio e vídeo de ia ainda está em seus estágios iniciais. como adquirir clientes e cobrir os custos durante a fase de promoção é um tópico que os profissionais não podem evitar.

mas estas não são obviamente coisas que os criminosos com más intenções considerariam. se fogos de artifício ou bombas dependem de como a pólvora é usada.

há mais de meio ano, a polícia de hong kong divulgou um caso de fraude envolvendo um montante total de 200 milhões de dólares de hong kong. no caso, funcionários da filial de hong kong de uma empresa multinacional receberam um aviso do cfo da sede, dizendo que a sede estava planejando uma “transação secreta” e precisava transferir fundos da empresa para diversas contas locais em hong kong para posterior usar.

em seguida, os funcionários foram convidados a participar de uma “videoconferência multipessoal” iniciada pela sede e, de acordo com os requisitos do encontro, hk$ 200 milhões foram transferidos 15 vezes para 5 contas bancárias.

fonte/notícias cctv

na verdade, nesta videoconferência multipessoal, exceto os funcionários da filial, as outras “pessoas” eram imagens de ia sintetizadas por fraudadores usando fatias públicas de áudio e vídeo, e depois usaram a videoconferência para mudar rostos e vozes. a equipe de fraude diretamente torna-se a equipe executiva que dá as ordens.

no caso de hong kong, os criminosos equivalem a usar mudança de rosto de ia + trocador de voz de ia para aparecer em cena. no entanto, a gravação forjada por ia de xiao yang desta vez foi completamente sintetizada por um grande modelo depois de aprender os materiais de áudio relevantes de lu. wenqing da three sheep company, as emoções estão próximas de todo o áudio de uma pessoa real. o processo é simples assim: áudio e vídeo sintetizados por ia já são uma tecnologia madura e produtos relacionados também se desenvolveram em uma indústria completa.

no entanto, a corrente principal de áudio e vídeo sintetizados por ia definitivamente não é falsa. na trama de the wandering earth parte 2, tu hengyu, interpretado por andy lau, ressuscitou yaya na forma de uma vida digital. fora da trama, o falecido famoso astro de cinema ng meng-tat também apareceu na tela por meio de ia.

portanto, se houver outro incidente como o incidente de gravação de xiao yang no futuro, antes de discutir se a tecnologia é culpada ou inocente, devemos tentar controlar as pessoas primeiro.

cuide da humanidade e salve a ia.

notícias