notícias

uma empresa de clonagem de voz de ia usou a tecnologia de gravação da three sheep para se envolver em “marketing suicida”?

2024-09-29

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

o incidente das três ovelhas causou um grande rebuliço, inesperadamente, a vítima acabou sendo ia.

anteontem, a polícia de hefei emitiu um aviso sobre o "incidente de gravação de lu wenqing, fundador do three sheep group", afirmando que o áudio amplamente divulgado foi gerado por ia e que o suspeito foi sujeito a medidas coercitivas criminais de acordo com a lei.

com uma palavra final, esta notificação não só deu uma posição oficial, mas também deu um tapa na “primeira pessoa na ia doméstica” que foi espalhada na internet há poucos dias. afinal, o julgamento proferido pela “primeira pessoa na ia doméstica”. "naquela época era" a tecnologia de clonagem ai voice ainda não é tão suave como a seda.

mas o que é ainda mais surpreendente é que uma empresa de ia saltou para “emitir uma declaração” ontem, dizendo que o conteúdo de áudio foi produzido pelo suspeito por meio de um grande modelo de dublagem de ia autodesenvolvido.

os internautas também ficaram chocados. depois de tudo isso, eles ainda não se esqueceram de anunciar. a ia é o rei dos rolos? seguimos a empresa mencionada no comunicado para encontrar a fonte do comunicado e encontramos conteúdo relevante em um weibo com o mesmo nome. no entanto, a conta não foi oficialmente certificada, portanto não podemos fazer uma conclusão final.

no entanto, a discussão em torno desta afirmação ainda está aumentando. os internautas a chamaram de “marketing suicida”. alguns bebês curiosos perguntaram se o produto de clonagem de voz da empresa de ia é realmente tão poderoso. .”

experimente... com base na ocultação dos nomes das empresas e produtos relevantes, realizamos alguns testes reais no produto. deve-se observar que os testes a seguir são apenas para fins científicos populares. ferramenta reside na forma como os usuários a utilizam, nunca apoiaremos ninguém que use ia para testar os limites da lei.

ao mesmo tempo, também consultamos advogados relevantes para saber se existem precedentes para este tipo de casos de violação de voz por clonagem de ia e a quais questões jurídicas os criadores e plataformas precisam prestar atenção ao usar ou promover novas tecnologias, para sua referência. .

ia clona a voz de uma pessoa,

apenas alguns segundos de amostra de som

insira texto, atribua funções, segmente automaticamente o texto frase por frase e gere-o com um clique.

depois de entrar na página do produto, seguimos as etapas acima e levou apenas 1 minuto para que jiang wen lesse as falas de liu zi em “let the bullets fly”.

pai, procurei em tudo, mas não há dinheiro, nem bens, nem prata. restam apenas duas pessoas vivas, devemos matá-las ou não?

com essa cadência e tom, não sei se pensei que o papel de liu zi fosse interpretado por jiang wen. na verdade, liu zi interpretou o filho do filme e jiang wen fez o papel do pai de liu zi.

este áudio foi gerado usando a voz do personagem "jiang wen" no produto.

atualmente, existem muitos personagens de voz neste produto, incluindo celebridades conhecidas da internet, como "sun xiaochuan" e "ding zhen", bem como superestrelas nos círculos culturais e esportivos, como "kobe bryant" e "jay chou" .

esses personagens de voz são todos enviados por usuários da comunidade. clicar nos personagens oficiais na plataforma exibirá “em breve, fique ligado”.

além de usar personagens de voz enviados por usuários da comunidade, também é fácil clonar a voz de uma celebridade na plataforma.

aqui carregamos uma gravação de entrevista real de musk, na qual o ai musk "pessoalmente" disse "seu cisne, ele sapo! (o sapo quer comer a carne do cisne)", uma frase chinglish que é muito popular no exterior.

a plataforma exige que a amostra de voz tenha apenas mais de 2 segundos, e a qualidade da amostra é mais importante do que a duração, portanto, ao realizar a clonagem de voz, a etapa mais demorada é encontrar uma gravação nítida de musk.

segundo os responsáveis, esta gravação será usada para definir o desempenho vocal padrão do personagem, incluindo voz, emoção, velocidade de fala, entonação, ritmo, etc. se quiser estilos de voz diferentes para o mesmo personagem, você também pode adicionar diferentes amostras de estilo do personagem de voz.

no momento, carregamos apenas uma peça de áudio nesta versão e ainda estamos usando o modo de clonagem rápida da plataforma em vez do modo de clonagem profissional pago (oficialmente disse que o grau de restauração emocional e timbre do modo chega a 99,9%). o desempenho de frases curtas já é 6 a 7 pontos semelhante à voz do próprio musk.

do ponto de vista da forma de conteúdo, a ia generativa “invadiu” texto, áudio, vídeo e até mesmo conteúdo 3d. entre eles, pode-se dizer que o áudio é uma das faixas mais maduras para aplicação de tecnologia.

a clonagem de som por ia é apenas uma subdivisão da geração de áudio por ia. outras aplicações incluem música gerada por ia e efeitos sonoros gerados por ia.

muito antes do advento da ia ​​generativa, a clonagem de voz de ia realmente existia. naquela época, eu queria clonar vozes, que era baseada na tecnologia tradicional tts (text-to-speech, text-to-speech). isso exigia a construção de uma biblioteca de voz de ia e a coleta de um grande número de amostras de voz humana para criar uma. banco de dados posteriormente, teve que ser simulado por meio de depuração manual.

ou com base em projetos de código aberto como bert vits, a mais recente tecnologia de síntese de fala de aprendizagem profunda pode ser usada para converter diretamente texto em fala para restaurar o timbre, mas o equipamento e os requisitos técnicos são relativamente altos.

fonte da imagem: tutorial gpt-sovits do mestre up da estação b “henji weizi”

hoje em dia, sob a onda do aigc, as ferramentas de ia "roladas" requerem apenas 10 segundos ou menos de amostras de som para reproduzir o som com precisão.

anteriormente, introduzimos o princípio da tecnologia de clonagem de voz de ia em uma transmissão ao vivo, que geralmente é dividida em etapas como coleta de voz, extração de recursos, treinamento de modelo e síntese de fala. ferramentas de produtos relacionadas incluem fish audio, cosyvoice, elevenlabs, cutting, etc. ., permitindo o limite para operações de clonagem de voz tornou-se mais baixo. (para replays de transmissão ao vivo relacionados, você pode seguir a conta de vídeo "ai new list" ou digitalizar o código qr da imagem abaixo para visualizar)

portanto, é tecnicamente viável que o “portão de gravação das três ovelhas” seja produzido pela ia. especialmente nas mãos de "pessoas cuidadosas", além da geração de ia, depuração manual, pós-edição e outros métodos também podem ser usados ​​para obter efeitos falsos e reais.

sem falar que há muitos ruídos ambientais complexos e configurações de “estado de embriaguez” do locutor nas gravações circulantes, o que aumenta muito a dificuldade de identificação da autenticidade das gravações. não é de surpreender que muitos internautas especulem que a ia atua apenas como um “trabalhador temporário” e pode resistir a tudo.

na verdade, isto também reflecte que, com a rápida iteração da tecnologia de ia, existe uma lacuna de informação entre nós, pessoas comuns, e os profissionais da linha da frente sobre o que a ia pode fazer e em que medida o pode fazer.

além disso, o incidente “three sheep recording gate” também expôs questões legais, como a falta de supervisão da plataforma e o uso indevido pelos criadores.

discussão sobre violação de voz por ia em plataformas de conteúdo

na verdade, este não é o primeiro caso de violação de áudio através de falsificação de ia.

em abril deste ano, o tribunal da internet de pequim ouviu o primeiro “caso de violação de voz de ia” do país.

o demandante yin moumou é dublador e gravou muitos trabalhos de áudio. ele acidentalmente descobriu que sua voz havia sido transformada em ia e vendida em um aplicativo chamado “magic sound workshop”. o tribunal finalmente decidiu que o uso da voz do autor pelo réu sem a permissão do autor constituía violação e compensou o autor em 250.000 yuans por várias perdas.

de acordo com o artigo 1.023 do código civil da república popular da china, a voz de uma pessoa física é protegida por lei e seu método de proteção é semelhante ao direito de retrato. isto significa que se o som gerado pela ia for identificável e puder ser associado pelo público a uma pessoa singular específica, a utilização do som sem a autorização dessa pessoa singular pode constituir uma infração.

li yunkai, o demandante no primeiro caso de direitos autorais de pintura de ia na china e sócio do escritório de advocacia tianyuan de pequim, disse à “ai new list”:

actualmente, as nossas leis não precisam de ser revistas. como a tecnologia de ia ainda está em processo de desenvolvimento, as novas tecnologias podem ser iteradas em dois anos. se as nossas leis forem legisladas para isso, a legislação levará cerca de 3 a 5 anos. a lei é na verdade. tornou-se um pedaço de papel.

as nossas leis actuais já previram o quadro básico. o que precisa de ser ajustado é como interpretar estas leis e como moldar atitudes judiciais relevantes através de casos típicos. somente quando a tecnologia estiver verdadeiramente madura deveremos promover legislação para esclarecer as regras que foram estabelecidas na prática judicial.

além dos casos de infração na prática judicial, a infração de voz por ia em plataformas de conteúdo é mais extensa e secreta.

atualmente, o surgimento interminável de ferramentas de ia reduziu muito o limite para a criação, e o aigc se tornou um método popular de produção de conteúdo depois do pgc e do ugc.

é muito comum usar a tecnologia de clonagem de voz de ia para recriar músicas populares, permitir que personagens de anime e jogos façam covers de ia ou permitir que celebridades falecidas falem, etc., em plataformas de conteúdo nacionais e estrangeiras.

comparado com a criação clichê de fãs, usar ia para criação secundária é um conceito mais amplo. os trabalhos de fãs são geralmente limitados a criações dentro de grupos de fãs, enquanto as criações secundárias podem vir de entusiastas comuns da tecnologia de ia e, com a bênção da tecnologia de ia, há maior espaço para imaginação para adaptação e inovação.

os trabalhos de segunda geração de som de ia com alta qualidade e quantidade podem não apenas alcançar a base de fãs, aproveitando a popularidade do ip original ou das próprias celebridades, mas também têm o potencial de romper o círculo.

de um modo geral, tendo em conta a atual quantidade e influência dos conteúdos de segunda geração e a ecologia das plataformas de conteúdos, a proteção dos direitos de autor depende principalmente da consciência dos criadores, dos proprietários dos direitos de autor e da supervisão pública.

se a obra original e o detentor dos direitos autorais não apresentarem reivindicações contra a obra de segunda geração, geralmente não haverá questões legais.

a maioria das plataformas de conteúdo também opta por permitir que esses conteúdos cresçam livremente, ao mesmo tempo que impõe certas restrições. afinal, uma supervisão demasiado rigorosa dos direitos de autor irá inevitavelmente diminuir o entusiasmo dos criadores e dificultar a difusão do conteúdo, o que também representará uma enorme perda para as plataformas de conteúdo.

é claro que, ao mesmo tempo que incentivam a inovação de conteúdos, as plataformas de conteúdos também precisam de melhorar os correspondentes mecanismos de revisão, rotulagem e supervisão.

em 14 de setembro de 2024, a administração do ciberespaço da china lançou as "medidas para rotulagem de conteúdo sintético gerado por inteligência artificial (rascunho para comentários)", que esclareceu ainda mais os requisitos específicos para adicionar rótulos de conteúdo aigc.

aqueles que fornecem serviços de edição que geram fala, como vozes humanas sintetizadas ou vozes imitadas, ou que alteram significativamente as características de identidade pessoal, devem adicionar comandos de voz ou de ritmo de áudio e outros sinais no início, final ou meio do áudio nas posições apropriadas, ou adicioná-los à interface da cena interativa.

além da questão ambígua e difícil de determinar da propriedade dos direitos autorais, outra controvérsia advém de conflitos éticos e morais realistas.

por exemplo, usar a ia para “ressuscitar” as vozes e sorrisos de celebridades falecidas, sob o pretexto de calor e lembrança, também é considerado um consumo desrespeitoso e excessivo do falecido.

quer sejam os trabalhos de voz de ia de segunda geração da plataforma de conteúdo ou o incidente criminal de dublagem de ia por three sheep, ainda existem muitos direitos autorais, ética, privacidade de dados, questões ilegais e criminais em torno da tecnologia de clonagem de voz de ia que precisam ser mais aprofundadas discutido.

autor | tsukiyama tachibana ishize

editor | zhang jie