a ia de gravação do sr. lu de three sheeps pode ser construída? minha resposta é: claro

2024-09-27

nas primeiras horas desta manhã, n várias pessoas me enviaram uma foto, dizendo que a polícia havia avisado e me perguntando como saber se a gravação de três ovelhas era ia.

alguns amigos me disseram que há uma pessoa que afirma ser a pessoa número um em ia na china. ele prometeu anteriormente que esta gravação não pode ser feita pela ia e que a ia não pode produzi-la. então, poderia haver alguma teoria da conspiração por trás deste relatório?

quase esguichei. quem é a primeira ia na china? minha primeira reação foi que os acadêmicos também pararam de participar de coisas tão chatas?

então eu pesquisei... ah... esqueça.

acho que é necessário popularizar alguma ciência, ou seja, a ia pode atingir o nível de gravação de sanyanglu?

posso lhe dar uma resposta clara: sim.

primeiro, vamos falar brevemente sobre o histórico.

as três ovelhas e simba estavam tendo um caso complicado. eles estavam apenas brigando entre si, indo e voltando, e era muito animado.

então, quando a turbulência atingiu o auge, uma gravação explosiva de lu wenqing, presidente da three sheep, se tornou viral na internet.

é isso, fiz alguns cortes e também silenciei algumas partes indecentes.

o conteúdo é explosivo e chocante, com grande credibilidade e conteúdo chocante. envolve lutas de poder, trapaças, etc. resumindo, o sr. lu revelou que teve relacionamentos impróprios com todas as âncoras femininas do three sheep. ele também nomeou zhang yiming e o desprezou. . .

provavelmente foi isso que aconteceu, e então three sheep relatou, dizendo que a gravação foi sintetizada por ia.

há muita discussão na internet. o maior entendimento da maioria das pessoas é que a ia não consegue produzir esse nível de gravação. porque a “primeira pessoa na ia doméstica” disse isso.

esta gravação parece muito real, certo? existem emoções, dialetos e ruídos, então na verdade há duas perguntas: esta gravação foi feita pela ia? e a ia pode atingir esse nível de gravação?

a primeira pergunta foi respondida hoje. sempre acreditarei incondicionalmente na nossa segurança pública. também acredito que os relatórios que eles publicam são fatos. portanto, a resposta à primeira pergunta é bastante clara: é isso que a ia faz.

portanto, a segunda questão, a mais crítica, é se a ia pode atingir este nível de registo.

minha resposta é, claro.

em primeiro lugar, preciso popularizar um pouco da ciência aqui. a ia é uma categoria ampla e tem muitos caminhos em suas subdivisões.

existem grandes modelos de linguagem (gpt, claude, doubao, etc.), desenho ai (mj, sd, flux, etc.), áudio ai (11labs, svc, gpt-sovtis, suno, etc.), vídeo ai (runway , keling, doubao, pixverse, etc.) e ai 3d (tripoai, meshy, etc.).

no áudio ai, ele é dividido em música gerada por ia, efeitos sonoros gerados por ia e clonagem de som.

esta gravação pertence à faixa de clonagem sonora.

portanto, não diga que se a ia pode fazer isso, ela é mais poderosa que openai ou chatgpt. eles não estão no mesmo caminho, então não há comparação, uau, essa máquina de lavar é muito boa em lavar. roupas, ainda melhores que aquela geladeira. . .

a clonagem de voz é dividida em dois tipos: tts (text to speech) e svc (ai voice changing).

tts é fornecer à voz de uma pessoa alguns segundos e dezenas de segundos de material para treinar um modelo de ia e, em seguida, usar texto diretamente para gerar a síntese de fala do áudio da voz de uma pessoa específica. o melhor projeto de código aberto agora deve ser o gpt -sovits.。

svc pode ser comumente entendido como mudança de voz de ia, que é o trocador de voz na era da ia. existem atualmente três subprojetos líderes no campo do trocador de voz de ia: so-vits-svc, rvc e ddsp.

ok, agora está claro que no campo da clonagem de voz de ia, existem dois métodos para conseguir a falsificação de voz.

a vantagem do projeto tts é que os requisitos de dados são curtos, bastam 5 segundos de material de áudio, e depois sua voz pode ser clonada, basta fornecer texto para gerar o áudio. é muito rápido. mas a desvantagem é que os limites superiores de emoção, pausas e realismo são muito baixos. depois de ouvir por dezenas de segundos, você pode facilmente dizer que se trata de um sabor de ia.

antes, todos pensavam que a ia não poderia fazer a falsificação de áudio do sr. lu. todos eles tinham ideias pré-concebidas de tts e pensavam que deveria ser feito com tts.

para ser muito franco, é de facto um pouco difícil para a tts produzir áudio do nível do sr. lu, com base nos produtos disponíveis publicamente no mercado que conheço (excluindo projectos em laboratórios internos de grandes empresas).

no entanto, se você pensar bem, o tts não pode fazer isso, mas e o svc?

a desvantagem do svc é seu alto custo. ele requer um conjunto de dados de áudio de 30 minutos e, em seguida, várias horas de treinamento em alquimia para treinar o modelo vocal da pessoa. finalmente, você precisa encontrar outra pessoa para gravar um áudio e depois usar o svc. para mudar a voz.

a vantagem é muito simples. essa coisa pode reter todas as emoções, pausas, tom, dialeto, etc. do locutor, e o limite superior de qualidade é aproximadamente infinito. ia ou não.

até a voz cantada pode ser alterada perfeitamente. alterar a voz falada é apenas um pequeno caso.

stefanie sun, a ia que se popularizou no ano passado, foi feita de svc.

também escrevi vários tutoriais sobre svc.

deixe-me também ouvir. depois de usar o svc para mudar minha voz, substituí-o pela minha própria voz.li ronghaoo efeito do modelo.

isso é ia, eu só adicionei música de fundo.

este é o svc.

portanto, usando o svc para falsificar o áudio de ia do sr. lu, as etapas são muito simples.

1. colete cerca de 30 minutos de dados de fala do sr. lu na internet. afinal, ele é uma celebridade.

2. use svc ou rvc para limpar a voz do sr. lu e treiná-la em um modelo de ia.

3. o sr. lu é de anqing e há muitas pessoas de anqing em hefei.encontre alguém com um sotaque semelhante ao dele e leia primeiro o áudio a ser sintetizado.

4. por fim, use o modelo de ia do svc para substituir o áudio finalizado por sua voz.

o mesmo vale para vozes femininas.

é isso, acabou.

se você ainda quiser ouvi-lo de forma mais realista, basta usar o clipping ou algo assim para adicionar algum ruído de vento ao som ambiente. claro, você pode encontrá-lo. também use-o com som ambiente. o conjunto de dados vai para treinamento, embora eu não recomende isso. . .

principalmente o método do vídeo original é enviar a gravação para o celular, depois reproduzi-la no celular e usar outro celular para gravá-la. o som ambiente em si é muito, e também é misturado com o fundo. risadas dos meus amigos, o que é uma bagunça. todos esses são fatores fora do campo. . .

então, voltando à segunda questão, a ia pode fazer gravações forjadas como as do sr. claro que você pode.

não pense na ia como muito mítica e não pense na ia como um lixo.a inteligência artificial é muitas vezes inteligência artificial + inteligência.

o tts atual não pode resolver problemas emocionais, então por que a ia deve lidar com emoções?

você não pode simplesmente mudar o timbre depois de terminar de recitá-lo manualmente? isso é inteligência artificial + inteligência.

abra sua mente e não seja muito limitado.

a ia é a sua assistente, uma ferramenta auxiliar, para você usar, não para você deixar tudo por conta dela como um lojista que não intervém.

finalmente, quero fazer uma declaração.

estou escrevendo este artigo para não permitir que todos saibam sobre essa tecnologia e, em seguida, infringir a lei, fazer algumas coisas extralegais e me tornar um gangster extralegal.

em vez disso, espero fazer um pouco de ciência popular sobre áudio de ia, suavizar a lacuna de informações e informar a todos que existe tal tecnologia e que o limite superior está aqui. . mas precisamos de saber onde e que nível a ia atual pode atingir.

o que pode ser feito com o apoio da inteligência artificial + inteligência.

o progresso da ciência e da tecnologia é irreversível. todos são uma gota d'água nesta enorme torrente, e só serão levados adiante. conhecer é sempre melhor do que não saber. somente conhecendo a si mesmo e ao inimigo você poderá ser vitorioso em todas as batalhas.

aprendemos muitas coisas e aprendemos ia, muitas vezes para nos proteger.

além disso, proteja nossas famílias.

então, uma vida melhor.

agora que você viu isso, se você acha que é bom, fique à vontade para curtir, assistir e retuitar três vezes. se quiser receber notificações o mais rápido possível, você também pode me dar uma estrela⭐. ~ obrigado por ler meu artigo, até a próxima.

>/ autor: kazik

notícias

a ia de gravação do sr. lu de three sheeps pode ser construída? minha resposta é: claro

introdução

minhas informações de contato