l’ia d’enregistrement de m. lu de three sheeps peut-elle être construite ? ma réponse est : bien sûr

2024-09-27

aux petites heures de ce matin, un certain nombre de personnes m'ont envoyé une photo, disant que la police l'avait notifiée, et me demandant comment savoir si l'enregistrement de three sheep était une ia.

certains amis m'ont dit qu'il y avait une personne qui prétendait être la personne numéro un en matière d'ia en chine. il avait précédemment juré que cet enregistrement ne pouvait pas être réalisé par l'ia et que l'ia ne pouvait pas le produire. alors, pourrait-il y avoir une théorie du complot derrière ce rapport ?

j'ai failli gicler. qui est la première ia en chine ? ma première réaction a été que les académiciens ont également arrêté de participer à des choses aussi ennuyeuses ?

ensuite, j'ai cherché... oh... oublie ça.

je pense qu'il est nécessaire pour moi de vulgariser certaines sciences, c'est-à-dire : l'ia peut-elle atteindre le niveau d'enregistrement de sanyanglu ?

je peux vous donner une réponse claire : oui.

tout d’abord, parlons brièvement du contexte.

les trois moutons et simba avaient une liaison compliquée. ils se battaient simplement, faisant des allers-retours, et c'était tellement animé.

puis, alors que la tourmente était à son paroxysme, un enregistrement explosif de lu wenqing, le président de three sheep, est devenu viral sur internet.

ça y est, j'ai fait quelques coupures, et j'ai aussi fait taire certaines parties indécentes.

le contenu est explosif et choquant, avec une grande crédibilité et un contenu choquant. il implique des luttes de pouvoir, de la tricherie, etc. pour résumer, m. lu a révélé qu'il avait eu des relations inappropriées avec toutes les présentatrices féminines de three sheep. il a également nommé zhang yiming et l'a méprisé. . .

c’est probablement ce qui s’est passé, puis three sheep l’a rapporté, affirmant que l’enregistrement avait été synthétisé par l’ia.

il y a beaucoup de querelles sur internet. la plus grande compréhension de la plupart des gens est que l'ia ne peut pas produire ce niveau d'enregistrement. pourquoi ? parce que la « première personne de l’ia nationale » l’a dit.

cet enregistrement semble très réel, n'est-ce pas ? il y a des émotions, des dialectes et des bruits, donc il y a en fait deux questions. cet enregistrement a-t-il été réalisé par l'ia ? et l’ia peut-elle atteindre ce niveau d’enregistrement ?

la première question a reçu aujourd'hui une réponse. je croirai toujours inconditionnellement en notre sécurité publique. je crois également que les rapports qu'ils publient sont des faits. cela ne fait aucun doute. la réponse à la première question est donc assez claire : c’est ce que fait l’ia.

la deuxième question, la plus critique, est donc de savoir si l’ia peut atteindre ce niveau d’enregistrement.

ma réponse est bien sûr.

tout d’abord, je dois vulgariser un peu la science ici. l’ia est une vaste catégorie, et il existe de nombreuses pistes dans ses subdivisions.

il existe de grands modèles de langage (gpt, claude, doubao, etc.), du dessin ai (mj, sd, flux, etc.), de l'audio ai (11labs, svc, gpt-sovtis, suno, etc.), de la vidéo ai (runway , keling, doubao, pixverse, etc.) et l'ia 3d (tripoai, meshy, etc.).

dans l’audio ai, il est divisé en musique générée par l’ia, effets sonores générés par l’ia et clonage sonore.

cet enregistrement appartient à la piste du clonage sonore.

alors ne dites pas que si l'ia peut faire cela, elle est plus puissante qu'openai ou chatgpt. ils ne sont pas sur la même voie, donc il n'y a pas de comparaison. tout comme vous l'avez dit, wow, cette machine à laver est vraiment bonne pour laver. des vêtements, encore mieux que ce réfrigérateur. . .

le clonage vocal est divisé en deux types : tts (text to speech) et svc (ai voice changing).

tts consiste à donner à la voix d'une personne quelques secondes et dizaines de secondes de matériel pour entraîner un modèle d'ia, puis à utiliser directement le texte pour générer une synthèse vocale de l'audio de la voix d'une personne spécifique. le meilleur projet open source devrait maintenant être gpt -sovits.。

svc peut être communément compris comme le changement de voix de l'ia, qui est le changeur de voix à l'ère de l'ia. il existe actuellement trois sous-projets principaux dans le domaine du changeur de voix ia : so-vits-svc, rvc et ddsp.

ok, il est désormais clair que dans le domaine du clonage vocal de l’ia, il existe deux méthodes pour réaliser une falsification vocale.

l'avantage du projet tts est que les besoins en données sont courts, seulement 5 secondes de matériel audio suffisent et votre voix peut ensuite être clonée, il vous suffit de fournir du texte pour générer de l'audio. le coût et l'effet sont extrêmement faibles. est très rapide. mais l'inconvénient est que les limites supérieures de l'émotion, des pauses et du réalisme sont très basses. après avoir écouté pendant des dizaines de secondes, vous pouvez facilement dire qu'il s'agit d'une saveur d'ia.

avant, tout le monde pensait que l’ia ne pouvait pas faire la falsification audio de m. lu. ils avaient tous des idées préconçues sur tts et pensaient qu’il fallait le faire avec tts.

pour être très franc, il est en effet un peu difficile pour tts de produire un son du niveau de m. lu, sur la base des produits publiquement disponibles sur le marché que je connais (hors projets dans les laboratoires internes des grandes entreprises).

cependant, si vous y réfléchissez, tts ne peut pas faire cela, mais qu'en est-il de svc ?

l'inconvénient de svc est son coût élevé. il nécessite un ensemble de données audio de 30 minutes, puis plusieurs heures de formation en alchimie pour entraîner le modèle vocal de la personne. enfin, vous devez trouver une autre personne pour enregistrer un audio, puis utiliser svc. pour changer la voix. le son est remplacé.

l'avantage est très simple. cette chose peut conserver toutes les émotions, pauses, ton, dialecte, etc. du locuteur, et la limite supérieure de qualité est à peu près infinie. tant que le modèle est bon, vous ne pouvez pas dire s'il l'est. ia ou pas.

même la voix chantée peut être modifiée de manière transparente. changer votre voix parlée n'est qu'une petite affaire.

stefanie sun, l'ia devenue populaire l'année dernière, était composée de svc.

j'ai également écrit plusieurs tutoriels sur svc.

laissez-moi également vous écouter. après avoir utilisé svc pour changer ma voix, je l'ai remplacée par ma propre voix.li ronghaol'effet du modèle.

c'est tout simplement de l'ia, j'ai seulement ajouté une musique de fond.

c'est svc.

donc, en utilisant svc pour faire la falsification audio ai de m. lu, les étapes sont très simples.

1. collectez environ 30 minutes de données vocales de m. lu sur internet. après tout, c'est une célébrité.

2. utilisez svc ou rvc pour nettoyer la voix de m. lu et l'entraîner dans un modèle d'ia.

3. m. lu est originaire d'anqing et il y a de nombreux anqing à hefei.trouvez quelqu'un avec un accent similaire au sien et lisez d'abord vous-même l'audio à synthétiser.

4. enfin, utilisez le modèle d'ia de svc pour remplacer l'audio fini par sa voix.

il en va de même pour les voix féminines.

ça y est, c'est fini.

si vous souhaitez toujours l'entendre de manière plus réaliste, utilisez simplement un écrêtage ou quelque chose pour ajouter un son ambiant au bruit du vent. il y en a trop, trouvez-le simplement. si vous voulez un son ambiant, les logiciels audio traditionnels peuvent le gérer. utilisez-le également avec le son ambiant. l'ensemble de données est utilisé pour la formation, bien que je ne le recommande pas. . .

en particulier, la méthode de la vidéo originale consiste à envoyer l'enregistrement sur le téléphone mobile, puis à le lire sur le téléphone mobile et à utiliser un autre téléphone mobile pour l'enregistrer. le son ambiant lui-même est important, et il est également mélangé à l'arrière-plan. rire de mes amis, ce qui est un désastre. ce sont tous des facteurs hors terrain. . .

donc, revenons à la deuxième question : l’ia peut-elle créer de faux enregistrements comme celui de m. lu ? bien sûr que vous le pouvez.

ne considérez pas l’ia comme trop mythique, et ne considérez pas l’ia comme trop nulle.l’intelligence artificielle est souvent intelligence artificielle + intelligence.

le tts actuel ne peut pas résoudre les problèmes émotionnels, alors pourquoi l’ia doit-elle gérer les émotions ?

ne pouvez-vous pas simplement changer le timbre après avoir fini de le réciter manuellement ? c'est l'intelligence artificielle + l'intelligence.

ouvrez votre esprit et ne soyez pas trop limité.

l’ia est votre assistant, un outil auxiliaire, que vous pouvez utiliser, et non pas vous qui devez tout lui laisser en tant que commerçant sans intervention.

enfin, je veux faire une déclaration.

j'écris cet article pour ne pas informer tout le monde de cette technologie, puis enfreindre la loi, faire des choses extra-légales et devenir un gangster extra-légal.

au lieu de cela, j'espère faire un peu de vulgarisation scientifique sur l'audio de l'ia, combler le manque d'information et faire savoir à tout le monde qu'il existe une telle technologie et que la limite supérieure est ici. ne pensez pas que l'ia ne peut pas la prendre à la légère. . mais nous devons savoir où et quel niveau l’ia actuelle peut atteindre.

que peut-on faire avec le soutien de l'intelligence artificielle + intelligence.

les progrès de la science et de la technologie sont irréversibles. tout le monde est une goutte d'eau dans cet immense torrent, et il vaut toujours mieux savoir que ne pas savoir. ce n'est qu'en se connaissant et en connaissant l'ennemi que vous pourrez remporter la victoire dans chaque bataille.

nous apprenons beaucoup de choses et apprenons l’ia, souvent pour nous protéger.

protégez également nos familles.

ensuite, une vie meilleure.

maintenant que vous avez vu ça, si vous pensez que c'est bien, n'hésitez pas à le liker, à le regarder et à le retweeter trois fois. si vous souhaitez recevoir des notifications au plus vite, vous pouvez aussi me donner une étoile⭐. ~merci d'avoir lu mon article, à la prochaine fois.

>/ auteur : kazik

nouvelles

l’ia d’enregistrement de m. lu de three sheeps peut-elle être construite ? ma réponse est : bien sûr

introduction

mes coordonnées