une société de clonage de voix ia a utilisé la technologie d'enregistrement de three sheep pour se lancer dans un « marketing suicidaire » ?

2024-09-29

l’incident des trois moutons a fait grand bruit. de façon inattendue, la victime s’est avérée être ai.

avant-hier soir, la police de hefei a publié un avis sur « l'incident d'enregistrement de lu wenqing, fondateur du groupe three sheep », affirmant que l'audio largement diffusé avait été généré par ai et que le suspect avait été soumis à des mesures coercitives pénales conformément à la loi.

avec un dernier mot, cette notification a non seulement donné une position officielle, mais a également giflé la « première personne de l'ia nationale » dont la rumeur circulait sur internet il y a quelques jours. après tout, le jugement rendu par la « première personne de l'ia nationale ». " à l'époque, c'était "la technologie de clonage ai voice n'est pas encore aussi fluide."

mais ce qui est encore plus surprenant, c'est qu'une société d'ia s'est empressée de « publier une déclaration » hier, affirmant que le contenu audio avait été produit par le suspect via un grand modèle de doublage d'ia auto-développé.

les internautes ont également été choqués. après tout cela, ils n'ont toujours pas oublié de faire de la publicité. l'ia est-elle le roi des rouleaux ? nous avons suivi la société mentionnée dans la déclaration pour trouver la source de la déclaration et avons trouvé du contenu pertinent sur un weibo du même nom. cependant, le compte n'a pas été officiellement certifié, nous ne pouvons donc pas tirer de conclusion définitive.

cependant, les discussions autour de cette déclaration continuent de s'intensifier. les internautes l'ont qualifié de "marketing suicide". certains bébés curieux ont demandé si le produit de clonage vocal de la société d'ia était vraiment si puissant. "est-ce que quelqu'un a essayé ça ?" .»

essayez-le... en masquant les noms des sociétés et des produits concernés, nous avons effectué des tests réels sur le produit. il convient de noter que les tests suivants sont uniquement destinés à des fins scientifiques de vulgarisation. l'outil réside dans la manière dont les utilisateurs l'utilisent, nous ne soutiendrons jamais quiconque utilisant l'ia pour tester les limites de la loi.

dans le même temps, nous avons également consulté des avocats concernés pour savoir s'il existe des précédents pour ce type de cas de violation de la voix par clonage d'ia, et à quelles questions juridiques les créateurs et les plateformes doivent prêter attention lors de l'utilisation ou de la promotion de nouvelles technologies, pour votre référence. .

l'ia clone la voix d'une personne,

juste quelques secondes d'extrait sonore

saisissez du texte, attribuez des rôles, segmentez automatiquement le texte phrase par phrase et générez-le en un seul clic.

après être entré sur la page du produit, nous avons suivi les étapes ci-dessus et cela n'a pris qu'une minute pour que jiang wen lise les lignes de liu zi dans "let the bullets fly".

papa, j'ai tout fouillé, mais il n'y a ni argent, ni marchandises, ni argent. il ne reste plus que deux personnes en vie, faut-il les tuer ou non ?

avec cette cadence et ce ton, je ne sais pas si je pensais que le rôle de liu zi était joué par jiang wen. en fait, liu zi jouait le fils dans le film et jiang wen jouait le rôle du père de liu zi.

cet audio a été généré à l'aide du caractère vocal « jiang wen » dans le produit.

actuellement, ce produit contient de nombreux personnages vocaux, notamment des célébrités internet bien connues telles que "sun xiaochuan" et "ding zhen", ainsi que des superstars des cercles culturels et sportifs tels que "kobe bryant" et "jay chou". .

ces personnages vocaux sont tous téléchargés par les utilisateurs de la communauté. en cliquant sur les personnages officiels de la plateforme, vous afficherez « bientôt, alors restez à l'écoute ».

en plus d'utiliser les personnages vocaux téléchargés par les utilisateurs de la communauté, il est également facile de cloner la voix d'une célébrité sur la plateforme.

nous avons mis en ligne ici un véritable enregistrement d'interview de musk, dans lequel l'ia musk a dit "personnellement" "tu es cygne, lui grenouille ! (le crapaud veut manger la viande de cygne)", une phrase chinglish très populaire à l'étranger.

la plate-forme exige que l'échantillon de voix ne dure que 2 secondes et que la qualité de l'échantillon est plus importante que la longueur. ainsi, lors du clonage de la voix, l'étape la plus longue consiste à trouver un enregistrement clair de musk.

selon les responsables, cet enregistrement sera utilisé pour définir la performance vocale par défaut du personnage, notamment la voix, l'émotion, la vitesse de parole, l'intonation, le rythme, etc. si vous souhaitez différents styles de voix pour le même personnage, vous pouvez également ajouter différents échantillons de style du personnage vocal.

à l'heure actuelle, nous n'avons téléchargé qu'un morceau audio dans cette version, et nous utilisons toujours le mode de clonage rapide de la plateforme au lieu du mode de clonage professionnel payant (il a été officiellement déclaré que le degré de restauration du timbre et des émotions du mode atteint 99,9 %). la performance des phrases courtes est meilleure. c'est déjà 6 à 7 points similaires à la propre voix de musk.

du point de vue de la forme du contenu, l'ia générative a « envahi » le texte, l'audio, la vidéo et même le contenu 3d. parmi eux, l'audio peut être considéré comme l'une des pistes d'application technologique les plus matures.

le clonage sonore de l'ia n'est qu'une subdivision de la génération audio de l'ia. d'autres applications incluent la musique générée par l'ia et les effets sonores générés par l'ia.

bien avant l’avènement de l’ia générative, le clonage vocal de l’ia existait réellement. à cette époque, je voulais cloner des voix, ce qui était basé sur la technologie traditionnelle tts (text-to-speech, text-to-speech). cela nécessitait de créer une bibliothèque vocale d'ia et de collecter un grand nombre de spécimens de voix humaine pour créer une voix. plus tard, il a fallu le simuler via un débogage manuel.

ou sur la base de projets open source tels que bert vits, la dernière technologie de synthèse vocale d'apprentissage profond peut être utilisée pour convertir directement le texte en parole afin de restaurer le timbre, mais l'équipement et les exigences techniques sont relativement élevés.

source de l'image : tutoriel gpt-sovits du maître up de la station b « henji weizi »

de nos jours, sous la vague de l'aigc, les outils d'ia « roulés » ne nécessitent que 10 secondes ou moins d'échantillons sonores pour reproduire avec précision le son.

plus tôt, nous avons introduit le principe de la technologie de clonage vocal de l'ia dans une diffusion en direct, qui est généralement divisée en étapes telles que la collecte de voix, l'extraction de fonctionnalités, la formation de modèles et la synthèse vocale. les outils de produits associés incluent fish audio, cosyvoice, elevenlabs, cutting, etc. ., permettant le seuil des opérations de clonage vocal est devenu plus bas. (pour les rediffusions de diffusion en direct associées, vous pouvez suivre le compte vidéo « ai new list » ou scanner le code qr de l'image ci-dessous pour voir)

par conséquent, il est techniquement réalisable que le « three sheep recording gate » soit produit par l’ia. surtout entre les mains de « personnes prudentes », en plus de la génération d'ia, le débogage manuel, la post-édition et d'autres méthodes peuvent également être utilisées pour obtenir des effets faux et réels.

sans oublier qu’il y a beaucoup de bruits environnementaux complexes et de paramètres « d’état d’ivresse » du locuteur dans les enregistrements en circulation, qui augmentent considérablement la difficulté d’identifier l’authenticité des enregistrements. il n'est pas surprenant que de nombreux internautes spéculent que l'ia n'agit que comme un « travailleur temporaire » et peut résister à tout.

en fait, cela reflète également le fait qu'avec l'itération rapide de la technologie de l'ia, il existe un manque d'information entre nous, les gens ordinaires, et les praticiens de première ligne sur ce que l'ia peut faire et dans quelle mesure elle peut le faire.

en outre, l'incident du « three sheep recording gate » a également révélé des problèmes juridiques tels que le manque de supervision de la plateforme et une utilisation inappropriée par les créateurs.

discussion sur la violation de la voix de l'ia sur les plateformes de contenu

en fait, ce n’est pas le premier cas de contrefaçon audio via la contrefaçon d’ia.

en avril de cette année, le tribunal internet de pékin a entendu la première « affaire d’infraction à la voix de l’ia » du pays.

le plaignant yin moumou est un artiste de doublage et a enregistré de nombreuses œuvres audio. il a accidentellement découvert que sa voix avait été transformée en ia et vendue sur une application appelée « magic sound workshop ». le tribunal a finalement statué que l'utilisation par le défendeur de la voix du plaignant sans la permission du plaignant constituait une contrefaçon et a indemnisé le plaignant de 250 000 yuans pour diverses pertes.

selon l'article 1023 du code civil de la république populaire de chine, la voix d'une personne physique est protégée par la loi et son mode de protection est similaire au droit au portrait. cela signifie que si le son généré par l’ia est identifiable et peut être associé par le public à une personne physique spécifique, alors l’utilisation du son sans l’autorisation de cette personne physique peut constituer une contrefaçon.

li yunkai, plaignant dans la première affaire de droit d'auteur sur les peintures ia en chine et associé du cabinet d'avocats tianyuan de pékin, a déclaré à « ai new list » :

à l’heure actuelle, nos lois n’ont pas besoin d’être révisées. étant donné que la technologie de l'ia est encore en cours de développement, les nouvelles technologies pourraient être itérées dans deux ans. si nos lois doivent être légiférées à cet effet, il faudra environ 3 à 5 ans pour que la législation ait changé. la loi est en fait devenue un morceau de papier.

nos lois actuelles ont déjà fourni un cadre de base. ce qui doit être ajusté, c'est la manière d'interpréter ces lois et de façonner les attitudes judiciaires pertinentes à travers des cas typiques. ce n’est que lorsque la technologie sera véritablement mature que nous pourrons promouvoir une législation visant à clarifier les règles établies dans la pratique judiciaire.

outre les cas d'infraction dans la pratique judiciaire, les atteintes à la voix de l'ia sur les plateformes de contenu sont plus étendues et plus secrètes.

à l'heure actuelle, l'émergence sans fin des outils d'ia a considérablement abaissé le seuil de création, et l'aigc est devenue une méthode de production de contenu populaire après pgc et ugc.

il est très courant d'utiliser la technologie de clonage vocal de l'ia pour recréer de la musique populaire, laisser des personnages d'anime et de jeux réaliser des reprises d'ia, ou laisser des célébrités décédées parler, etc. sur des plateformes de contenu nationales et étrangères.

par rapport au cliché de la création de fans, l’utilisation de l’ia pour la création secondaire est un concept plus large. les œuvres de fans se limitent généralement aux créations au sein de groupes de fans, tandis que les créations secondaires peuvent provenir de passionnés ordinaires de la technologie de l'ia, et avec la bénédiction de la technologie de l'ia, il y a une plus grande place à l'imagination pour l'adaptation et l'innovation.

les œuvres sonores d'ia de deuxième génération de haute qualité et en quantité peuvent non seulement atteindre la base de fans en tirant parti de la popularité de l'ip d'origine ou des célébrités elles-mêmes, mais ont également le potentiel de briser le cercle.

d'une manière générale, compte tenu de la quantité et de l'influence actuelles des contenus de deuxième génération et de l'écologie des plateformes de contenu, la protection des droits d'auteur repose principalement sur la conscience des créateurs, des titulaires de droits d'auteur et du contrôle public.

si l’œuvre originale et le détenteur du droit d’auteur ne portent pas plainte contre l’œuvre de deuxième génération, il n’y aura généralement aucun problème juridique.

la plupart des plateformes de contenu choisissent également de permettre à ces contenus de croître librement tout en imposant certaines restrictions. après tout, un contrôle trop strict du droit d’auteur freinera inévitablement l’enthousiasme des créateurs et entravera la diffusion du contenu, ce qui constituera également une perte énorme pour les plateformes de contenu.

bien entendu, tout en encourageant l’innovation en matière de contenu, les plateformes de contenu doivent également améliorer les mécanismes correspondants d’examen, d’étiquetage et de supervision.

le 14 septembre 2024, l'administration chinoise du cyberespace a publié les « mesures d'étiquetage du contenu synthétique généré par l'intelligence artificielle (projet pour commentaires) », qui ont clarifié davantage les exigences spécifiques pour l'ajout d'étiquettes de contenu aigc.

ceux qui fournissent des services d'édition qui génèrent de la parole telle que des voix humaines synthétisées ou des voix imitées ou qui modifient de manière significative les caractéristiques de l'identité personnelle doivent ajouter des invites vocales ou des invites de rythme audio et d'autres signes au début, à la fin ou au milieu de l'audio aux positions appropriées, ou les ajouter. à l'interface de scène interactive. panneaux d'avertissement importants.

outre la question ambiguë et difficile à déterminer de la propriété du droit d'auteur, une autre controverse découle de conflits éthiques et moraux réalistes.

par exemple, utiliser l'ia pour « ressusciter » les voix et les sourires de célébrités décédées, sous couvert de chaleur et de souvenir, est également considéré comme une consommation irrespectueuse et excessive des défunts.

qu'il s'agisse des œuvres vocales d'ia de deuxième génération de la plate-forme de contenu ou de l'incident criminel de doublage d'ia par three sheep, il reste encore de nombreux problèmes de droit d'auteur, d'éthique, de confidentialité des données, illégaux et criminels entourant la technologie de clonage de voix d'ia qui doivent être approfondis. discuté.

auteur | tsukiyama tachibana ishize

editeur | zhang jie

nouvelles

une société de clonage de voix ia a utilisé la technologie d'enregistrement de three sheep pour se lancer dans un « marketing suicidaire » ?

introduction

mes coordonnées