ein unternehmen, das ki-stimmen klont, nutzte die aufnahmetechnologie von three sheep, um „selbstmörderisches marketing“ zu betreiben?

2024-09-29

der vorfall mit den drei schafen erregte großes aufsehen, als sich herausstellte, dass es sich bei dem opfer um eine ki handelte.

vorgestern abend gab die polizei von hefei eine mitteilung zum „aufnahmevorfall von lu wenqing, dem gründer der three sheep group“, heraus, in der es hieß, dass die weit verbreiteten audiodaten von ki erzeugt worden seien und der verdächtige strafrechtlichen zwangsmaßnahmen gemäß artikel 10 ausgesetzt gewesen sei das gesetz.

mit einem letzten wort gab diese mitteilung nicht nur eine offizielle position wieder, sondern ohrfeigte auch die „erste person in der heimischen ki“, die vor einigen tagen im internet gemunkelt wurde, immerhin das urteil der „ersten person in der heimischen ki“. damals hieß es: „die ai-voice-cloning-technologie ist noch nicht ganz so reibungslos.“

was jedoch noch überraschender ist, ist, dass ein ki-unternehmen gestern eine „erklärung abgegeben“ hat und erklärt, dass der audioinhalt von dem verdächtigen mithilfe eines selbst entwickelten ki-synchronisierungsmodells produziert wurde.

auch die internetnutzer waren schockiert und vergaßen immer noch nicht, werbung zu machen. ist ki der könig der brötchen? wir folgten dem in der erklärung genannten unternehmen, um die quelle der aussage zu finden, und fanden relevante inhalte auf einem weibo mit demselben namen. das konto wurde jedoch nicht offiziell zertifiziert, sodass wir keine endgültige schlussfolgerung ziehen können.

die diskussion um diese aussage nimmt jedoch immer noch zu. einige neugierige babys haben gefragt, ob das voice-cloning-produkt des ki-unternehmens wirklich so mächtig ist .“

probieren sie es einfach aus ... auf der grundlage der ausblendung der namen der relevanten unternehmen und produkte haben wir einige tatsächliche tests zum produkt durchgeführt. es ist zu beachten, dass die folgenden tests nur für populärwissenschaftliche zwecke dienen da das tool in der art und weise liegt, wie benutzer es verwenden, werden wir niemals jemanden dabei unterstützen, ki zu verwenden, um die grenzen des gesetzes auszutesten.

gleichzeitig haben wir auch relevante anwälte konsultiert, um zu erfahren, ob es präzedenzfälle für diese art von sprachverletzungsfällen durch ki-klonen gibt und auf welche rechtlichen fragen entwickler und plattformen achten müssen, wenn sie neue technologien nutzen oder fördern .

ki klont die stimme einer person,

nur ein paar sekunden tonbeispiel

geben sie text ein, weisen sie rollen zu, segmentieren sie den text automatisch satz für satz und generieren sie ihn mit einem klick.

nachdem wir die produktseite aufgerufen hatten, gingen wir die oben genannten schritte durch und es dauerte nur 1 minute, bis jiang wen die zeilen von liu zi in „let the bullets fly“ vorlas.

papa, ich habe alles durchsucht, aber es gibt kein geld, keine waren und kein silber. es sind nur noch zwei menschen am leben. sollen wir sie töten oder nicht?

bei diesem rhythmus und ton weiß ich nicht, ob ich dachte, dass die rolle von liu zi von jiang wen gespielt wurde. tatsächlich spielte liu zi den sohn im film und jiang wen die rolle von liu zis vater.

dieses audio wurde mit der sprachfigur „jiang wen“ im produkt generiert.

derzeit gibt es in diesem produkt viele synchronsprecher, darunter bekannte internet-prominente wie „sun xiaochuan“ und „ding zhen“ sowie superstars aus kultur- und sportkreisen wie „kobe bryant“ und „jay chou“. .

diese sprachcharaktere werden alle von community-benutzern hochgeladen. wenn sie auf die offiziellen charaktere auf der plattform klicken, wird „in kürze erhältlich, also bleiben sie dran.“

neben der verwendung von von community-benutzern hochgeladenen sprachcharakteren ist es auch einfach, die stimme einer berühmtheit auf der plattform zu klonen.

hier haben wir eine echte interviewaufzeichnung von musk hochgeladen, in der die ki musk „persönlich“ sagte: „du schwan, er frosch! (die kröte will das schwanenfleisch essen)“, ein im ausland sehr beliebter chinglish-ausdruck.

die plattform erfordert, dass die beispielstimme nur länger als 2 sekunden sein muss, und die qualität des beispiels ist wichtiger als die länge. daher besteht der zeitaufwändigste schritt beim klonen von stimmen darin, eine klare aufnahme von musk zu finden.

nach angaben der beamten wird diese aufnahme verwendet, um die standardmäßige stimmleistung des charakters zu definieren, einschließlich stimme, emotionen, sprechgeschwindigkeit, intonation, rhythmus usw. wenn sie unterschiedliche stimmstile für denselben charakter wünschen, können sie auch unterschiedliche stilbeispiele des stimmcharakters hinzufügen.

derzeit haben wir nur ein audiostück in dieser version hochgeladen und verwenden immer noch den schnellen klonmodus der plattform anstelle des kostenpflichtigen professionellen klonmodus (offiziell heißt es, dass der grad der klangfarben- und emotionalen wiederherstellung des modus bis zu 99,9 % beträgt). die leistung kurzer sätze ist bereits 6 bis 7 punkte ähnlich wie bei musks eigener stimme.

aus der perspektive der inhaltsform ist die generative ki in text-, audio-, video- und sogar 3d-inhalte „eingedrungen“. unter diesen kann man sagen, dass audio einer der ausgereifteren wege für die technologieanwendung ist.

das klonen von ki-sound ist nur eine unterteilung der ki-audiogenerierung. zu den weiteren anwendungen gehören ki-generierte musik und ki-generierte soundeffekte.

lange vor dem aufkommen der generativen ki gab es tatsächlich das klonen von ki-stimmen. damals wollte ich stimmen klonen, was auf der traditionellen tts-technologie (text-to-speech, text-to-speech) basierte. dazu war der aufbau einer ki-stimmenbibliothek und das sammeln einer großen anzahl menschlicher stimmproben erforderlich später musste es durch manuelles debuggen simuliert werden.

oder basierend auf open-source-projekten wie bert vits kann die neueste deep-learning-sprachsynthesetechnologie verwendet werden, um text direkt in sprache umzuwandeln, um die klangfarbe wiederherzustellen, aber die ausrüstung und die technischen anforderungen sind relativ hoch.

bildquelle: gpt-sovits-tutorial des up-meisters „henji weizi“ von station b

heutzutage, unter der aigc-welle, benötigen die „gerollten“ ki-tools nur noch 10 sekunden oder weniger an klangproben, um den klang genau wiederzugeben.

zuvor haben wir das prinzip der ai-voice-cloning-technologie in einer live-übertragung eingeführt, die im allgemeinen in schritte wie spracherfassung, merkmalsextraktion, modelltraining und sprachsynthese unterteilt ist. zu den zugehörigen produkttools gehören fish audio, cosyvoice, elevenlabs, cutting usw ., wodurch der schwellenwert für voice-cloning-vorgänge gesenkt wurde. (für entsprechende wiederholungen von live-übertragungen können sie dem videokonto „ai new list“ folgen oder den qr-code des bildes unten scannen, um es anzusehen.)

daher ist es technisch machbar, dass das „three sheep recording gate“ durch ki hergestellt wird. gerade in den händen „umsichtiger menschen“ können neben der ki-generierung auch manuelles debugging, post-editing und andere methoden eingesetzt werden, um gefälschte und echte effekte zu erzielen.

ganz zu schweigen davon, dass es in den kursierenden aufnahmen viele komplexe umgebungsgeräusche und die „betrunkenheit“-einstellungen des sprechers gibt, die die identifizierung der authentizität der aufnahmen erheblich erschweren. es ist nicht verwunderlich, dass viele internetnutzer spekulieren, dass ki nur als „zeitarbeiter“ fungiert und allem widerstehen kann.

tatsächlich spiegelt dies auch von der seite her wider, dass mit der schnellen iteration der ki-technologie eine informationslücke zwischen uns einfachen menschen und praktikern an vorderster front darüber besteht, was ki leisten kann und in welchem umfang sie dazu in der lage ist.

darüber hinaus hat der vorfall „three sheep recording gate“ auch rechtliche probleme aufgedeckt, wie etwa die mangelnde überwachung der plattform und die missbräuchliche nutzung durch die urheber.

diskussion über ki-sprachverletzungen auf content-plattformen

tatsächlich ist dies nicht der erste fall einer audioverletzung durch ki-fälschung.

im april dieses jahres verhandelte das pekinger internetgericht über den ersten „ki-sprachverletzungsfall“ des landes.

der kläger yin moumou ist synchronsprecher und hat viele audiowerke aufgenommen. er entdeckte zufällig, dass seine stimme in ki umgewandelt und über eine app namens „magic sound workshop“ verkauft worden war. das gericht entschied schließlich, dass die verwendung der stimme des klägers durch den beklagten ohne dessen erlaubnis einen verstoß darstellte und entschädigte den kläger für verschiedene verluste in höhe von 250.000 yuan.

gemäß artikel 1023 des bürgerlichen gesetzbuchs der volksrepublik china ist die stimme einer natürlichen person gesetzlich geschützt und ihre schutzmethode ähnelt dem recht auf porträts. das heißt, wenn der durch ki erzeugte ton identifizierbar ist und von der öffentlichkeit mit einer bestimmten natürlichen person in verbindung gebracht werden kann, kann die verwendung des tons ohne die erlaubnis dieser natürlichen person einen verstoß darstellen.

li yunkai, der kläger in chinas erstem urheberrechtsfall für ki-gemälde und partner der anwaltskanzlei beijing tianyuan, sagte gegenüber „ai new list“:

derzeit müssen unsere gesetze nicht überarbeitet werden. da sich die ki-technologie noch in der entwicklung befindet, kann es sein, dass neue technologien in zwei jahren umgesetzt werden. wenn unsere gesetze dafür gesetzlich festgelegt werden sollen, wird es etwa drei bis fünf jahre dauern, bis sich die technologieform geändert hat gesetz ist eigentlich es wurde ein stück papier.

unsere aktuellen gesetze geben bereits den grundrahmen vor. was angepasst werden muss, ist die art und weise, wie diese gesetze ausgelegt werden und wie relevante richterliche einstellungen anhand typischer fälle gestaltet werden. erst wenn die technologie wirklich ausgereift ist, sollten wir rechtsvorschriften vorantreiben, um die regeln zu klären, die in der gerichtspraxis festgelegt wurden.

zusätzlich zu den verletzungsfällen in der gerichtlichen praxis sind ki-stimmenverletzungen auf content-plattformen umfangreicher und geheimer.

gegenwärtig hat das endlose aufkommen von ki-tools die schwelle für die erstellung erheblich gesenkt, und aigc ist nach pgc und ugc zu einer beliebten methode zur inhaltsproduktion geworden.

auf in- und ausländischen content-plattformen wird oft ki-technologie zum klonen von stimmen eingesetzt, um populäre musik nachzubilden, anime- und spielcharaktere ki-cover spielen zu lassen oder verstorbene prominente sprechen zu lassen usw.

im vergleich zur klischeehaften fan-erstellung ist der einsatz von ki für die sekundärerstellung ein umfassenderes konzept. fanwerke sind in der regel auf kreationen innerhalb von fangruppen beschränkt, während sekundäre kreationen von gewöhnlichen ki-technologie-enthusiasten stammen können, und mit dem segen der ki-technologie gibt es mehr raum für fantasie für anpassung und innovation.

ai-sound-werke der zweiten generation mit hoher qualität und quantität können nicht nur die fangemeinde erreichen, indem sie die popularität der original-ip oder von prominenten selbst nutzen, sondern haben auch das potenzial, den kreis zu durchbrechen.

im allgemeinen hängt der urheberrechtsschutz angesichts der aktuellen menge und des einflusses von inhalten der zweiten generation und der ökologie von inhaltsplattformen hauptsächlich vom bewusstsein der urheber, urheberrechtsinhaber und der öffentlichen aufsicht ab.

wenn das originalwerk und der urheberrechtsinhaber keine ansprüche gegen das werk der zweiten generation geltend machen, ergeben sich in der regel keine rechtlichen probleme.

die meisten content-plattformen entscheiden sich auch dafür, diese inhalte frei wachsen zu lassen und dabei bestimmte einschränkungen aufzuerlegen. denn eine allzu strenge urheberrechtskontrolle wird unweigerlich die begeisterung der urheber dämpfen und die verbreitung von inhalten behindern, was auch für content-plattformen einen enormen verlust bedeutet.

natürlich müssen content-plattformen nicht nur content-innovationen fördern, sondern auch die entsprechenden überprüfungs-, kennzeichnungs- und überwachungsmechanismen verbessern.

am 14. september 2024 veröffentlichte die cyberspace administration of china die „measures for labeling of synthetic content generated by artificial intelligence (draft for comments)“, in denen die spezifischen anforderungen für das hinzufügen von aigc-inhaltskennzeichnungen weiter präzisiert wurden.

diejenigen, die bearbeitungsdienste anbieten, die sprache wie synthetisierte menschliche stimmen oder imitierte stimmen erzeugen oder persönliche identitätsmerkmale erheblich verändern, sollten sprachansagen oder audiorhythmusansagen und andere zeichen am anfang, ende oder in der mitte des audios an geeigneten positionen hinzufügen oder diese hinzufügen zur interaktiven szenenoberfläche.

neben der zweideutigen und schwer zu bestimmenden frage des urheberrechtseigentums ergibt sich eine weitere kontroverse aus realistischen ethischen und moralischen konflikten.

beispielsweise wird der einsatz von ki zur „wiederbelebung“ der stimmen und des lächelns verstorbener prominenter unter dem deckmantel von wärme und erinnerung ebenfalls als respektloser und übermäßiger konsum des verstorbenen angesehen.

ganz gleich, ob es sich um die ki-stimmen der zweiten generation der content-plattform oder den kriminellen vorfall der ki-synchronisation durch three sheep handelt, es gibt immer noch viele urheberrechtliche, ethische, datenschutzrechtliche, illegale und kriminelle probleme im zusammenhang mit der ki-stimmenklonungstechnologie, die weiter angegangen werden müssen besprochen.

autor |. tsukiyama tachibana ishize

herausgeber |. zhang jie

nachricht

ein unternehmen, das ki-stimmen klont, nutzte die aufnahmetechnologie von three sheep, um „selbstmörderisches marketing“ zu betreiben?

einführung

meine kontaktdaten