kann mr. lus aufnahme-ki von three sheeps gebaut werden? meine antwort ist: natürlich

2024-09-27

am frühen morgen schickten mir n-personen ein bild mit der aussage, dass die polizei es gemeldet habe, und fragten mich, wie ich feststellen könne, ob es sich bei der aufnahme von „three sheep“ um eine ki handelte.

einige freunde erzählten mir, dass es eine person gibt, die behauptet, die ki-person nummer eins in china zu sein. er hat zuvor geschworen, dass diese aufnahme nicht von ki gemacht werden kann und dass ki sie nicht produzieren kann. könnte hinter diesem bericht also eine verschwörungstheorie stecken?

ich hätte fast gespritzt. wer ist die erste ki in china? meine erste reaktion war, dass auch akademiker aufgehört haben, sich an solch langweiligen dingen zu beteiligen?

dann habe ich nachgeschlagen ... oh ... vergiss es.

ich denke, es ist notwendig, dass ich etwas wissenschaft bekannt mache. das heißt, kann ki das aufnahmeniveau von sanyanglu erreichen?

ich kann ihnen eine klare antwort geben: ja.

lassen sie uns zunächst kurz über die hintergründe sprechen.

die drei schafe und simba hatten eine chaotische affäre. sie kämpften nur miteinander, es ging hin und her, und es war so lebhaft.

dann, als die unruhen ihren höhepunkt erreichten, ging eine brisante aufnahme von lu wenqing, dem vorsitzenden von three sheep, im internet viral.

das war's. ich habe einige kürzungen vorgenommen und auch einige der unanständigen teile zum schweigen gebracht.

der inhalt ist brisant und schockierend, mit großer glaubwürdigkeit und schockierendem inhalt. es geht um machtkämpfe, betrug usw. zusammenfassend lässt sich sagen, dass herr lu unangemessene beziehungen zu allen weiblichen moderatoren von three sheep hatte. er nannte auch zhang yiming und blickte auf ihn herab. . .

das war wahrscheinlich der fall, und dann meldete three sheep es und sagte, die aufnahme sei von ki synthetisiert worden.

im internet wird viel gestritten. das größte verständnis der meisten menschen ist, dass ki dieses niveau an aufzeichnungen nicht erzeugen kann. weil die „erste person in der heimischen ki“ es gesagt hat.

diese aufnahme klingt sehr real, oder? es gibt emotionen, dialekte und geräusche, also gibt es tatsächlich zwei fragen. wurde diese aufnahme von ki gemacht? und kann ki dieses aufzeichnungsniveau erreichen?

die erste frage wurde heute beantwortet. ich glaube auch, dass die von ihnen veröffentlichten berichte tatsachen sind. die antwort auf die erste frage ist also ziemlich klar: das ist es, was ki tut.

die zweite und wichtigste frage ist also, ob ki dieses aufzeichnungsniveau erreichen kann.

meine antwort ist natürlich.

zunächst muss ich hier etwas wissenschaft bekannt machen. ki ist eine weit gefasste kategorie, und es gibt viele bereiche in ihren unterteilungen.

es gibt große sprachmodelle (gpt, claude, doubao usw.), ki-zeichnung (mj, sd, flux usw.), ki-audio (11labs, svc, gpt-sovtis, suno usw.), ki-video (runway). , keling, doubao, pixverse usw.) und ai 3d (tripoai, meshy usw.).

bei ki-audio wird es in ki-generierte musik, ki-generierte soundeffekte und sound-klonen unterteilt.

diese aufnahme gehört zum bereich sound cloning.

sagen sie also nicht, dass ki, wenn sie das kann, leistungsfähiger ist als openai oder chatgpt. sie sind nicht auf dem gleichen weg, also gibt es keinen vergleich. wow, diese waschmaschine ist wirklich gut im waschen kleidung, sogar besser als dieser kühlschrank. . .

das klonen von stimmen wird in zwei typen unterteilt: tts (text to speech) und svc (ai voice changing).

tts besteht darin, der stimme einer person ein paar sekunden und dutzende sekunden material zu geben, um ein ki-modell zu trainieren, und dann direkt text zu verwenden, um sprachsynthese des sprachaudios einer bestimmten person zu erzeugen. das beste open-source-projekt sollte derzeit gpt sein。

svc kann allgemein als ki-stimmenveränderung verstanden werden, was die stimmveränderung in der ki-ära darstellt. derzeit gibt es drei führende teilprojekte im bereich ki-sprachwechsler: so-vits-svc, rvc und ddsp.

ok, jetzt ist klar, dass es im bereich des ki-stimmenklonens zwei methoden gibt, um eine stimmfälschung zu erreichen.

der vorteil des tts-projekts besteht darin, dass der datenbedarf gering ist, nur 5 sekunden audiomaterial ausreichen und sie anschließend nur noch text zur audiogenerierung bereitstellen müssen ist sehr schnell. der nachteil ist jedoch, dass die obergrenzen für emotionen, pausen und realismus sehr niedrig sind. nach zehn sekunden zuhören kann man leicht erkennen, dass es sich um eine ki-variante handelt.

früher dachten alle, dass ki die audiofälschung von herrn lu nicht durchführen könne. sie alle hatten vorgefasste vorstellungen von tts und dachten, es müsse mit tts gemacht werden.

um ganz ehrlich zu sein, ist es für tts in der tat etwas schwierig, audio auf dem niveau von herrn lu zu produzieren, basierend auf den öffentlich auf dem markt erhältlichen produkten, die mir bekannt sind (projekte in internen labors großer unternehmen ausgenommen).

wenn sie jedoch darüber nachdenken, kann tts dies nicht tun, aber was ist mit svc?

der nachteil von svc besteht darin, dass es einen 30-minütigen audiodatensatz erfordert und dann mehrere stunden alchemietraining erfordert, um das stimmmodell der person zu trainieren. schließlich müssen sie eine andere person finden, die ein audio aufnimmt und dann verwendet svc zum ändern der stimme.

der vorteil ist ganz einfach. dieses ding kann alle emotionen, pausen, töne, dialekte usw. speichern. die obergrenze der qualität ist ungefähr unendlich. solange das modell gut ist, kann man nicht sagen, ob es sich um eine ki handelt nicht. .

sogar die singstimme kann nahtlos geändert werden. das ändern ihrer sprechstimme ist nur ein kleiner fall.

stefanie sun, die ki, die letztes jahr populär wurde, wurde aus svc hergestellt.

ich habe auch mehrere tutorials zu svc geschrieben.

lassen sie mich ihnen auch zuhören. nachdem ich svc verwendet habe, um meine stimme zu ändern, habe ich sie durch meine eigene stimme ersetzt.li ronghaodie wirkung des modells.

das ist reine ki, ich habe nur hintergrundmusik hinzugefügt.

das ist svc.

wenn man also svc verwendet, um mr. lus ki-audiofälschung durchzuführen, sind die schritte sehr einfach.

1. sammeln sie etwa 30 minuten der sprachdaten von herrn lu. das ist leicht zu finden.

2. verwenden sie svc oder rvc, um die stimme von herrn lu zu reinigen und sie in ein ki-modell zu trainieren.

3. herr lu kommt aus anqing und es gibt viele anqing-leute in hefei.finden sie jemanden mit einem ähnlichen akzent wie er und lesen sie zunächst selbst den zu synthetisierenden ton.

4. verwenden sie abschließend das ki-modell von svc, um das fertige audio durch seine stimme zu ersetzen.

dasselbe gilt auch für frauenstimmen.

das ist es, es ist vorbei.

wenn sie dennoch realistischer zuhören möchten, fügen sie einfach etwas windgeräusch und umgebungsgeräusche hinzu. wenn sie umgebungsgeräusche wünschen, kann dies natürlich der fall sein. sie können auch einen mit umgebungsgeräuschen verwenden. der datensatz wird für das training verwendet, obwohl ich dies nicht empfehle. . .

insbesondere besteht die methode des originalvideos darin, die aufnahme an das mobiltelefon zu senden, sie dann auf dem mobiltelefon abzuspielen und sie mit einem anderen mobiltelefon aufzunehmen. es gibt viele umgebungsgeräusche und sie werden auch mit dem hintergrund gemischt gelächter meiner freunde, das ist ein durcheinander. das sind alles faktoren außerhalb des spielfeldes. . .

zurück zur zweiten frage: kann ki gefälschte aufnahmen wie die von herrn lu machen? natürlich kannst du das.

betrachten sie ki nicht als zu mythisch und nicht als zu quatsch.künstliche intelligenz ist oft künstliche intelligenz + intelligenz.

das aktuelle tts kann emotionale probleme nicht lösen. warum muss sich die ki also mit emotionen befassen?

kann man die klangfarbe nicht einfach ändern, nachdem man sie manuell rezitiert hat? das ist künstliche intelligenz + intelligenz.

öffnen sie ihren geist und lassen sie sich nicht zu sehr einschränken.

ki ist ihr assistent, ein hilfswerkzeug, das sie nutzen können, und nicht, dass sie als ladenbesitzer alles ihr überlassen müssen.

abschließend möchte ich eine stellungnahme abgeben.

ich schreibe diesen artikel nicht, um alle über diese technologie zu informieren und dann das gesetz zu brechen, einige außergesetzliche dinge zu tun und ein außergesetzlicher gangster zu werden.

stattdessen hoffe ich, ein wenig populärwissenschaft über ki-audio zu betreiben, die informationslücke zu schließen und alle wissen zu lassen, dass es eine solche technologie gibt und dass die obergrenze hier liegt. denken sie nicht, dass ki es nicht auf die leichte schulter nehmen kann . aber wir müssen wissen, wo und welches niveau die aktuelle ki erreichen kann.

was kann mit unterstützung von künstlicher intelligenz + intelligenz getan werden?

der fortschritt von wissenschaft und technologie ist unumkehrbar und wird nur vorangetrieben. wissen ist immer besser als nichtwissen. nur wenn man sich selbst und den feind kennt, kann man in jeder schlacht siegreich sein.

wir lernen viele dinge und lernen ki, oft um uns selbst zu schützen.

schützen sie auch unsere familien.

dann ein besseres leben.

wenn sie das nun gesehen haben, können sie es gerne dreimal mit einem „gefällt mir“ markieren, ansehen und retweeten. wenn sie so schnell wie möglich benachrichtigungen erhalten möchten, können sie mir auch einen stern geben⭐ ~danke, dass sie meinen artikel gelesen haben. bis zum nächsten mal.

>/ autor: kazik

nachricht

kann mr. lus aufnahme-ki von three sheeps gebaut werden? meine antwort ist: natürlich

einführung

meine kontaktdaten