„wealth recording“ von three sheep ist eine fälschung, aber die technologie dahinter ist wirklich beängstigend

2024-09-29

wenn sie sagen möchten, welches unternehmen in dieser zeit im rampenlicht steht, ist es niemand anderes als three sheep. sie sind hin und wieder in den nachrichten und in der rubrik „recht“ zu finden.

vor ein paar tagen war der mooncake-skandal noch nicht vorbei und schon brach ein weiterer plattenskandal aus.

die sache ist so. am 20. september kursierte plötzlich eine aufnahme im internet, bei der es sich vermutlich um eine aufnahme von lu, einem leitenden angestellten von three sheep, handelte.

an der aufnahme sind viele moderatorinnen von three sheeps beteiligt. auf den konkreten inhalt gehen wir hier nicht ein.aber es war wirklich explosiv. . .

nach der veröffentlichung der aufnahme löste sie im internet schnell eine welle der begeisterung aus. einige leute sagten, dass diese aufnahme nur die prahlerei eines mannes sei, nachdem er zu viel getrunken hatte, aber die diskussion drehte sich bald darum, ob diese sache von ki erzeugt wurde, und zog sogar viele sogenannte ki-experten an. starten sie eine analyse.

innerhalb von zwei tagen kam der polizeibericht heraus:zerstreuen wir uns alle, es ist die ki, die es getan hat.

der andere protagonist dieses vorfalls, reecho, tauchte schließlich auf und versetzte seinen benutzern einen harten schlag.

obwohl die behörden sich meldeten, hatten einige internetnutzer interessanterweise immer noch das gefühl, dass lu „die wahrheit sagte, während er betrunken war“ und dass der bericht lediglich die schuld auf die ki abwälzte, die keine möglichkeit zur selbstzertifizierung hatte.

aber egal, was sie sagen, der offizielle untersuchungsbericht ist erschienen. ob sie es glauben oder nicht, der ton in dieser angelegenheit ist festgelegt.

basierend auf meinem verständnis von ki-stimme ist eine situation wie das three sheep recording gate jedoch tatsächlich möglich. hauptsächlichdie aktuelle ki-sprachtechnologie ist tatsächlich recht ausgereift.

weil wir nur ein oder zwei sätze hochladen müssen und den rest direkt der ki überlassen müssen, können wir die klangfarbe einer person in wenigen minuten klonen.

sagen wir es so: ki-sprachsynthese ist mittlerweile weiter verbreitet und es gibt viele open-source-projekte, nur wenige es gibt zwei haupttypen von technologien: tts und svc&rvc.

das sogenannte tts, vereinfacht gesagt, ist text to speech, wandeln sie text in sprache um. wie bei vielen digitalen ki-menschen, hörbüchern und videosynchronisationen hört jeder bei der verwendung von douyin oft „sehen sie sich den namen dieses mannes xiaoshuai an“ sowie die weiblichen tvb-stimmen und guangxi-cousins in der clip-materialbibliothek. . . im grunde wird alles von tts erledigt.

beispielsweise ist reecho, das dieses mal am three sheep recording gate beteiligt ist, auch eine website zur tts-modellgenerierung. tatsächlich haben wir auch die stimme des seiyu dan dan von bad review jun auf ihrer website geklont, damit jeder zuhören und sehen kann, ob es so aussieht.

lassen sie mich mit den „auszügen aus dem berühmten artikel“ „spaghetti gemischt mit nr. 42 beton“ beginnen. sagen sie es nicht, sie sagen es wirklich nicht. der reproduktionsgrad des tons kann 80–90 % betragen, und der tonfall ist so ähnlich, dass man, wenn man nicht genau hinhört, denken könnte, es handle sich um eine ernsthafte wissenschaftliche popularisierung.

nachricht

„wealth recording“ von three sheep ist eine fälschung, aber die technologie dahinter ist wirklich beängstigend

einführung

meine kontaktdaten