un'azienda di clonazione vocale tramite intelligenza artificiale ha utilizzato la tecnologia di registrazione di three sheep per impegnarsi in un "marketing suicida"?

2024-09-29

l'incidente delle tre pecore ha suscitato molto scalpore. inaspettatamente, la vittima si è rivelata essere ai.

l'altro ieri, la polizia di hefei ha emesso un avviso sull'"incidente di registrazione di lu wenqing, fondatore del gruppo three sheep", affermando che l'audio ampiamente diffuso è stato generato dall'intelligenza artificiale e che il sospettato era stato sottoposto a misure coercitive criminali in conformità con la legge.

con un'ultima parola, questa notifica non solo ha dato una posizione ufficiale, ma ha anche schiaffeggiato la "prima persona nell'ia domestica" di cui si vociferava su internet qualche giorno fa. dopotutto, il giudizio dato dalla "prima persona nell'ia domestica". " a quel tempo era "la tecnologia di clonazione ai voice non è ancora così liscia come la seta".

ma ciò che è ancora più sorprendente è che ieri un'azienda di intelligenza artificiale è intervenuta per "rilasciare una dichiarazione", affermando che il contenuto audio è stato prodotto dal sospettato attraverso un grande modello di doppiaggio ai autosviluppato.

anche i netizen sono rimasti scioccati. dopo tutto questo, non si sono ancora dimenticati di fare pubblicità. abbiamo seguito l'azienda menzionata nella dichiarazione per trovare la fonte della dichiarazione e abbiamo trovato contenuti rilevanti su weibo con lo stesso nome. tuttavia, l'account non è stato certificato ufficialmente, quindi non possiamo trarre una conclusione definitiva.

tuttavia, la discussione su questa affermazione è ancora in aumento. i netizen l'hanno definita "marketing suicida". alcuni bambini curiosi hanno chiesto se il prodotto di clonazione vocale dell'azienda di intelligenza artificiale è davvero così potente "qualcuno l'ha provato?" .”

provatelo... nascondendo i nomi delle aziende e dei prodotti interessati, abbiamo condotto alcuni test effettivi sul prodotto. è opportuno notare che i seguenti test sono solo a scopo scientifico divulgativo risiede nel modo in cui gli utenti lo utilizzano, non supporteremo mai nessuno che utilizzi l’intelligenza artificiale per testare i limiti della legge.

allo stesso tempo, abbiamo anche consultato gli avvocati competenti per sapere se esistono precedenti per questo tipo di casi di violazione della voce tramite clonazione dell'ia e a quali questioni legali i creatori e le piattaforme devono prestare attenzione quando utilizzano o promuovono nuove tecnologie, come riferimento. .

l’intelligenza artificiale clona la voce di una persona,

solo pochi secondi di campione sonoro

inserisci testo, assegna ruoli, segmenta automaticamente il testo frase per frase e generalo con un clic.

dopo essere entrati nella pagina del prodotto, abbiamo seguito i passaggi precedenti e ci è voluto solo 1 minuto per convincere jiang wen a leggere le righe di liu zi in "let the bullets fly".

papà, ho cercato tutto, ma non ci sono soldi, né merci, né argento. sono rimaste in vita solo due persone, dovremmo ucciderle o no?

con questa cadenza e tono, non so se pensavo che il ruolo di liu zi fosse interpretato da jiang wen. in effetti, liu zi ha interpretato il figlio nel film, e jiang wen ha interpretato il ruolo del padre di liu zi.

questo audio è stato generato utilizzando il carattere vocale "jiang wen" nel prodotto.

attualmente, ci sono molti personaggi vocali in questo prodotto, tra cui famose celebrità di internet come "sun xiaochuan" e "ding zhen", nonché superstar nei circoli culturali e sportivi come "kobe bryant" e "jay chou" .

questi personaggi vocali sono tutti caricati dagli utenti della community. facendo clic sui personaggi ufficiali sulla piattaforma verrà visualizzato "prossimamente, quindi resta sintonizzato".

oltre a utilizzare i caratteri vocali caricati dagli utenti della community, è anche facile clonare la voce di una celebrità sulla piattaforma.

qui abbiamo caricato una vera e propria registrazione di un'intervista a musk, in cui l'ai musk "personalmente" ha detto "tu cigno, lui rana! (il rospo vuole mangiare la carne di cigno)", una frase chinglish molto popolare all'estero.

la piattaforma richiede che la voce campione debba essere più lunga di 2 secondi e che la qualità del campione sia più importante della lunghezza, quindi quando si esegue la clonazione vocale, il passaggio più dispendioso in termini di tempo è trovare una registrazione chiara di musk.

secondo i funzionari, questa registrazione verrà utilizzata per definire le prestazioni vocali predefinite del personaggio, tra cui voce, emozione, velocità di parola, intonazione, ritmo, ecc. se desideri stili vocali diversi per lo stesso personaggio, puoi anche aggiungere campioni di stile diversi del carattere vocale.

al momento, abbiamo caricato solo un brano audio in questa versione e stiamo ancora utilizzando la modalità di clonazione rapida della piattaforma invece della modalità di clonazione professionale a pagamento (ufficialmente si dice che il grado di ripristino timbrico e emotivo della modalità raggiunga il 99,9%). l'esecuzione delle frasi brevi è migliore. è già da 6 a 7 punti simile alla voce di musk.

dal punto di vista della forma del contenuto, l’intelligenza artificiale generativa ha “invaso” testo, audio, video e persino contenuti 3d. tra questi, si può dire che l’audio sia uno dei percorsi più maturi per l’applicazione della tecnologia.

la clonazione del suono ai è solo una suddivisione della generazione audio ai. altre applicazioni includono musica generata dall'intelligenza artificiale ed effetti sonori generati dall'intelligenza artificiale.

molto prima dell’avvento dell’ia generativa, la clonazione vocale dell’ia esisteva effettivamente. a quel tempo, volevo clonare le voci, che era basata sulla tradizionale tecnologia tts (text-to-speech, text-to-speech) che richiedeva la creazione di una libreria vocale ai e la raccolta di un gran numero di campioni di voci umane per creare un file successivamente, è stato necessario simularlo tramite il debug manuale.

oppure, sulla base di progetti open source come bert vits, la più recente tecnologia di sintesi vocale di deep learning può essere utilizzata per convertire direttamente il testo in parlato per ripristinare il timbro, ma le apparecchiature e i requisiti tecnici sono relativamente elevati.

fonte immagine: tutorial gpt-sovits del maestro up della stazione b "henji weizi"

al giorno d'oggi, sotto l'onda dell'aigc, gli strumenti di intelligenza artificiale "laminati" richiedono solo 10 secondi o meno di campioni sonori per riprodurre accuratamente il suono.

in precedenza, abbiamo introdotto il principio della tecnologia di clonazione vocale ai in una trasmissione dal vivo, che è generalmente suddivisa in passaggi quali raccolta vocale, estrazione di funzionalità, formazione del modello e sintesi vocale gli strumenti di prodotto correlati includono fish audio, cosyvoice, elevenlabs, cutting, ecc ., consentendo la soglia per le operazioni di clonazione vocale è diventata più bassa. (per i replay delle trasmissioni in diretta correlati, puoi seguire l'account video "ai new list" o scansionare il codice qr dell'immagine qui sotto per visualizzarlo)

pertanto, è tecnicamente fattibile che il “porta di registrazione delle tre pecore” venga prodotto da ai. soprattutto nelle mani di "persone attente", oltre alla generazione di intelligenza artificiale, è possibile utilizzare anche il debug manuale, il post-editing e altri metodi per ottenere effetti falsi e reali.

senza contare che nelle registrazioni circolanti sono presenti numerosi rumori ambientali complessi e impostazioni di “stato di ubriachezza” dell’oratore, che aumentano notevolmente la difficoltà di identificare l’autenticità delle registrazioni. non sorprende che molti netizen ipotizzino che l’intelligenza artificiale agisca semplicemente come un “lavoratore temporaneo” e possa resistere a tutto.

in effetti, ciò riflette anche il fatto che, con la rapida iterazione della tecnologia dell’intelligenza artificiale, esiste un divario informativo tra noi persone comuni e i professionisti in prima linea su cosa può fare l’intelligenza artificiale e in che misura può farlo.

inoltre, l'incidente del "three sheep recording gate" ha anche messo in luce questioni legali come la mancanza di supervisione della piattaforma e l'uso improprio da parte dei creatori.

discussione sulla violazione della voce ai sulle piattaforme di contenuti

in realtà, questo non è il primo caso di violazione dell’audio attraverso la falsificazione dell’intelligenza artificiale.

nell’aprile di quest’anno, la corte internet di pechino ha ascoltato il primo “caso di violazione della voce ai” del paese.

il querelante yin moumou è un doppiatore e ha registrato numerose opere audio. ha scoperto per caso che la sua voce era stata trasformata in ai e venduta su un'app chiamata "magic sound workshop". la corte alla fine ha stabilito che l'uso della voce del querelante da parte dell'imputato senza il suo permesso costituiva una violazione, e ha risarcito il querelante con 250.000 yuan per varie perdite.

secondo l'articolo 1023 del codice civile della repubblica popolare cinese, la voce di una persona fisica è protetta dalla legge e la sua modalità di protezione è simile al diritto di immagine. ciò significa che se il suono generato dall’intelligenza artificiale è identificabile e può essere associato dal pubblico a una persona fisica specifica, l’utilizzo del suono senza il permesso di quella persona fisica può costituire una violazione.

li yunkai, il querelante nel primo caso cinese di copyright sulla pittura basata sull'intelligenza artificiale e partner dello studio legale tianyuan di pechino, ha dichiarato alla "nuova lista ai":

al momento le nostre leggi non hanno bisogno di essere riviste. poiché la tecnologia dell’intelligenza artificiale è ancora in fase di sviluppo, le nuove tecnologie potrebbero essere implementate entro due anni. se le nostre leggi devono essere legiferate in questo senso, ci vorranno dai 3 ai 5 anni. a quel punto la forma della tecnologia sarà cambiata la legge è in realtà diventata un pezzo di carta.

le nostre leggi attuali hanno già fornito il quadro di base. ciò che deve essere modificato è come interpretare queste leggi e come modellare gli atteggiamenti giudiziari rilevanti attraverso casi tipici. solo quando la tecnologia sarà veramente matura dovremmo promuovere una legislazione per chiarire le regole che sono state stabilite nella pratica giudiziaria.

oltre ai casi di violazione nella pratica giudiziaria, la violazione vocale dell’ia sulle piattaforme di contenuti è più estesa e segreta.

al momento, l’emergere incessante di strumenti di intelligenza artificiale ha notevolmente abbassato la soglia di creazione e l’aigc è diventato un metodo di produzione di contenuti popolare dopo pgc e ugc.

è molto comune utilizzare la tecnologia di clonazione vocale ai per ricreare musica popolare, consentire ai personaggi di anime e giochi di eseguire cover ai o far parlare celebrità decedute, ecc. su piattaforme di contenuti nazionali ed estere.

rispetto alla cliché della creazione dei fan, l'utilizzo dell'intelligenza artificiale per la creazione secondaria è un concetto più ampio. i lavori dei fan sono solitamente limitati alle creazioni all'interno dei gruppi di fan, mentre le creazioni secondarie possono provenire da normali appassionati di tecnologia ia e, con la benedizione della tecnologia ai, c'è maggiore spazio per l'immaginazione per l'adattamento e l'innovazione.

i lavori di seconda generazione del suono ai di alta qualità e quantità non solo possono raggiungere la base di fan sfruttando la popolarità dell'ip originale o delle celebrità stesse, ma hanno anche il potenziale per sfondare il cerchio.

in generale, considerando l’attuale quantità e influenza dei contenuti di seconda generazione e l’ecologia delle piattaforme di contenuti, la protezione del diritto d’autore si basa principalmente sulla coscienza dei creatori, dei titolari dei diritti d’autore e sulla supervisione pubblica.

se l'opera originale e il detentore del copyright non intentano azioni legali contro l'opera di seconda generazione, generalmente non ci saranno problemi legali.

la maggior parte delle piattaforme di contenuti sceglie inoltre di consentire a questi contenuti di crescere liberamente imponendo alcune restrizioni. dopotutto, una supervisione eccessivamente rigorosa del copyright smorzerà inevitabilmente l’entusiasmo dei creatori e ostacolerà la diffusione dei contenuti, il che rappresenterà anche un’enorme perdita per le piattaforme di contenuti.

naturalmente, oltre a incoraggiare l’innovazione dei contenuti, le piattaforme di contenuti devono anche migliorare i corrispondenti meccanismi di revisione, etichettatura e supervisione.

il 14 settembre 2024, la cyberspace administration of china ha pubblicato le "misure per l'etichettatura dei contenuti sintetici generati dall'intelligenza artificiale (bozza per i commenti)", che hanno ulteriormente chiarito i requisiti specifici per l'aggiunta delle etichette dei contenuti aigc.

coloro che forniscono servizi di editing che generano discorsi come voci umane sintetizzate o voci imitate o che modificano in modo significativo le caratteristiche dell'identità personale dovrebbero aggiungere istruzioni vocali o istruzioni ritmiche audio e altri segni all'inizio, alla fine o a metà dell'audio in posizioni appropriate, oppure aggiungerli all'interfaccia della scena interattiva segnali di avvertimento prominenti.

oltre alla questione ambigua e difficile da determinare della proprietà del copyright, un'altra controversia deriva da conflitti etici e morali realistici.

ad esempio, anche l’uso dell’intelligenza artificiale per “resuscitare” le voci e i sorrisi di celebrità defunte, con il pretesto di calore e ricordo, è considerato un consumo irrispettoso ed eccessivo dei defunti.

che si tratti dei lavori vocali ai di seconda generazione della piattaforma di contenuti o dell'incidente criminale del doppiaggio ai di three sheep, ci sono ancora molte questioni relative a copyright, etica, privacy dei dati, illegali e criminali che circondano la tecnologia di clonazione vocale ai che devono essere ulteriormente approfondite. discusso.

autore |. tsukiyama tachibana ishize

redattore |. zhang jie

notizia

un'azienda di clonazione vocale tramite intelligenza artificiale ha utilizzato la tecnologia di registrazione di three sheep per impegnarsi in un "marketing suicida"?

introduzione

le mie informazioni di contatto