è possibile costruire l’ia di registrazione del signor lu da three sheeps? la mia risposta è: ovviamente

2024-09-27

questa mattina presto, n persone mi hanno inviato una foto, dicendo che la polizia aveva segnalato il fatto e chiedendomi come capire se la registrazione di three sheep fosse ai.

alcuni amici mi hanno detto che c'è una persona che afferma di essere la persona numero uno nel campo dell'intelligenza artificiale in cina. in precedenza aveva giurato che questa registrazione non può essere effettuata dall'intelligenza artificiale e che l'intelligenza artificiale non può produrla. quindi, potrebbe esserci qualche teoria del complotto dietro questo rapporto?

ho quasi squirtato. chi è la prima ia in cina? la mia prima reazione è stata che anche gli accademici hanno smesso di partecipare a cose così noiose?

poi ho cercato...oh...lascia perdere.

penso che sia necessario per me rendere popolare un po' di scienza, cioè, l'intelligenza artificiale può raggiungere il livello di registrazione di sanyanglu?

posso darti una risposta chiara: sì.

innanzitutto, parliamo brevemente del contesto.

le tre pecore e simba avevano una relazione complicata. litigavano tra loro, andavano avanti e indietro, ed era così vivace.

poi, quando il tumulto era al culmine, una registrazione esplosiva di lu wenqing, il presidente delle tre pecore, è diventata virale su internet.

questo è tutto. ho fatto alcuni tagli e ho anche messo a tacere alcune parti indecenti.

il contenuto è esplosivo e scioccante, con grande credibilità e contenuto scioccante. implica lotte di potere, imbrogli, ecc. per riassumere, il signor lu ha rivelato di aver avuto rapporti impropri con tutte le conduttrici femminili di three sheep. chiamò anche zhang yiming e lo disprezzò. . .

probabilmente è quello che è successo, e poi three sheep lo ha riferito, dicendo che la registrazione era stata sintetizzata dall'intelligenza artificiale.

ci sono molti dibattiti su internet la più grande comprensione della maggior parte delle persone è che l'intelligenza artificiale non può produrre questo livello di registrazione. perché? perché lo ha detto la "prima persona nell'intelligenza artificiale domestica".

questa registrazione sembra molto reale, vero? ci sono emozioni, dialetti e rumori, quindi in realtà ci sono due domande. questa registrazione è stata realizzata dall'intelligenza artificiale? e l’intelligenza artificiale può raggiungere questo livello di registrazione?

alla prima domanda è stata data risposta oggi. crederò sempre incondizionatamente nella nostra sicurezza pubblica e credo anche che i rapporti che rilasciano siano fatti. quindi la risposta alla prima domanda è abbastanza chiara: questo è ciò che fa l’intelligenza artificiale.

quindi la seconda domanda, quella più critica, è se l’intelligenza artificiale sarà in grado di raggiungere questo livello di registrazione.

la mia risposta è, ovviamente.

prima di tutto, qui devo divulgare un po’ la scienza. l’intelligenza artificiale è una categoria ampia e ci sono molte tracce nelle sue suddivisioni.

esistono modelli linguistici di grandi dimensioni (gpt, claude, doubao, ecc.), disegno ai (mj, sd, flux, ecc.), audio ai (11labs, svc, gpt-sovtis, suno, ecc.), video ai (runway , keling, doubao, pixverse, ecc.) e ai 3d (tripoai, meshy, ecc.).

nell'audio ai, è suddiviso in musica generata dall'intelligenza artificiale, effetti sonori generati dall'intelligenza artificiale e clonazione del suono.

questa registrazione appartiene alla traccia della clonazione del suono.

quindi non dire che se l'intelligenza artificiale può farlo, è più potente di openai o chatgpt. non sono sulla stessa strada, quindi non c'è paragone. proprio come hai detto tu, wow, questa lavatrice è davvero brava a lavare vestiti, anche meglio di quel frigorifero. . .

la clonazione della voce è divisa in due tipologie: tts (text to speech) e svc (ai voice changing).

tts consiste nel fornire alla voce di una persona alcuni secondi e decine di secondi di materiale per addestrare un modello di intelligenza artificiale, quindi utilizzare direttamente il testo per generare la sintesi vocale dell'audio vocale di una persona specifica. il miglior progetto open source ora dovrebbe essere gpt -sovits。

svc può essere comunemente inteso come cambio di voce ai, ovvero il cambio di voce nell'era dell'ia. attualmente ci sono tre sottoprogetti principali nel campo del cambio voce ai: so-vits-svc, rvc e ddsp.

ok, ora è chiaro che nel campo della clonazione vocale tramite intelligenza artificiale esistono due metodi per ottenere la falsificazione della voce.

il vantaggio del progetto tts è che i dati richiesti sono brevi, bastano solo 5 secondi di materiale audio e poi la tua voce può essere clonata, per generare l'audio devi solo fornire il testo. il costo è estremamente basso e l'effetto è molto veloce. ma lo svantaggio è che i limiti superiori di emozione, pausa e realismo sono molto bassi. dopo aver ascoltato per decine di secondi, puoi facilmente capire che si tratta di un sapore di intelligenza artificiale.

prima, tutti pensavano che l’intelligenza artificiale non potesse falsificare l’audio del signor lu. tutti avevano idee preconcette sul tts e pensavano che dovesse essere realizzato con tts.

ad essere sinceri, è davvero un po’ difficile per tts produrre audio del livello di mr. lu, sulla base dei prodotti pubblicamente disponibili sul mercato che io conosco (esclusi i progetti nei laboratori interni delle principali aziende).

tuttavia, se ci pensi, tts non può farlo, ma per quanto riguarda svc?

lo svantaggio di svc è che è costoso: richiede un set di dati audio di 30 minuti e poi diverse ore di addestramento alchemico per addestrare il modello vocale della persona. infine, è necessario trovare un'altra persona per registrare un audio e quindi utilizzarlo svc per cambiare la voce. il suono viene sostituito.

il vantaggio è molto semplice: questa cosa può conservare tutte le emozioni, le pause, il tono, il dialetto, ecc. di chi parla. il limite superiore della qualità è approssimativamente infinito. finché il modello è buono, non puoi dire se è ai o non. .

anche la voce cantata può essere modificata senza problemi. cambiare la voce parlata è solo un piccolo caso.

stefanie sun, l'intelligenza artificiale diventata popolare lo scorso anno, era realizzata in svc.

ho anche scritto diversi tutorial su svc.

lascia che ti dia anche un ascolto. dopo aver usato svc per cambiare la mia voce, l'ho sostituita con la mia voce.li ronghaol'effetto del modello.

questa è pura intelligenza artificiale, ho aggiunto solo musica di sottofondo.

questo è svc.

quindi, utilizzando svc per eseguire la falsificazione dell'audio ai del signor lu, i passaggi sono molto semplici.

1. raccogli circa 30 minuti di dati sul discorso del signor lu da internet. dopo tutto, è una celebrità.

2. usa svc o rvc per pulire la voce del signor lu e addestrarla in un modello di intelligenza artificiale.

3. il signor lu è di anqing e ci sono molte persone di anqing a hefei.trova qualcuno con un accento simile al suo e leggi prima l'audio per sintetizzarlo tu stesso.

4. infine, utilizza il modello ai di svc per sostituire l'audio finito con la sua voce.

lo stesso vale per le voci femminili.

questo è tutto, è finita.

se vuoi comunque ascoltare in modo più realistico, usa semplicemente il ritaglio o qualcosa per aggiungere un po' di rumore del vento e suono ambientale. ce ne sono troppi. se vuoi il suono ambientale, il software audio tradizionale può gestirlo. puoi anche usarne uno con suono ambientale. il set di dati viene utilizzato per l'addestramento, anche se non lo consiglio. . .

in particolare, il metodo del video originale consiste nell'inviare la registrazione al telefono cellulare, quindi riprodurla sul telefono cellulare e utilizzare un altro telefono cellulare per registrarla. il suono ambientale in sé è molto elevato ed è anche mescolato con lo sfondo risate dei miei amici, che è un disastro. questi sono tutti fattori fuori campo. . .

quindi, tornando alla seconda domanda, l’intelligenza artificiale può realizzare registrazioni contraffatte come quella del signor lu? certo che puoi.

non pensare all’intelligenza artificiale come troppo mitica e non pensare all’intelligenza artificiale come troppo spazzatura.l'intelligenza artificiale è spesso intelligenza artificiale + intelligenza.

l’attuale tts non può risolvere i problemi emotivi, quindi perché l’intelligenza artificiale deve occuparsi delle emozioni?

non puoi semplicemente cambiare il timbro dopo aver finito di recitarlo manualmente? questa è intelligenza artificiale + intelligenza.

apri la tua mente e non essere troppo limitato.

l'intelligenza artificiale è il tuo assistente, uno strumento ausiliario, che puoi usare, non che tu lasci tutto a lei come negoziante senza mani.

infine, voglio fare una dichiarazione.

sto scrivendo questo articolo per non far conoscere a tutti questa tecnologia, per poi infrangere la legge, fare alcune cose extra-legali e diventare un gangster extra-legale.

spero invece di fare un po' di scienza divulgativa sull'audio dell'intelligenza artificiale, appianare il divario informativo e far sapere a tutti che esiste una tale tecnologia e che il limite massimo è qui. non pensare che l'intelligenza artificiale non possa prenderla alla leggera . ma dobbiamo sapere dove e quale livello può raggiungere l’attuale intelligenza artificiale.

cosa si può fare con il supporto dell’intelligenza artificiale + intelligenza.

il progresso della scienza e della tecnologia è irreversibile. ognuno è una goccia d'acqua in questo enorme torrente, e sarà solo portato avanti. conoscere è sempre meglio che non conoscere. solo conoscendo se stessi e il nemico si può vincere ogni battaglia.

impariamo molte cose e impariamo l'intelligenza artificiale, spesso per proteggerci.

inoltre, proteggiamo le nostre famiglie.

poi, una vita migliore.

ora che l'hai visto, se pensi che sia bello, sentiti libero di mettergli un mi piace, guardarlo e ritwittarlo tre volte. se vuoi ricevere notifiche il prima possibile, puoi anche darmi una stella⭐ ~grazie per aver letto il mio articolo, alla prossima volta.

>> autore: kazik

notizia

è possibile costruire l’ia di registrazione del signor lu da three sheeps? la mia risposta è: ovviamente

introduzione

le mie informazioni di contatto