Le mie informazioni di contatto
Posta[email protected]
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
L'IA video conversazionale più veloce della storia è qui!Ritardo inferiore a un secondo!
End-to-end, puoi ascoltare, vedere, parlare e avere immagini.
Questo prodotto non proviene da aziende come OpenAI o HeyGen che hanno già dimostrato le proprie capacità in precedenza e non ha un nome specifico.
Perché proviene da un team imprenditorialeTavo, quindi è anche chiamato Conversational Replicas di Tavus.
La funzione principale è creare un'esperienza video coinvolgente generata dall'intelligenza artificiale.
Dopo essere stato lanciato oggi, oggi ha raggiunto la vetta della lista dei nuovi prodotti di Producthunt e il numero di Mi piace è ancora in aumento.
Tavus ufficiale riassume le caratteristiche del prodotto per tutti:
I netizen erano entusiasti di vedere:
Ok, ora c'è "qualcuno" che mi tiene una videoconferenza su ZOOM ahahahah!
Anche molti cittadini della rete lo consideranoUn'interfaccia di interazione uomo-computer migliore rispetto alla lettura di documenti o alla chat。
Questa interfaccia video conversazionale è un punto di svolta!
Posso già immaginare le infinite possibilità di esperienze coinvolgenti.
Dopo aver visto questo messaggio, Qubit si è precipitato sul sito ufficiale di Tavus in un secondo.
Sul sito ufficiale puoi provare online il "video di conversazione più veloce della storia" da 2 minuti.
Secondo le impostazioni esistenti,L'interlocutore durante l'esperienza è stato Carter, creato da Tavus。
Carter è posizionato come un dipendente di Tavus, una società di ricerca video sull'intelligenza artificiale, che risponde con umorismo ed è utile.
Questo è l'uomo qui sotto:
Sebbene Carter sia un avatar, chattare in video con lui è come chattare in video con i tuoi amici.
I funzionari raccomandano, dopo aver autorizzato la telecamera e il microfono, di provare a rimanere in una stanza tranquilla quando si chiacchiera con Carter.
Durante la conversazione, Carter ha affermato che alcuni degli argomenti che le persone amano di più discutere con lui, oltre a chiedergli della tecnologia AI utilizzata da Tavus, sono condividere i loro pensieri quotidiani e raccontare barzellette.
Ha raccontato una barzelletta sul posto:
Chiedi, perché la bici non può stare lì da sola?
La risposta è perché è troppo stanco (due pneumatici).
Dopo aver finito di parlare, lo stesso Carter ha esultato per se stesso e ha riso due volte.
In realtà ho anche sperimentato il qubit per 2 minuti e la mia esperienza complessiva è la seguente:
Innanzitutto, TavusLa velocità di risposta è davvero elevata, in linea con l'affermazione ufficiale di "entro un secondo".
Anche se all'improvviso emetti un suono mentre sta parlando, Carter si fermerà immediatamente e ascolterà la tua ultima affermazione.
In secondo luogo, anche se la dichiarazione ufficiale è che supporta più di 30 lingue, non importa se fai domande in cinese o inglese, risponde sempre alle domande.Impossibile parlare cinese。
Quando gli chiedevamo "Possiamo parlare cinese", Carter rispondeva: "Preferirei parlare in inglese!"
Terzo, l’intelligenza artificiale di TavusPuoi davvero "vedere con i tuoi occhi"。
Durante la prova del qubit, ad un certo punto mi sono sentito in imbarazzo e non sapevo cosa chiedere, quindi ho potuto solo ridacchiare.
Carter parlò immediatamente:
OH! Mi hai mostrato un sorriso~
Quarto, nella versione demo, Carter'sLa forma della bocca e le parole pronunciate possono essere quasi completamente sincronizzate。
Non c’è da meravigliarsi perché alcuni netizen dopo averlo provato hanno detto:
È davvero impressionante, con tempi di risposta rapidi ed eccellenti capacità di generazione di video e audio.
Ora basta registrarsi per utilizzare l'intelligenza artificiale video conversazionale di Tavus.
Nella versione ufficiale,Carter non è l'unico personaggio AI disponibile per il dialogoCi sono uomini e donne e i contesti identitari vanno dalle vendite all’orientamento alla vita, ecc.
Anche lo sfondo della chat può essere modificato a scelta dell'utente, non limitandosi alla scena dell'ufficio.
Allo stesso tempo, anchePossibilità di inserire manualmente il contesto per il contenuto della conversazione。
Si può dire che il grado di personalizzazione è piuttosto elevato.
Attualmente esiste una versione gratuita e una versione a pagamento, corrispondenti a diversi diritti e interessi generati.
Dietro l'intelligenza artificiale video conversazionale di Tavus c'è il modello Phoenix-2 sviluppato autonomamente dal team Tavus.
Si tratta di una combinazione di modelli 3D basati su audio e testo e GAN 2D in grado di generare brevi video realistici di 1-2 minuti.
Il processo di generazione è approssimativamente suddiviso nelle seguenti quattro fasi:
TTS (Text to Speech) – Ricostruzione 3D di testa e spalle – Animazione facciale basata su script di parole – Rendering ad alta fedeltà.
△Perfezionamento dei dettagli geometrici del viso attraverso il rendering differenziale
Per rendere più realistica l'immagine AI che parla all'utente, quando il team Tavus ha costruito la pipeline di rendering video di Phoenix-2,GAN combinato e splatter gaussiano 3D.
La ragione di ciò è che i GAN tradizionali sono solitamente limitati dalla risoluzione dell’immagine, mentre i modelli di volume mancano sempre di coerenza temporale.
Pertanto, Tavus ha pensato di combinare i due.
L'addestramento del GAN richiede grandi set di dati e risorse di calcolo costose e, a causa della sua natura bidimensionale e dei problemi di coerenza temporale, il tempo di inferenza e la qualità video sono generalmente limitati.
Tavus utilizza modelli 3D come "intermedi" per ottenere rendering di oltre 100 FPS e ottenere un grado più elevato di controllabilità e versatilità a causa dei vincoli di percezione fisica attorno agli oggetti dinamici.
△Confronta le differenze tra i modelli di testa parlante 2D e 3D
Inoltre, il miglioramento del modello Phoenix-2 rispetto alla serie precedente è che sostituisce il NeRF del modello Phoenix di prima generazione.
Passando al 3D Gaussian Splashing, impareremo a introdurre come guidare la deformazione facciale dinamica nello spazio 3D e utilizzare queste informazioni per eseguire il rendering di viste basate su audio invisibile.
I membri del team hanno affermato che rispetto a NeRF, 3D Gaussian Splash offre prestazioni migliori in termini di dati, memoria, complessità computazionale, processo ed efficienza di rendering.
La pipeline del modello Phoenix-2 basato sullo splash gaussiano 3D può essere addestrata il 70% più velocemente rispetto al modello originale e renderizzata a oltre 60 FPS.
Tavus ha detto:Durante la conversazione, sono presenti il rilevamento di fine turno e l'interrompibilità, rendendo la conversazione più reale per l'utente.
Inoltre, poiché le informazioni facciali sono molto sensibili, il team fornisce controlli di sicurezza, protocolli di sicurezza, moderazione automatizzata dei contenuti e controlli anti-allucinazioni per proteggere la sicurezza delle informazioni.
Vale la pena ricordare che i modelli della serie Phoenix supportano anche un altro prodotto Tavus:
Genera video di conversazione degli utenti gemelli digitali.
Devi solo fornire 2 minuti di materiale e spendere $ 1 (iniziale) per chiamare l'API per generare contenuti video.
Il suggerimento ufficiale può fornire una soluzione end-to-end con le seguenti funzionalità:
Il team Tavus è una startup di video AI di quattro anni su piccola scala.
La maggior parte dei membri proviene da Amazon, Descript, Google e Apple, ecc.
Le informazioni pubbliche mostrano che a marzo di quest'anno la società ha ricevuto investimenti di serie A da Sequoia, Scale VC e YC, con un importo di finanziamento di circa 18 milioni di dollari.
Viene nominato il co-fondatore e amministratore delegato di TavusHassaan Raza。
Ha lavorato presso Google e Apple.
Il cofondatore e COO dell'azienda ha lasciato un messaggio su Producthunt, affermando che la produzione di video conversazionali con intelligenza artificiale ha richiesto molto tempo, con circa migliaia di ore spese in ricerca, ingegneria e costruzione.
E perché dovremmo perseguire un ritardo di 1 secondo o meno?
C'è anche la risposta ufficialeSimula le conversazioni video da uomo a uomo il più fedelmente possibile:
Perché se la velocità di reazione non è inferiore a 1 secondo, allora (la persona che chiacchiera con te dall'altra parte) non è un essere umano.
Link di riferimento:
[1]https://www.tavus.io/careers
[2]https://x.com/heytavus/status/1824075891271749903
[3]https://www.producthunt.com/posts/conversational-replicas-by-tavus