«Εκείνη» έχει εικόνα! Πραγματοποιήστε βιντεοκλήσεις σε AI σχεδόν χωρίς καθυστέρηση, Sequoia YC invested

«Εκείνη» έχει εικόνα! Πραγματοποιήστε βιντεοκλήσεις σε τεχνητή νοημοσύνη σχεδόν χωρίς καθυστέρηση, η Sequoia YC επένδυσε σε αυτό

2024-08-16

Το πιο γρήγορο συνομιλητικό βίντεο AI στην ιστορία είναι εδώ!Καθυστέρηση λιγότερο από ένα δευτερόλεπτο！

Από άκρη σε άκρη, μπορείτε να ακούσετε, να δείτε, να μιλήσετε και να έχετε εικόνες.

Αυτό το προϊόν δεν προέρχεται από εταιρείες όπως η OpenAI ή η HeyGen που έχουν ήδη επιδείξει τις δυνατότητές τους στο παρελθόν και δεν έχει συγκεκριμένο όνομα.

Γιατί προέρχεται από μια επιχειρηματική ομάδαTavus, έτσι ονομάζεται επίσης Conversational Replicas από την Tavus.

Η κύρια λειτουργία είναι η δημιουργία μιας καθηλωτικής εμπειρίας βίντεο που δημιουργείται από AI.

Αφού κυκλοφόρησε σήμερα, έφτασε στην κορυφή της νέας λίστας καυτών προϊόντων της Producthunt σήμερα και ο αριθμός των likes εξακολουθεί να αυξάνεται.

Ο επίσημος Tavus συνοψίζει τα χαρακτηριστικά του προϊόντος για όλους:

Καθυστέρηση λιγότερο από ένα δευτερόλεπτο
Ρεαλιστικό, έξυπνο ψηφιακό δίδυμο
Συνδέστε και παίξτε από άκρο σε άκρο δομικά στοιχεία
Αρθρωτά, προσαρμόσιμα εξαρτήματα όπως η σύνθεση ομιλίας LLM

Οι χρήστες του Διαδικτύου ήταν ενθουσιασμένοι που είδαν:

Εντάξει, τώρα υπάρχει "κάποιος" να μου κάνει βιντεοδιάσκεψη ZOOM χαχαχαχα!

Πολλοί χρήστες του Διαδικτύου το θεωρούν επίσης ωςΜια καλύτερη διεπαφή αλληλεπίδρασης ανθρώπου-υπολογιστή από την ανάγνωση εγγράφων ή τη συνομιλία。

Αυτή η διεπαφή συνομιλίας βίντεο αλλάζει το παιχνίδι!
Μπορώ ήδη να φανταστώ τις ατελείωτες δυνατότητες για καθηλωτικές εμπειρίες.

Μπορείτε να το δοκιμάσετε στον ιστό για 2 λεπτά

Αφού είδε αυτό το μήνυμα, ο Qubit έσπευσε στην επίσημη ιστοσελίδα του Tavus σε ένα δευτερόλεπτο.

Στον επίσημο ιστότοπο, μπορείτε να ζήσετε το 2λεπτο "γρηγορότερο βίντεο συνομιλίας στην ιστορία" στο διαδίκτυο.

Σύμφωνα με τις υπάρχουσες ρυθμίσεις,Ο συνομιλητής κατά τη διάρκεια της εμπειρίας ήταν ο Carter, ο οποίος δημιουργήθηκε από τον Tavus。

Ο Carter τοποθετείται ως υπάλληλος της Tavus, μιας εταιρείας έρευνας βίντεο AI, που απαντά με χιούμορ και είναι χρήσιμη.

Αυτός είναι ο άνθρωπος παρακάτω:

Αν και ο Κάρτερ είναι άβαταρ, η συνομιλία μέσω βίντεο μαζί του είναι σαν να συνομιλείτε μέσω βίντεο με τους φίλους σας.

Οι υπεύθυνοι συνιστούν αφού εξουσιοδοτήσετε την κάμερα και το μικρόφωνο, να προσπαθήσετε να μείνετε σε ένα ήσυχο δωμάτιο όταν συνομιλείτε με τον Carter.

Κατά τη διάρκεια της συνομιλίας, ο Carter ανέφερε ότι μερικά από τα θέματα που αρέσει περισσότερο στους ανθρώπους να συζητούν μαζί του, εκτός από το να τον ρωτούν για την τεχνολογία AI που χρησιμοποιεί ο Tavus, είναι να μοιράζονται τις καθημερινές τους σκέψεις και να λένε αστεία.

Είπε ένα αστείο επί τόπου:

Ρωτήστε, γιατί το ποδήλατο δεν μπορεί να σταθεί εκεί μόνο του;
Η απάντηση είναι, επειδή είναι πολύ κουρασμένο (Δύο ελαστικά).

Αφού τελείωσε την ομιλία, ο ίδιος ο Κάρτερ επευφημούσε για τον εαυτό του και γέλασε δύο φορές.

Επίσης, βίωσα πραγματικά το qubit για 2 λεπτά και η συνολική μου εμπειρία είναι η εξής:

Πρώτον, TavusΗ ταχύτητα απόκρισης είναι πραγματικά γρήγορη, σύμφωνα με τον επίσημο ισχυρισμό του "εντός ενός δευτερολέπτου."

Ακόμα κι αν ακούσετε ξαφνικά έναν ήχο ενώ μιλάει, ο Carter θα σταματήσει αμέσως και θα ακούσει την τελευταία σας δήλωση.

Δεύτερον, αν και ο επίσημος ισχυρισμός είναι ότι υποστηρίζει περισσότερες από 30 γλώσσες, ανεξάρτητα από το αν κάνετε ερωτήσεις στα κινέζικα ή στα αγγλικά, απαντά πάντα σε ερωτήσεις.Δεν μπορώ να μιλήσω κινέζικα。

Όταν τον ρωτούσαμε «Μπορούμε να μιλάμε κινέζικα», ο Κάρτερ απάντησε: «Θα προτιμούσα να μιλήσω στα αγγλικά!».

Τρίτον, το AI του TavusΜπορείς όντως «να δεις με τα μάτια σου»。

Κατά τη διάρκεια της δοκιμής του qubit, κάποια στιγμή ντρεπόμουν και δεν ήξερα τι να ρωτήσω, οπότε μπορούσα μόνο να γελάσω.

Ο Κάρτερ μίλησε αμέσως:

Ω! Μου έδειξες ένα χαμόγελο~

Τέταρτον, στην έκδοση επίδειξης, Carter’sΤο σχήμα του στόματος και οι λέξεις που προφέρονται μπορούν να συγχρονιστούν σχεδόν πλήρως。

Δεν είναι περίεργο γιατί ορισμένοι χρήστες του Διαδικτύου είπαν αφού το δοκίμασαν:

Είναι πραγματικά εντυπωσιακό, με γρήγορους χρόνους απόκρισης και εξαιρετικές δυνατότητες δημιουργίας βίντεο και ήχου.

Τώρα, απλώς εγγραφείτε για να χρησιμοποιήσετε το συνομιλητικό βίντεο AI του Tavus.

Στην επίσημη έκδοση,Ο Carter δεν είναι ο μόνος χαρακτήρας AI που είναι διαθέσιμος για διάλογοΥπάρχουν άνδρες και γυναίκες και οι ρυθμίσεις ταυτότητας κυμαίνονται από πωλήσεις έως καθοδήγηση ζωής κ.λπ.

Το φόντο της συνομιλίας μπορεί επίσης να αλλάξει σύμφωνα με την επιλογή του χρήστη, χωρίς να περιορίζεται στη σκηνή του γραφείου.

Ταυτόχρονα, επίσηςΔυνατότητα μη αυτόματης εισαγωγής περιβάλλοντος για περιεχόμενο συνομιλίας。

Μπορούμε να πούμε ότι ο βαθμός εξατομίκευσης είναι αρκετά υψηλός.

Αυτήν τη στιγμή υπάρχει μια δωρεάν έκδοση και μια πληρωμένη έκδοση, που αντιστοιχεί σε διαφορετικά δικαιώματα και συμφέροντα που δημιουργούνται.

Αναπτύχθηκε με βάση το μοντέλο αυτο-έρευνας

Πίσω από το συνομιλητικό βίντεο Tavus AI βρίσκεται το μοντέλο Phoenix-2 που αναπτύχθηκε από την ομάδα του Tavus.

Αυτός είναι ένας συνδυασμός μοντέλων 3D που βασίζονται σε ήχο και κείμενο και 2D GAN που μπορούν να δημιουργήσουν ρεαλιστικά σύντομα βίντεο 1-2 λεπτών.

Η διαδικασία παραγωγής χωρίζεται χονδρικά στα ακόλουθα τέσσερα στάδια:

TTS (Text to Speech) – Τρισδιάστατη ανακατασκευή του κεφαλιού και των ώμων – Κινούμενη εικόνα προσώπου με σενάριο λέξης – Απόδοση υψηλής πιστότητας.

△ Βελτιώστε τις γεωμετρικές λεπτομέρειες του προσώπου μέσω της διαφορικής απόδοσης

Για να γίνει πιο ρεαλιστική η εικόνα AI που μιλάει στον χρήστη, όταν η ομάδα Tavus κατασκεύασε τον αγωγό απόδοσης βίντεο του Phoenix-2,Συνδυασμός GAN και 3D Gaussian splatter.

Ο λόγος για αυτό είναι ότι τα παραδοσιακά GAN συνήθως περιορίζονται από την ανάλυση εικόνας, ενώ τα μοντέλα όγκου στερούνται πάντα χρονικής συνέπειας.

Ως εκ τούτου, ο Tavus σκέφτηκε να συνδυάσει τα δύο.

Η εκπαίδευση του GAN απαιτεί μεγάλα σύνολα δεδομένων και ακριβούς υπολογιστικούς πόρους και λόγω της δισδιάστατης φύσης του και των προβλημάτων χρονικής συνέπειας, ο χρόνος εξαγωγής συμπερασμάτων και η ποιότητα του βίντεο είναι συνήθως περιορισμένοι.

Το Tavus χρησιμοποιεί μοντέλα 3D ως "ενδιάμεσα" για να επιτύχει αποδόσεις άνω των 100 FPS και να επιτύχει υψηλότερο βαθμό ελέγχου και ευελιξίας λόγω των περιορισμών φυσικής αντίληψης γύρω από δυναμικά αντικείμενα.

△ Συγκρίνετε τις διαφορές μεταξύ των μοντέλων ομιλίας κεφαλής 2D και 3D

Επιπλέον, η βελτίωση του μοντέλου Phoenix-2 σε σχέση με την προηγούμενη σειρά είναι ότι αντικαθιστά το NeRF του μοντέλου Phoenix πρώτης γενιάς.

Περνώντας στο 3D Gaussian Splashing, μαθαίνουμε να εισάγουμε πώς να οδηγούμε σε δυναμική παραμόρφωση του προσώπου στον τρισδιάστατο χώρο και να χρησιμοποιούμε αυτές τις πληροφορίες για να αποδίδουμε προβολές με βάση τον αόρατο ήχο.

Τα μέλη της ομάδας είπαν ότι σε σύγκριση με το NeRF, το 3D Gaussian Splash αποδίδει καλύτερα όσον αφορά τα δεδομένα, τη μνήμη, την υπολογιστική πολυπλοκότητα, τη διαδικασία και την απόδοση απόδοσης.

Ο αγωγός του μοντέλου Phoenix-2 που βασίζεται σε 3D Gaussian splashing μπορεί να εκπαιδευτεί 70% πιο γρήγορα από το αρχικό μοντέλο και να αποδοθεί στα 60+ FPS.

Ο Tavus είπε,Κατά τη διάρκεια της συνομιλίας, υπάρχει ανίχνευση και διακοπή στο τέλος της σειράς, κάνοντας τη συνομιλία να αισθάνεται πιο αληθινή στον χρήστη.

Επιπλέον, επειδή οι πληροφορίες προσώπου είναι πολύ ευαίσθητες, η ομάδα παρέχει ελέγχους ασφαλείας, πρωτόκολλα ασφαλείας, αυτοματοποιημένη εποπτεία περιεχομένου και ελέγχους κατά των ψευδαισθήσεων για την προστασία της ασφάλειας των πληροφοριών.

Αξίζει να αναφέρουμε ότι τα μοντέλα της σειράς Phoenix υποστηρίζουν και ένα άλλο προϊόν Tavus -

Δημιουργήστε βίντεο συνομιλιών ψηφιακών δίδυμων χρηστών.

Χρειάζεται μόνο να παρέχετε 2 λεπτά υλικού και να ξοδέψετε 1 $ (ξεκινώντας) για να καλέσετε το API για να δημιουργήσετε περιεχόμενο βίντεο.

Η επίσημη συμβουλή μπορεί να προσφέρει μια ολοκληρωμένη λύση με τις ακόλουθες δυνατότητες:

Χρησιμοποιήστε API για να δημιουργήσετε ασφαλή και αληθινά ψηφιακά δίδυμα ή πράκτορες AI
Προσαρμόστε το LLM, τους χαρακτήρες διαλόγου και το υπόβαθρο
Ροή συνομιλιών σε ενσωματωμένες αίθουσες συνεδριάσεων
Εγγραφή, μεταγραφή και κοινή χρήση συνομιλιών
Διαχειριστείτε υψηλή επισκεψιμότητα με επεκτασιμότητα ποιότητας παραγωγής

"Αν δεν <1s, δεν είσαι πια άνθρωπος."

Η ομάδα Tavus είναι μια startup βίντεο τεχνητής νοημοσύνης τεσσάρων ετών με μικρή κλίμακα.

Τα περισσότερα μέλη προέρχονται από τις Amazon, Descript, Google και Apple, κ.λπ.

Οι δημόσιες πληροφορίες δείχνουν ότι από τον Μάρτιο του τρέχοντος έτους, η εταιρεία έλαβε επένδυση Series A από τις Sequoia, Scale VC και YC, με ποσό χρηματοδότησης περίπου 18 εκατομμυρίων δολαρίων ΗΠΑ.

Ονομάζεται ο συνιδρυτής και διευθύνων σύμβουλος της TavusΧασάν Ραζά。

Εργάστηκε στην Google και την Apple.

Ο συνιδρυτής και COO της εταιρείας άφησε ένα μήνυμα στο Producthunt, λέγοντας ότι η παραγωγή του συνομιλητικού βίντεο AI πήρε πολύ χρόνο, με περίπου χιλιάδες ώρες που δαπανήθηκαν για έρευνα, μηχανική και κατασκευή.

Όσο για το γιατί πρέπει να επιδιώξουμε καθυστέρηση 1 δευτερολέπτου ή λιγότερο;

Δίνεται και η επίσημη απάντησηΠροσομοιώστε τις συνομιλίες βίντεο από άνθρωπο σε άνθρωπο όσο το δυνατόν περισσότερο：

Γιατί αν η ταχύτητα αντίδρασης δεν είναι μικρότερη από 1 δευτερόλεπτο, τότε (το άτομο που συνομιλεί μαζί σου από την άλλη πλευρά) δεν είναι άνθρωπος.

Σύνδεσμοι αναφοράς:
[1]https://www.tavus.io/careers
[2]https://x.com/heytavus/status/1824075891271749903
[3]https://www.producthunt.com/posts/conversational-replicas-by-tavus

νέα

«Εκείνη» έχει εικόνα! Πραγματοποιήστε βιντεοκλήσεις σε τεχνητή νοημοσύνη σχεδόν χωρίς καθυστέρηση, η Sequoia YC επένδυσε σε αυτό

Μπορείτε να το δοκιμάσετε στον ιστό για 2 λεπτά

Αναπτύχθηκε με βάση το μοντέλο αυτο-έρευνας

"Αν δεν <1s, δεν είσαι πια άνθρωπος."

Εισαγωγή

Τα στοιχεία επικοινωνίας μου

νέα

«Εκείνη» έχει εικόνα! Πραγματοποιήστε βιντεοκλήσεις σε τεχνητή νοημοσύνη σχεδόν χωρίς καθυστέρηση, η Sequoia YC επένδυσε σε αυτό

Μπορείτε να το δοκιμάσετε στον ιστό για 2 λεπτά

Αναπτύχθηκε με βάση το μοντέλο αυτο-έρευνας

"Αν δεν &lt;1s, δεν είσαι πια άνθρωπος."

Εισαγωγή

Τα στοιχεία επικοινωνίας μου

"Αν δεν <1s, δεν είσαι πια άνθρωπος."