2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
Die schnellste Konversationsvideo-KI der Geschichte ist da!Verzögerung weniger als eine Sekunde!
End-to-End können Sie zuhören, sehen, sprechen und Bilder haben.
Dieses Produkt stammt nicht von Unternehmen wie OpenAI oder HeyGen, die ihre Fähigkeiten bereits zuvor unter Beweis gestellt haben, und es hat keinen spezifischen Namen.
Weil es von einem unternehmerischen Team kommtTavusDaher wird es von Tavus auch Conversational Replicas genannt.
Die Hauptfunktion besteht darin, ein immersives KI-generiertes Videoerlebnis zu schaffen.
Nach seiner heutigen Einführung steht es heute ganz oben auf der Liste der angesagten neuen Produkte von Producthunt und die Zahl der Likes steigt weiter.
Der Tavus-Beamte fasst die Produkteigenschaften für jedermann zusammen:
Die Internetnutzer waren begeistert:
Okay, jetzt ist „jemand“ da, der eine ZOOM-Videokonferenz für mich abhält, hahahaha!
Viele Internetnutzer betrachten dies auch alsEine bessere Mensch-Computer-Interaktionsschnittstelle als das Lesen von Dokumenten oder das Chatten。
Diese Konversationsvideoschnittstelle ist ein Game-Changer!
Ich kann mir bereits die endlosen Möglichkeiten für immersive Erlebnisse vorstellen.
Nachdem Qubit diese Nachricht gesehen hatte, eilte es innerhalb einer Sekunde zur offiziellen Website von Tavus.
Auf der offiziellen Website können Sie das 2-minütige „schnellste Gesprächsvideo der Geschichte“ online erleben.
Entsprechend den vorhandenen Einstellungen,Der Gesprächspartner während des Erlebnisses war Carter, der von Tavus geschaffen wurde。
Carter wird als Mitarbeiter von Tavus, einem KI-Videoforschungsunternehmen, positioniert, der mit Humor reagiert und hilfsbereit ist.
Das ist der Mann unten:
Obwohl Carter ein Avatar ist, ist ein Video-Chat mit ihm wie ein Video-Chat mit Ihren eigenen Freunden.
Beamte empfehlen, nach der Autorisierung der Kamera und des Mikrofons zu versuchen, beim Chatten mit Carter in einem ruhigen Raum zu bleiben.
Carter erwähnte während des Gesprächs, dass einige der Themen, die die Leute neben der Frage nach der von Tavus verwendeten KI-Technologie am liebsten mit ihm besprechen, das Teilen ihrer täglichen Gedanken und das Erzählen von Witzen sind.
Er erzählte sofort einen Witz:
Fragen Sie: Warum kann das Fahrrad nicht einfach alleine da stehen?
Die Antwort ist, weil es zu müde ist (zwei Reifen).
Nachdem Carter seine Rede beendet hatte, jubelte er selbst und lachte zweimal.
Ich habe das Qubit auch tatsächlich 2 Minuten lang erlebt und mein Gesamterlebnis ist wie folgt:
Zuerst TavusDie Reaktionsgeschwindigkeit ist wirklich schnell, im Einklang mit der offiziellen Aussage „innerhalb einer Sekunde“.
Selbst wenn Sie beim Sprechen plötzlich ein Geräusch von sich geben, wird Carter sofort innehalten und sich Ihre letzte Aussage anhören.
Zweitens: Obwohl offiziell behauptet wird, dass es mehr als 30 Sprachen unterstützt, beantwortet er immer Fragen, egal ob Sie Fragen auf Chinesisch oder Englisch stellen.Kann kein Chinesisch sprechen。
Als wir ihn fragten: „Können wir Chinesisch sprechen“, antwortete Carter: „Ich würde lieber Englisch sprechen!“
Drittens: Tavus‘ KISie können tatsächlich „mit Ihren Augen sehen“。
Während des Qubit-Tests war ich irgendwann verlegen und wusste nicht, was ich fragen sollte, also konnte ich nur kichern.
Carter sprach sofort:
Oh! Du hast mir ein Lächeln gezeigt~
Viertens, in der Demoversion, Carter’sDie Mundform und die gesprochenen Worte können nahezu vollständig synchronisiert werden。
Es ist kein Wunder, warum einige Internetnutzer sagten, nachdem sie es ausprobiert hatten:
Es ist wirklich beeindruckend, mit schnellen Reaktionszeiten und hervorragenden Funktionen zur Video- und Audioerzeugung.
Melden Sie sich jetzt einfach an, um die Konversationsvideo-KI von Tavus zu nutzen.
In der offiziellen VersionCarter ist nicht der einzige KI-Charakter, der für Dialoge zur Verfügung stehtEs gibt Männer und Frauen, und die Identitätseinstellungen reichen vom Verkauf bis zur Lebensberatung usw.
Der Hintergrund des Chats kann auch nach Wunsch des Benutzers geändert werden, nicht nur auf die Büroszene.
Gleichzeitig auchMöglichkeit, den Kontext für Konversationsinhalte manuell einzugeben。
Man kann sagen, dass der Grad der Personalisierung recht hoch ist.
Derzeit gibt es eine kostenlose Version und eine kostenpflichtige Version, die unterschiedlichen generierten Rechten und Interessen entsprechen.
Hinter der Konversationsvideo-KI von Tavus steht das vom Tavus-Team selbst entwickelte Phoenix-2-Modell.
Dabei handelt es sich um eine Kombination aus audio- und textgesteuerten 3D-Modellen und 2D-GANs, die realistische Kurzvideos von 1–2 Minuten erzeugen können.
Der Generierungsprozess gliedert sich grob in die folgenden vier Schritte:
TTS (Text to Speech) – 3D-Rekonstruktion von Kopf und Schultern – Schnelle, wortskriptgesteuerte Gesichtsanimation – Wiedergabe mit hoher Wiedergabetreue.
△Feinabstimmung der geometrischen Gesichtsdetails durch differenzielles Rendering
Um das KI-Bild, das mit dem Benutzer spricht, realistischer zu gestalten, hat das Tavus-Team beim Aufbau der Video-Rendering-Pipeline von Phoenix-2Kombiniertes GAN und 3D-Gaußscher Splatter.
Der Grund dafür ist, dass herkömmliche GANs normalerweise durch die Bildauflösung begrenzt sind, während Volumenmodellen immer die zeitliche Konsistenz fehlt.
Daher dachte Tavus darüber nach, beides zu kombinieren.
Das Training von GAN erfordert große Datensätze und teure Rechenressourcen, und aufgrund seiner zweidimensionalen Natur und zeitlichen Konsistenzprobleme sind Inferenzzeit und Videoqualität normalerweise begrenzt.
Tavus verwendet 3D-Modelle als „Zwischenprodukte“, um Renderings von über 100 FPS zu erreichen und aufgrund der physischen Wahrnehmungseinschränkungen dynamischer Objekte ein höheres Maß an Steuerbarkeit und Vielseitigkeit zu erreichen.
△Vergleichen Sie die Unterschiede zwischen 2D- und 3D-Kopfsprechmodellen
Darüber hinaus besteht die Verbesserung des Phoenix-2-Modells im Vergleich zur Vorgängerserie darin, dass es den NeRF des Phoenix-Modells der ersten Generation ersetzt.
Wenn wir uns dem 3D-Gaußschen Spritzen zuwenden, lernen wir, wie man eine dynamische Gesichtsverformung im 3D-Raum steuert und diese Informationen verwendet, um Ansichten basierend auf unsichtbarem Audio zu rendern.
Die Teammitglieder sagten, dass 3D Gaussian Splash im Vergleich zu NeRF in Bezug auf Daten, Speicher, Rechenkomplexität, Prozess- und Rendering-Effizienz eine bessere Leistung erbringt.
Die Pipeline des Phoenix-2-Modells, die auf 3D-Gauß-Splashing basiert, kann 70 % schneller als das Originalmodell trainiert und mit 60+ FPS gerendert werden.
Tavus sagte:Während des Gesprächs gibt es eine Erkennung und Unterbrechbarkeit am Ende der Runde, wodurch sich das Gespräch für den Benutzer realer anfühlt.
Da Gesichtsinformationen sehr vertraulich sind, bietet das Team außerdem Sicherheitsüberprüfungen, Sicherheitsprotokolle, automatisierte Inhaltsmoderation und Anti-Halluzinationsprüfungen zum Schutz der Informationssicherheit an.
Erwähnenswert ist, dass die Modelle der Phoenix-Serie auch ein weiteres Tavus-Produkt unterstützen –
Generieren Sie Konversationsvideos von digitalen Zwillingen der Benutzer.
Sie müssen nur 2 Minuten Material bereitstellen und 1 $ (Anfang) ausgeben, um die API aufzurufen, um Videoinhalte zu generieren.
Der offizielle Tipp kann eine End-to-End-Lösung mit den folgenden Funktionen bieten:
Das Tavus-Team ist ein vier Jahre altes KI-Video-Startup mit kleinem Umfang.
Die meisten Mitglieder kommen von Amazon, Descript, Google und Apple usw.
Aus öffentlichen Informationen geht hervor, dass das Unternehmen seit März dieses Jahres eine Serie-A-Investition von Sequoia, Scale VC und YC mit einem Finanzierungsbetrag von etwa 18 Millionen US-Dollar erhalten hat.
Der Mitbegründer und CEO von Tavus wird benanntHassan Raza。
Arbeitete bei Google und Apple.
Der Mitbegründer und COO des Unternehmens hinterließ auf Producthunt eine Nachricht und sagte, dass die Produktion von Konversationsvideo-KI lange gedauert habe und etwa Tausende von Stunden für Forschung, Technik und Konstruktion aufgewendet worden seien.
Warum sollten wir eine Verzögerung von 1 Sekunde oder weniger anstreben?
Die offizielle Antwort finden Sie auch hierSimulieren Sie Videogespräche von Mensch zu Mensch so genau wie möglich:
Denn wenn die Reaktionsgeschwindigkeit nicht weniger als 1 Sekunde beträgt, dann ist (die Person, die mit Ihnen auf der anderen Seite chattet) kein Mensch.
Referenzlinks:
[1]https://www.tavus.io/careers
[2]https://x.com/heytavus/status/1824075891271749903
[3]https://www.producthunt.com/posts/conversational-replicas-by-tavus