2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
L'IA vidéo conversationnelle la plus rapide de l'histoire est là !Retard inférieur à une seconde!
De bout en bout, vous pouvez écouter, voir, parler et avoir des images.
Ce produit ne vient pas d'entreprises comme OpenAI ou HeyGen qui ont déjà démontré leurs capacités auparavant, et il n'a pas de nom spécifique.
Parce qu'il vient d'une équipe entrepreneurialeTavus, c'est pourquoi on l'appelle également Conversational Replicas par Tavus.
La fonction principale est de créer une expérience vidéo immersive générée par l’IA.
Après avoir été lancé aujourd’hui, il a atteint aujourd’hui le sommet de la liste des nouveaux produits phares de Producthunt, et le nombre de likes continue d’augmenter.
Le responsable de Tavus résume les caractéristiques du produit pour tout le monde :
Les internautes étaient ravis de voir :
D'accord, maintenant il y a "quelqu'un" pour organiser une vidéoconférence ZOOM pour moi hahahaha !
De nombreux internautes considèrent également cela commeUne meilleure interface d’interaction homme-machine que la lecture de documents ou le chat。
Cette interface vidéo conversationnelle change la donne !
J'imagine déjà les possibilités infinies d'expériences immersives.
Après avoir vu ce message, Qubit s'est précipité vers le site officiel de Tavus en une seconde.
Sur le site officiel, vous pouvez découvrir en ligne la « vidéo de conversation la plus rapide de l'histoire » de 2 minutes.
Selon les paramètres existants,L'interlocuteur pendant l'expérience était Carter, créé par Tavus.。
Carter se positionne comme un employé de Tavus, une société de recherche vidéo sur l'IA, qui répond avec humour et est utile.
Voici l'homme ci-dessous :
Bien que Carter soit un avatar, discuter en vidéo avec lui est comme discuter en vidéo avec vos propres amis.
Les responsables recommandent qu'après avoir autorisé la caméra et le microphone, essayez de rester dans une pièce calme lorsque vous discutez avec Carter.
Carter a mentionné au cours de la conversation que certains des sujets que les gens aiment le plus discuter avec lui, en plus de lui poser des questions sur la technologie d'IA utilisée par Tavus, sont de partager leurs pensées quotidiennes et de raconter des blagues.
Il a raconté une blague sur place :
Demandez-vous pourquoi le vélo ne peut-il pas rester là tout seul ?
La réponse est parce que c'est trop fatigué (deux pneus).
Après avoir fini de parler, Carter lui-même s'est applaudi et a ri deux fois.
J'ai également fait l'expérience du qubit pendant 2 minutes, et mon expérience globale est la suivante :
Tout d'abord, TavusLa vitesse de réponse est vraiment rapide, conformément à l'affirmation officielle de « en une seconde ».
Même si vous émettez soudainement un son pendant qu'il parle, Carter s'arrêtera immédiatement et écoutera votre dernière déclaration.
Deuxièmement, bien que l'affirmation officielle soit qu'il prend en charge plus de 30 langues, peu importe que vous posiez des questions en chinois ou en anglais, il répond toujours aux questions.Incapable de parler chinois。
Lorsque nous lui demandions « Pouvons-nous parler chinois », Carter répondait : « Je préfère parler en anglais ! »
Troisièmement, l’IA de TavusOn peut effectivement "voir avec ses yeux"。
Pendant l'essai des qubits, j'étais gêné à un moment donné et je ne savais pas quoi demander, alors je ne pouvais que rire.
Carter a immédiatement parlé :
Oh! Tu m'as montré un sourire~
Quatrièmement, dans la version démo, Carter'sLa forme de la bouche et les mots prononcés peuvent être presque entièrement synchronisés。
Il n’est pas étonnant que certains internautes aient dit après l’avoir essayé :
C'est vraiment impressionnant, avec des temps de réponse rapides et d'excellentes capacités de génération vidéo et audio.
Maintenant, inscrivez-vous simplement pour utiliser l’IA vidéo conversationnelle de Tavus.
Dans la version officielle,Carter n'est pas le seul personnage IA disponible pour le dialogueIl y a des hommes et des femmes, et les paramètres identitaires vont de la vente à l'orientation de vie, etc.
L'arrière-plan du chat peut également être modifié selon le choix de l'utilisateur, sans se limiter à la scène du bureau.
En même temps, aussiPossibilité de saisir manuellement le contexte du contenu de la conversation。
On peut dire que le degré de personnalisation est assez élevé.
Il existe actuellement une version gratuite et une version payante, correspondant aux différents droits et intérêts générés.
Derrière l'IA vidéo conversationnelle de Tavus se trouve le modèle Phoenix-2 auto-développé par l'équipe Tavus.
Il s'agit d'une combinaison de modèles 3D audio et textuels et de GAN 2D qui peuvent générer de courtes vidéos réalistes de 1 à 2 minutes.
Le processus de génération est grossièrement divisé en quatre étapes :
TTS (Text to Speech) – Reconstruction 3D de la tête et des épaules – Animation faciale rapide basée sur un script de mots – Rendu haute fidélité.
△Affinement des détails géométriques du visage grâce au rendu différentiel
Afin de rendre l'image de l'IA qui parle à l'utilisateur plus réaliste, lorsque l'équipe Tavus a construit le pipeline de rendu vidéo de Phoenix-2,Éclaboussures combinées GAN et gaussiennes 3D.
La raison en est que les GAN traditionnels sont généralement limités par la résolution de l'image, tandis que les modèles de volume manquent toujours de cohérence temporelle.
Tavus a donc pensé à combiner les deux.
La formation du GAN nécessite de grands ensembles de données et des ressources informatiques coûteuses, et en raison de sa nature bidimensionnelle et de ses problèmes de cohérence temporelle, le temps d'inférence et la qualité vidéo sont généralement limités.
Tavus utilise des modèles 3D comme « intermédiaires » pour obtenir des rendus supérieurs à 100 FPS et atteindre un degré plus élevé de contrôlabilité et de polyvalence en raison des contraintes de perception physique autour des objets dynamiques.
△Comparez les différences entre les modèles de tête parlante 2D et 3D
De plus, l'amélioration du modèle Phoenix-2 par rapport à la série précédente réside dans le fait qu'il remplace le NeRF du modèle Phoenix de première génération.
En ce qui concerne les éclaboussures gaussiennes 3D, nous apprenons à présenter comment piloter une déformation faciale dynamique dans l'espace 3D et à utiliser ces informations pour restituer des vues basées sur un son invisible.
Les membres de l'équipe ont déclaré que par rapport à NeRF, 3D Gaussian Splash est plus performant en termes de données, de mémoire, de complexité informatique, de processus et d'efficacité de rendu.
Le pipeline du modèle Phoenix-2 basé sur l'éclaboussure gaussienne 3D peut être entraîné 70 % plus rapidement que le modèle original et rendu à plus de 60 FPS.
Tavus a dit :Pendant la conversation, il y a une détection de fin de tour et une interruption, ce qui rend la conversation plus réelle pour l'utilisateur.
De plus, les informations faciales étant très sensibles, l'équipe propose des contrôles de sécurité, des protocoles de sécurité, une modération automatisée du contenu et des contrôles anti-hallucinations pour protéger la sécurité des informations.
Il convient de mentionner que les modèles de la série Phoenix prennent également en charge un autre produit Tavus :
Générez des vidéos de conversation des jumeaux numériques des utilisateurs.
Il vous suffit de fournir 2 minutes de matériel et de dépenser 1 $ (à partir de) pour appeler l'API afin de générer du contenu vidéo.
L'astuce officielle peut fournir une solution de bout en bout avec les fonctionnalités suivantes :
L'équipe Tavus est une startup de vidéo IA de quatre ans à petite échelle.
La plupart des membres viennent d'Amazon, Descript, Google et Apple, etc.
Les informations publiques montrent qu'en mars de cette année, la société avait reçu un investissement de série A de Sequoia, Scale VC et YC, pour un montant de financement d'environ 18 millions de dollars américains.
Le co-fondateur et PDG de Tavus est nomméHassan Raza。
A travaillé chez Google et Apple.
Le cofondateur et directeur de l'exploitation de l'entreprise a laissé un message sur Producthunt, affirmant que la production d'IA vidéo conversationnelle prenait beaucoup de temps, avec environ des milliers d'heures consacrées à la recherche, à l'ingénierie et à la construction.
Quant à savoir pourquoi devrions-nous poursuivre un délai de 1 seconde ou moins ?
La réponse officielle est également donnée dansSimulez le plus fidèlement possible les conversations vidéo interhumaines:
Parce que si la vitesse de réaction n’est pas inférieure à 1 seconde, alors (la personne qui discute avec vous de l’autre côté) n’est pas un être humain.
Liens de référence :
[1]https://www.tavus.io/careers
[2]https://x.com/heytavus/status/1824075891271749903
[3]https://www.producthunt.com/posts/conversational-replicas-by-tavus