¡"Ella" tiene una imagen! Realice videollamadas a IA casi sin demora, Sequoia YC invest

¡"Ella" tiene una imagen! Realice videollamadas a IA casi sin demora, Sequoia YC invirtió en ello

2024-08-16

¡La IA de vídeo conversacional más rápida de la historia ya está aquí!Retraso inferior a un segundo！

De un extremo a otro, puede escuchar, ver, hablar y tener imágenes.

Este producto no proviene de empresas como OpenAI o HeyGen que ya hayan demostrado sus capacidades anteriormente, y no tiene un nombre específico.

Porque proviene de un equipo emprendedorTavus, por lo que Tavus también lo llama Réplicas conversacionales.

La función principal es crear una experiencia de vídeo inmersiva generada por IA.

Después de su lanzamiento hoy, ha alcanzado la cima de la lista de nuevos productos populares de Producthunt y la cantidad de "me gusta" sigue aumentando.

El funcionario de Tavus resume las características del producto para todos:

Retraso inferior a un segundo
Gemelo digital realista e inteligente
Bloques de construcción plug-and-play de un extremo a otro
Componentes modulares y personalizables, como la síntesis de voz LLM.

Los internautas se emocionaron al ver:

Bueno, ahora hay "alguien" que me hará una videoconferencia ZOOM ¡jajajaja!

Muchos internautas también consideran esto comoUna mejor interfaz de interacción persona-computadora que leer documentos o chatear。

¡Esta interfaz de video conversacional cambia las reglas del juego!
Ya puedo imaginar las infinitas posibilidades de experiencias inmersivas.

Puedes probarlo en la web durante 2 minutos.

Después de ver este mensaje, Qubit corrió al sitio web oficial de Tavus en un segundo.

En el sitio web oficial, puede experimentar en línea el "video de conversación más rápido de la historia" de 2 minutos.

Según la configuración existente,El interlocutor durante la experiencia fue Carter, creado por Tavus.。

Carter está posicionado como empleado de Tavus, una empresa de investigación de vídeos de IA, que responde con humor y es útil.

Este es el hombre de abajo:

Aunque Carter es un avatar, chatear por video con él es como chatear por video con tus propios amigos.

Los funcionarios recomiendan que después de autorizar la cámara y el micrófono, intente permanecer en una habitación tranquila cuando converse con Carter.

Carter mencionó durante la conversación que algunos de los temas que más le gusta discutir a la gente con él, además de preguntarle sobre la tecnología de inteligencia artificial utilizada por Tavus, es compartir sus pensamientos diarios y contar chistes.

Contó un chiste en el acto:

Pregunte, ¿por qué la bicicleta no puede mantenerse ahí sola?
La respuesta es porque está demasiado cansado (Dos neumáticos).

Después de terminar de hablar, el propio Carter se animó y se rió dos veces.

De hecho, también experimenté el qubit durante 2 minutos y mi experiencia general es la siguiente:

Primero, TavoLa velocidad de respuesta es realmente rápida., en línea con la afirmación oficial de "en un segundo".

Incluso si de repente haces un sonido mientras él habla, Carter se detendrá inmediatamente y escuchará tu última declaración.

En segundo lugar, aunque oficialmente afirma que admite más de 30 idiomas, no importa si haces preguntas en chino o en inglés, él siempre responde preguntas.No puedo hablar chino。

Cuando le preguntábamos "¿Podemos hablar chino?", Carter respondía: "¡Preferiría hablar en inglés!".

En tercer lugar, la IA de TavusDe hecho puedes "ver con tus ojos"。

Durante la prueba del qubit, en un momento me sentí avergonzado y no sabía qué preguntar, así que solo pude reírme.

Carter habló inmediatamente:

¡Oh! Me mostraste una sonrisa~

Cuarto, en la versión demo, Carter'sLa forma de la boca y las palabras pronunciadas se pueden sincronizar casi por completo.。

No es de extrañar que algunos internautas dijeran después de probarlo:

Es realmente impresionante, con tiempos de respuesta rápidos y excelentes capacidades de generación de video y audio.

Ahora, simplemente regístrese para usar la IA de video conversacional de Tavus.

En la versión oficial,Carter no es el único personaje de IA disponible para dialogarHay hombres y mujeres, y los escenarios de identidad van desde las ventas hasta la orientación de vida, etc.

El fondo del chat también se puede cambiar según la elección del usuario, sin limitarse a la escena de la oficina.

Al mismo tiempo, tambiénCapacidad de ingresar manualmente el contexto para el contenido de la conversación。

Se puede decir que el grado de personalización es bastante alto.

Actualmente existe una versión gratuita y otra de pago, correspondientes a diferentes derechos e intereses generados.

Desarrollado en base a un modelo de autoinvestigación.

Detrás de la IA de vídeo conversacional de Tavus se encuentra el modelo Phoenix-2 desarrollado por el equipo de Tavus.

Se trata de una combinación de modelos 3D basados en audio y texto y GAN 2D que pueden generar vídeos cortos realistas de 1 a 2 minutos.

El proceso de generación se divide aproximadamente en los siguientes cuatro pasos:

TTS (Text to Speech) – Reconstrucción 3D de cabeza y hombros – Animación facial basada en scripts de palabras – Representación de alta fidelidad.

△Afinar los detalles geométricos faciales mediante renderizado diferencial

Para hacer que la imagen de IA que le habla al usuario sea más realista, cuando el equipo de Tavus construyó el canal de renderizado de video de Phoenix-2,Salpicadura gaussiana 3D y GAN combinada.

La razón de esto es que las GAN tradicionales suelen estar limitadas por la resolución de la imagen, mientras que los modelos volumétricos siempre carecen de coherencia temporal.

Por lo tanto, Tavus pensó en combinar los dos.

Entrenar GAN requiere grandes conjuntos de datos y costosos recursos informáticos y, debido a su naturaleza bidimensional y problemas de coherencia temporal, el tiempo de inferencia y la calidad del vídeo suelen ser limitados.

Tavus utiliza modelos 3D como "intermedios" para lograr renderizaciones de más de 100 FPS y lograr un mayor grado de controlabilidad y versatilidad debido a las limitaciones de percepción física alrededor de los objetos dinámicos.

△Compare las diferencias entre los modelos de cabeza parlante 2D y 3D

Además, la mejora del modelo Phoenix-2 respecto a la serie anterior es que sustituye al NeRF del modelo Phoenix de primera generación.

En cuanto a las salpicaduras gaussianas 3D, aprendemos a presentar cómo impulsar la deformación facial dinámica en el espacio 3D y utilizar esta información para representar vistas basadas en audio invisible.

Los miembros del equipo dijeron que, en comparación con NeRF, 3D Gaussian Splash funciona mejor en términos de datos, memoria, complejidad computacional, proceso y eficiencia de renderizado.

La tubería del modelo Phoenix-2 basada en salpicaduras gaussianas 3D se puede entrenar un 70% más rápido que el modelo original y renderizar a más de 60 FPS.

Tavus dijo:Durante la conversación, hay detección de fin de turno e interrumpibilidad, lo que hace que la conversación parezca más real para el usuario.

Además, debido a que la información facial es muy sensible, el equipo proporciona controles de seguridad, protocolos de seguridad, moderación automatizada de contenido y controles antialucinaciones para proteger la seguridad de la información.

Vale la pena mencionar que los modelos de la serie Phoenix también son compatibles con otro producto Tavus:

Genera vídeos de conversación de gemelos digitales de usuarios.

Solo necesita proporcionar 2 minutos de material y gastar $1 (inicial) para llamar a la API para generar contenido de video.

El consejo oficial puede proporcionar una solución de un extremo a otro con las siguientes capacidades:

Utilice API para crear gemelos digitales o agentes de inteligencia artificial seguros y reales
Personaliza LLM, personajes de diálogo y fondos.
Transmita conversaciones en salas de conferencias integradas
Graba, transcribe y comparte conversaciones
Maneje el tráfico elevado con escalabilidad de nivel de producción

"Si no <1s, ya no eres un ser humano".

El equipo de Tavus es una startup de vídeo de IA de pequeña escala fundada hace cuatro años.

La mayoría de los miembros provienen de Amazon, Descript, Google y Apple, etc.

Información pública muestra que a marzo de este año, la empresa ha recibido una inversión Serie A de Sequoia, Scale VC e YC, con un monto de financiamiento aproximado de US$ 18 millones.

Se nombra al cofundador y director ejecutivo de TavusRaza Hassan。

Trabajó en Google y Apple.

El cofundador y director de operaciones de la empresa dejó un mensaje en Producthunt, diciendo que la producción de IA de vídeo conversacional llevó mucho tiempo, con aproximadamente miles de horas dedicadas a investigación, ingeniería y construcción.

¿En cuanto a por qué deberíamos buscar un retraso de 1 segundo o menos?

La respuesta oficial también se da enSimule conversaciones de vídeo de persona a persona lo más fielmente posible：

Porque si la velocidad de reacción no es inferior a 1 segundo, entonces (la persona que conversa contigo del otro lado) no es un ser humano.

Enlaces de referencia:
[1]https://www.tavus.io/careers
[2]https://x.com/heytavus/status/1824075891271749903
[3]https://www.producthunt.com/posts/conversational-replicas-by-tavus

noticias

¡"Ella" tiene una imagen! Realice videollamadas a IA casi sin demora, Sequoia YC invirtió en ello

Puedes probarlo en la web durante 2 minutos.

Desarrollado en base a un modelo de autoinvestigación.

"Si no <1s, ya no eres un ser humano".

Introducción

Mi información de contacto

noticias

¡"Ella" tiene una imagen! Realice videollamadas a IA casi sin demora, Sequoia YC invirtió en ello

Puedes probarlo en la web durante 2 minutos.

Desarrollado en base a un modelo de autoinvestigación.

"Si no &lt;1s, ya no eres un ser humano".

Introducción

Mi información de contacto

"Si no <1s, ya no eres un ser humano".