“Ela” tem uma imagem! Faça videochamadas para IA quase sem demora, Sequoia YC invest

“Ela” tem uma imagem! Faça videochamadas para IA quase sem demora, a Sequoia YC investiu nisso

2024-08-16

A IA de vídeo conversacional mais rápida da história está aqui!Atrasar menos de um segundo！

De ponta a ponta, você pode ouvir, ver, falar e obter imagens.

Este produto não vem de empresas como OpenAI ou HeyGen que já demonstraram suas capacidades anteriormente e não possui um nome específico.

Porque vem de uma equipe empreendedoraTavo, por isso também é chamado de Réplicas Conversacionais de Tavus.

A principal função é construir uma experiência de vídeo envolvente gerada por IA.

Depois de ser lançado hoje, ele alcançou o topo da lista de novos produtos do Producthunt hoje, e o número de curtidas ainda está aumentando.

O oficial da Tavus resume os recursos do produto para todos:

Atrasar menos de um segundo
Gêmeo digital realista e inteligente
Blocos de construção plug-and-play de ponta a ponta
Componentes modulares e personalizáveis, como síntese de voz LLM

Os internautas ficaram entusiasmados em ver:

Pronto, agora tem “alguém” para fazer uma videoconferência ZOOM para mim hahahaha!

Muitos internautas também consideram isso comoUma interface de interação humano-computador melhor do que ler documentos ou bater papo。

Esta interface de vídeo conversacional é uma virada de jogo!
Já posso imaginar as infinitas possibilidades de experiências imersivas.

Você pode experimentá-lo na web por 2 minutos

Depois de ver esta mensagem, Qubit correu para o site oficial da Tavus em um segundo.

No site oficial, você pode experimentar online o "vídeo de conversa mais rápido da história" de 2 minutos.

De acordo com as configurações existentes,O interlocutor durante a experiência foi Carter, criado por Tavus。

Carter está posicionado como funcionário da Tavus, uma empresa de pesquisa de vídeo de IA, que responde com humor e é prestativo.

Este é o homem abaixo:

Embora Carter seja um avatar, conversar por vídeo com ele é como conversar por vídeo com seus próprios amigos.

As autoridades recomendam que, após autorizar a câmera e o microfone, tente ficar em uma sala silenciosa ao conversar com Carter.

Durante a conversa, Carter mencionou que alguns dos assuntos que as pessoas mais gostam de discutir com ele, além de perguntar sobre a tecnologia de IA usada por Tavus, são compartilhar seus pensamentos diários e contar piadas.

Ele contou uma piada na hora:

Pergunte: por que a bicicleta não pode ficar parada sozinha?
A resposta é porque está muito cansado (Dois pneus).

Depois de terminar de falar, o próprio Carter torceu e riu duas vezes.

Na verdade, também experimentei o qubit por 2 minutos e minha experiência geral é a seguinte:

Primeiro, TavoA velocidade de resposta é muito rápida, em linha com a afirmação oficial de “dentro de um segundo”.

Mesmo que você faça um som repentino enquanto ele está falando, Carter irá parar imediatamente e ouvir sua última declaração.

Em segundo lugar, embora a afirmação oficial seja que suporta mais de 30 idiomas, não importa se você faz perguntas em chinês ou inglês, ele sempre responde às perguntas.Não consigo falar chinês。

Quando perguntávamos a ele “Podemos falar chinês”, Carter respondia: “Prefiro falar em inglês!”

Terceiro, IA de TavusVocê pode realmente "ver com seus olhos"。

Durante o teste do qubit, fiquei envergonhado a certa altura e não sabia o que perguntar, então só pude rir.

Carter imediatamente falou:

Oh! Você me mostrou um sorriso ~

Quarto, na versão demo, Carter’sO formato da boca e as palavras faladas podem ser quase completamente sincronizadas。

Não é à toa que alguns internautas disseram depois de experimentar:

É verdadeiramente impressionante, com tempos de resposta rápidos e excelentes capacidades de geração de vídeo e áudio.

Agora, basta se inscrever para usar a IA de vídeo conversacional do Tavus.

Na versão oficial,Carter não é o único personagem de IA disponível para diálogoExistem homens e mulheres, e as configurações de identidade vão desde vendas até orientação de vida, etc.

O plano de fundo do chat também pode ser alterado de acordo com a escolha do usuário, não se limitando ao cenário do escritório.

Ao mesmo tempo, tambémCapacidade de inserir manualmente o contexto do conteúdo da conversa。

Pode-se dizer que o grau de personalização é bastante elevado.

Atualmente existe uma versão gratuita e uma versão paga, correspondentes aos diferentes direitos e interesses gerados.

Desenvolvido com base no modelo de autopesquisa

Por trás da IA de vídeo conversacional Tavus está o modelo Phoenix-2 desenvolvido pela própria equipe Tavus.

Esta é uma combinação de modelos 3D baseados em áudio e texto e GANs 2D que podem gerar vídeos curtos realistas de 1 a 2 minutos.

O processo de geração é dividido basicamente nas quatro etapas a seguir:

TTS (Text to Speech) – Reconstrução 3D de cabeça e ombros – Animação facial orientada por script de palavras imediatas – Renderização de alta fidelidade.

△ Ajuste fino de detalhes geométricos faciais por meio de renderização diferencial

Para tornar a imagem de IA que fala com o usuário mais realista, quando a equipe Tavus construiu o pipeline de renderização de vídeo do Phoenix-2,Respingos GAN e Gaussianos 3D combinados.

A razão para isso é que os GANs tradicionais são geralmente limitados pela resolução da imagem, enquanto os modelos de volume sempre carecem de consistência temporal.

Portanto, Tavus pensou em combinar os dois.

O treinamento do GAN requer grandes conjuntos de dados e recursos computacionais caros e, devido à sua natureza bidimensional e problemas de consistência temporal, o tempo de inferência e a qualidade do vídeo são geralmente limitados.

Tavus usa modelos 3D como “intermediários” para alcançar renderizações de mais de 100 FPS e alcançar um maior grau de controlabilidade e versatilidade devido às restrições de percepção física em torno de objetos dinâmicos.

△Compare as diferenças entre modelos de fala com cabeça 2D e 3D

Além disso, a melhoria do modelo Phoenix-2 em comparação com a série anterior é que ele substitui o NeRF do modelo Phoenix de primeira geração.

Passando para o 3D Gaussian Splashing, aprendemos a apresentar como gerar deformação facial dinâmica no espaço 3D e usar essas informações para renderizar visualizações com base em áudio invisível.

Os membros da equipe disseram que, comparado ao NeRF, o 3D Gaussian Splash tem melhor desempenho em termos de dados, memória, complexidade computacional, processo e eficiência de renderização.

O pipeline do modelo Phoenix-2 baseado em splashing gaussiano 3D pode ser treinado 70% mais rápido que o modelo original e renderizado a mais de 60 FPS.

Tavo disse:Durante a conversa, há detecção de fim de turno e interrompibilidade, fazendo com que a conversa pareça mais real para o usuário.

Além disso, como as informações faciais são muito confidenciais, a equipe fornece verificações de segurança, protocolos de segurança, moderação automatizada de conteúdo e verificações anti-alucinações para proteger a segurança das informações.

Vale ressaltar que os modelos da série Phoenix também suportam outro produto Tavus -

Gere vídeos de conversas de gêmeos digitais de usuários.

Você só precisa fornecer 2 minutos de material e gastar US$ 1 (inicial) para chamar a API para gerar conteúdo de vídeo.

A dica oficial pode fornecer uma solução ponta a ponta com os seguintes recursos:

Use APIs para criar gêmeos digitais ou agentes de IA seguros e reais
Personalize LLM, personagens de diálogo e planos de fundo
Transmita conversas em salas de conferência incorporadas
Grave, transcreva e compartilhe conversas
Lide com alto tráfego com escalabilidade de nível de produção

"Se você não <1s, você não é mais um ser humano."

A equipe Tavus é uma startup de vídeo de IA de quatro anos em pequena escala.

A maioria dos membros vem da Amazon, Descript, Google e Apple, etc.

Informações públicas mostram que, a partir de março deste ano, a empresa recebeu investimentos Série A da Sequoia, Scale VC e YC, com um valor de financiamento de aproximadamente US$ 18 milhões.

O cofundador e CEO da Tavus é nomeadoHassaan Raza。

Trabalhou no Google e na Apple.

O cofundador e COO da empresa deixou uma mensagem no Producthunt, dizendo que a produção de IA de vídeo conversacional demorou muito, com aproximadamente milhares de horas gastas em pesquisa, engenharia e construção.

E por que devemos buscar um atraso de 1 segundo ou menos?

A resposta oficial também é dada emSimule conversas de vídeo entre humanos o mais fielmente possível：

Porque se a velocidade de reação não for inferior a 1 segundo, então (a pessoa que está conversando com você do outro lado) não é um ser humano.

Links de referência:
[1]https://www.tavus.io/careers
[2]https://x.com/heytavus/status/1824075891271749903
[3]https://www.producthunt.com/posts/conversational-replicas-by-tavus

notícias

“Ela” tem uma imagem! Faça videochamadas para IA quase sem demora, a Sequoia YC investiu nisso

Você pode experimentá-lo na web por 2 minutos

Desenvolvido com base no modelo de autopesquisa

"Se você não <1s, você não é mais um ser humano."

Introdução

Minhas informações de contato

notícias

“Ela” tem uma imagem! Faça videochamadas para IA quase sem demora, a Sequoia YC investiu nisso

Você pode experimentá-lo na web por 2 minutos

Desenvolvido com base no modelo de autopesquisa

"Se você não &lt;1s, você não é mais um ser humano."

Introdução

Minhas informações de contato

"Se você não <1s, você não é mais um ser humano."