Minhas informações de contato
Correspondênciaadmin@informação.bz
2024-08-16
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
A IA de vídeo conversacional mais rápida da história está aqui!Atrasar menos de um segundo!
De ponta a ponta, você pode ouvir, ver, falar e obter imagens.
Este produto não vem de empresas como OpenAI ou HeyGen que já demonstraram suas capacidades anteriormente e não possui um nome específico.
Porque vem de uma equipe empreendedoraTavo, por isso também é chamado de Réplicas Conversacionais de Tavus.
A principal função é construir uma experiência de vídeo envolvente gerada por IA.
Depois de ser lançado hoje, ele alcançou o topo da lista de novos produtos do Producthunt hoje, e o número de curtidas ainda está aumentando.
O oficial da Tavus resume os recursos do produto para todos:
Os internautas ficaram entusiasmados em ver:
Pronto, agora tem “alguém” para fazer uma videoconferência ZOOM para mim hahahaha!
Muitos internautas também consideram isso comoUma interface de interação humano-computador melhor do que ler documentos ou bater papo。
Esta interface de vídeo conversacional é uma virada de jogo!
Já posso imaginar as infinitas possibilidades de experiências imersivas.
Depois de ver esta mensagem, Qubit correu para o site oficial da Tavus em um segundo.
No site oficial, você pode experimentar online o "vídeo de conversa mais rápido da história" de 2 minutos.
De acordo com as configurações existentes,O interlocutor durante a experiência foi Carter, criado por Tavus。
Carter está posicionado como funcionário da Tavus, uma empresa de pesquisa de vídeo de IA, que responde com humor e é prestativo.
Este é o homem abaixo:
Embora Carter seja um avatar, conversar por vídeo com ele é como conversar por vídeo com seus próprios amigos.
As autoridades recomendam que, após autorizar a câmera e o microfone, tente ficar em uma sala silenciosa ao conversar com Carter.
Durante a conversa, Carter mencionou que alguns dos assuntos que as pessoas mais gostam de discutir com ele, além de perguntar sobre a tecnologia de IA usada por Tavus, são compartilhar seus pensamentos diários e contar piadas.
Ele contou uma piada na hora:
Pergunte: por que a bicicleta não pode ficar parada sozinha?
A resposta é porque está muito cansado (Dois pneus).
Depois de terminar de falar, o próprio Carter torceu e riu duas vezes.
Na verdade, também experimentei o qubit por 2 minutos e minha experiência geral é a seguinte:
Primeiro, TavoA velocidade de resposta é muito rápida, em linha com a afirmação oficial de “dentro de um segundo”.
Mesmo que você faça um som repentino enquanto ele está falando, Carter irá parar imediatamente e ouvir sua última declaração.
Em segundo lugar, embora a afirmação oficial seja que suporta mais de 30 idiomas, não importa se você faz perguntas em chinês ou inglês, ele sempre responde às perguntas.Não consigo falar chinês。
Quando perguntávamos a ele “Podemos falar chinês”, Carter respondia: “Prefiro falar em inglês!”
Terceiro, IA de TavusVocê pode realmente "ver com seus olhos"。
Durante o teste do qubit, fiquei envergonhado a certa altura e não sabia o que perguntar, então só pude rir.
Carter imediatamente falou:
Oh! Você me mostrou um sorriso ~
Quarto, na versão demo, Carter’sO formato da boca e as palavras faladas podem ser quase completamente sincronizadas。
Não é à toa que alguns internautas disseram depois de experimentar:
É verdadeiramente impressionante, com tempos de resposta rápidos e excelentes capacidades de geração de vídeo e áudio.
Agora, basta se inscrever para usar a IA de vídeo conversacional do Tavus.
Na versão oficial,Carter não é o único personagem de IA disponível para diálogoExistem homens e mulheres, e as configurações de identidade vão desde vendas até orientação de vida, etc.
O plano de fundo do chat também pode ser alterado de acordo com a escolha do usuário, não se limitando ao cenário do escritório.
Ao mesmo tempo, tambémCapacidade de inserir manualmente o contexto do conteúdo da conversa。
Pode-se dizer que o grau de personalização é bastante elevado.
Atualmente existe uma versão gratuita e uma versão paga, correspondentes aos diferentes direitos e interesses gerados.
Por trás da IA de vídeo conversacional Tavus está o modelo Phoenix-2 desenvolvido pela própria equipe Tavus.
Esta é uma combinação de modelos 3D baseados em áudio e texto e GANs 2D que podem gerar vídeos curtos realistas de 1 a 2 minutos.
O processo de geração é dividido basicamente nas quatro etapas a seguir:
TTS (Text to Speech) – Reconstrução 3D de cabeça e ombros – Animação facial orientada por script de palavras imediatas – Renderização de alta fidelidade.
△ Ajuste fino de detalhes geométricos faciais por meio de renderização diferencial
Para tornar a imagem de IA que fala com o usuário mais realista, quando a equipe Tavus construiu o pipeline de renderização de vídeo do Phoenix-2,Respingos GAN e Gaussianos 3D combinados.
A razão para isso é que os GANs tradicionais são geralmente limitados pela resolução da imagem, enquanto os modelos de volume sempre carecem de consistência temporal.
Portanto, Tavus pensou em combinar os dois.
O treinamento do GAN requer grandes conjuntos de dados e recursos computacionais caros e, devido à sua natureza bidimensional e problemas de consistência temporal, o tempo de inferência e a qualidade do vídeo são geralmente limitados.
Tavus usa modelos 3D como “intermediários” para alcançar renderizações de mais de 100 FPS e alcançar um maior grau de controlabilidade e versatilidade devido às restrições de percepção física em torno de objetos dinâmicos.
△Compare as diferenças entre modelos de fala com cabeça 2D e 3D
Além disso, a melhoria do modelo Phoenix-2 em comparação com a série anterior é que ele substitui o NeRF do modelo Phoenix de primeira geração.
Passando para o 3D Gaussian Splashing, aprendemos a apresentar como gerar deformação facial dinâmica no espaço 3D e usar essas informações para renderizar visualizações com base em áudio invisível.
Os membros da equipe disseram que, comparado ao NeRF, o 3D Gaussian Splash tem melhor desempenho em termos de dados, memória, complexidade computacional, processo e eficiência de renderização.
O pipeline do modelo Phoenix-2 baseado em splashing gaussiano 3D pode ser treinado 70% mais rápido que o modelo original e renderizado a mais de 60 FPS.
Tavo disse:Durante a conversa, há detecção de fim de turno e interrompibilidade, fazendo com que a conversa pareça mais real para o usuário.
Além disso, como as informações faciais são muito confidenciais, a equipe fornece verificações de segurança, protocolos de segurança, moderação automatizada de conteúdo e verificações anti-alucinações para proteger a segurança das informações.
Vale ressaltar que os modelos da série Phoenix também suportam outro produto Tavus -
Gere vídeos de conversas de gêmeos digitais de usuários.
Você só precisa fornecer 2 minutos de material e gastar US$ 1 (inicial) para chamar a API para gerar conteúdo de vídeo.
A dica oficial pode fornecer uma solução ponta a ponta com os seguintes recursos:
A equipe Tavus é uma startup de vídeo de IA de quatro anos em pequena escala.
A maioria dos membros vem da Amazon, Descript, Google e Apple, etc.
Informações públicas mostram que, a partir de março deste ano, a empresa recebeu investimentos Série A da Sequoia, Scale VC e YC, com um valor de financiamento de aproximadamente US$ 18 milhões.
O cofundador e CEO da Tavus é nomeadoHassaan Raza。
Trabalhou no Google e na Apple.
O cofundador e COO da empresa deixou uma mensagem no Producthunt, dizendo que a produção de IA de vídeo conversacional demorou muito, com aproximadamente milhares de horas gastas em pesquisa, engenharia e construção.
E por que devemos buscar um atraso de 1 segundo ou menos?
A resposta oficial também é dada emSimule conversas de vídeo entre humanos o mais fielmente possível:
Porque se a velocidade de reação não for inferior a 1 segundo, então (a pessoa que está conversando com você do outro lado) não é um ser humano.
Links de referência:
[1]https://www.tavus.io/careers
[2]https://x.com/heytavus/status/1824075891271749903
[3]https://www.producthunt.com/posts/conversational-replicas-by-tavus