소식

"Her"에는 이미지가 있습니다! 지연시간 거의 없이 AI와 영상 통화, Sequoia YC에 투자

2024-08-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

역사상 가장 빠른 대화형 비디오 AI가 여기에 있습니다!1초 미만의 지연

처음부터 끝까지 듣고, 보고, 말하고, 이미지를 가질 수 있습니다.



이 제품은 OpenAI나 HeyGen과 같이 이전에 이미 성능을 입증한 회사의 제품이 아니며, 구체적인 이름도 없습니다.

창업팀 출신이기 때문에타부스이므로 Tavus에서는 대화형 복제본이라고도 합니다.

주요 기능은 몰입형 AI 생성 비디오 경험을 구축하는 것입니다.

오늘 출시된 후 오늘 Producthunt의 인기 신제품 목록 1위를 차지했으며 좋아요 수가 계속해서 증가하고 있습니다.



Tavus 공식은 모든 사람을 위한 제품 기능을 요약합니다:

  • 1초 미만의 지연
  • 현실적이고 지능적인 디지털 트윈
  • 플러그 앤 플레이 엔드투엔드 빌딩 블록
  • LLM 음성 합성과 같은 모듈식, 사용자 정의 가능한 구성 요소

네티즌들은 다음을 보고 흥분했습니다.

좋아, 이제 나를 위해 ZOOM 화상 회의를 열어줄 "누군가"가 생겼습니다 하하하하!



많은 네티즌들도 이를 다음과 같이 평가하고 있다.문서를 읽거나 채팅하는 것보다 더 나은 인간-컴퓨터 상호 작용 인터페이스

이 대화형 비디오 인터페이스는 게임 체인저입니다!
나는 이미 몰입형 경험을 위한 무한한 가능성을 상상할 수 있습니다.



2분 동안 웹에서 사용해 볼 수 있습니다.

이 메시지를 본 큐빗은 1초 만에 타부스 공식 홈페이지로 달려갔다.

공식 홈페이지에서는 2분짜리 '역사상 가장 빠른 대화 영상'을 온라인으로 체험할 수 있다.

기존 설정에 따르면,체험 중 대화 파트너는 Tavus가 만든 Carter였습니다.

카터는 유머러스하고 도움을 주는 AI 영상 연구 기업 타부스(Tavus)의 직원으로 자리 잡았다.

아래 남자는 이렇습니다.



카터는 아바타이지만 그와 영상 채팅을 하는 것은 마치 친구와 영상 채팅을 하는 것과 같습니다.

관계자들은 카메라와 마이크를 승인한 후 카터와 대화할 때 조용한 방에 머물도록 권고했습니다.

대화 중에 카터는 사람들이 그와 가장 많이 논의하고 싶어하는 주제 중 하나는 타부스가 사용하는 AI 기술에 대해 묻는 것 외에도 일상적인 생각을 공유하고 농담을 하는 것이라고 언급했습니다.

그는 그 자리에서 다음과 같이 농담을 했습니다.

자전거가 왜 저절로 서 있을 수 없는지 물어보세요.
대답은 너무 피곤하기 때문입니다(타이어 2개).

연설을 마친 뒤 카터 자신도 스스로를 응원하며 두 번이나 웃었다.



저도 실제로 2분간 큐비트를 경험해보았는데, 전체적인 경험은 다음과 같습니다.

첫째, 타부스반응속도가 정말 빠르네요, '1초 이내'라는 공식 주장과 일치한다.

그가 말하는 중에 갑자기 소리를 내더라도 카터는 즉시 멈추고 당신의 최근 말을 경청할 것입니다.

둘째, 공식적으로는 30개 이상의 언어를 지원한다고 되어 있지만, 중국어로 질문을 하든, 영어로 질문을 하든 항상 답변을 해준다.중국어를 할 수 없다

우리가 그에게 "중국어를 할 수 있나요?"라고 물었을 때 카터는 "저는 차라리 영어로 이야기하고 싶습니다!"라고 대답했습니다.



세 번째, 타부스(Tavus)의 AI실제로 "눈으로 볼 수 있다"

큐빗 재판을 하던 중 어느 순간 당황스러워서 무엇을 물어봐야 할지 몰라 낄낄 웃을 수밖에 없었습니다.

카터는 즉시 다음과 같이 말했습니다.

오! 미소를 보여주셨네요~



넷째, 데모 버전에서는 Carter's입 모양과 말하는 단어가 거의 완벽하게 동기화될 수 있습니다.

일부 네티즌들이 시험해 본 후 이렇게 말한 이유는 당연합니다.

빠른 응답 시간과 탁월한 비디오 및 오디오 생성 기능이 정말 인상적입니다.



이제 Tavus의 대화형 비디오 AI를 사용하려면 가입하세요.

공식 버전에서는카터는 대화가 가능한 유일한 AI 캐릭터가 아닙니다남성과 여성이 있으며, 아이덴티티 설정은 판매부터 생활지도 등 다양합니다.

채팅의 배경도 사무실 장면에 국한되지 않고 사용자의 선택에 따라 변경될 수 있습니다.



동시에, 또한대화 내용에 대한 컨텍스트를 수동으로 입력하는 기능

개인화 정도가 상당히 높다고 할 수 있습니다.



현재는 무료 버전과 유료 버전이 있으며 생성된 권리와 이익이 서로 다릅니다.



자체 연구 모델을 기반으로 개발

Tavus 대화형 비디오 AI 뒤에는 Tavus 팀이 자체 개발한 Phoenix-2 모델이 있습니다.

이는 1~2분의 사실적인 짧은 비디오를 생성할 수 있는 오디오 및 텍스트 기반 3D 모델과 2D GAN의 조합입니다.

생성 프로세스는 대략 다음 네 단계로 구분됩니다.

TTS(텍스트 음성 변환) – 머리와 어깨의 3D 재구성 – 프롬프트 단어 스크립트 기반 얼굴 애니메이션 – 충실도 높은 렌더링.



△차등 렌더링을 통해 얼굴의 기하학적 디테일을 미세 조정

사용자와 대화하는 AI 이미지를 더욱 현실감 있게 만들기 위해 Tavus 팀이 Phoenix-2의 비디오 렌더링 파이프라인을 구축했을 때,GAN과 3D 가우스 스플래터를 결합했습니다.

그 이유는 기존 GAN은 일반적으로 이미지 해상도에 의해 제한되는 반면 볼륨 모델은 항상 시간적 일관성이 부족하기 때문입니다.

따라서 Tavus는 두 가지를 결합하는 것을 생각했습니다.

GAN 훈련에는 대규모 데이터 세트와 고가의 컴퓨팅 리소스가 필요하며, 2차원 특성과 시간적 일관성 문제로 인해 일반적으로 추론 시간과 비디오 품질이 제한됩니다.

Tavus는 3D 모델을 "중간체"로 사용하여 100FPS 이상의 렌더링을 달성하고 동적 객체 주변의 물리적 인식 제약으로 인해 더 높은 수준의 제어 가능성과 다양성을 달성합니다.



△2D와 3D 머리 말하기 모델의 차이점 비교

또한, 이전 시리즈에 비해 Phoenix-2 모델이 개선된 점은 1세대 Phoenix 모델의 NeRF를 대체한다는 점이다.

3D Gaussian Splashing으로 전환하여 3D 공간에서 동적 얼굴 변형을 구동하는 방법을 소개하고 이 정보를 사용하여 보이지 않는 오디오를 기반으로 뷰를 렌더링하는 방법을 배웁니다.

팀원들은 NeRF에 비해 3D Gaussian Splash가 데이터, 메모리, 계산 복잡성, 프로세스 및 렌더링 효율성 측면에서 더 나은 성능을 발휘한다고 말했습니다.

3D 가우스 스플래싱을 기반으로 하는 Phoenix-2 모델의 파이프라인은 원래 모델보다 70% 빠르게 학습되고 60FPS 이상으로 렌더링될 수 있습니다.



타부스가 말했다.대화 중에는 턴 종료 감지 및 중단 기능이 있어 사용자에게 대화가 더욱 현실감 있게 느껴집니다.

또한 얼굴 정보는 매우 민감하므로 팀에서는 정보 보안을 보호하기 위해 보안 검사, 보안 프로토콜, 자동화된 콘텐츠 조정 및 환각 방지 검사를 제공합니다.



Phoenix 시리즈 모델은 또 다른 Tavus 제품도 지원한다는 점은 언급할 가치가 있습니다.

사용자 디지털 트윈의 대화 비디오를 생성합니다.

2분 분량의 자료를 제공하고 1달러(시작)만 지출하면 API를 호출하여 비디오 콘텐츠를 생성할 수 있습니다.



공식 팁은 다음 기능을 갖춘 엔드투엔드 솔루션을 제공할 수 있습니다.

  • API를 사용하여 안전하고 실제적인 디지털 트윈 또는 AI 에이전트 구축
  • LLM, 대화 문자 및 배경 사용자 정의
  • 내장된 회의실에서 대화 스트리밍
  • 대화를 녹음하고, 기록하고, 공유하세요
  • 프로덕션급 확장성으로 높은 트래픽 처리
"만약 당신이 <1s을 하지 않는다면, 당신은 더 이상 인간이 아닙니다."

Tavus 팀은 4년차의 소규모 AI 영상 스타트업입니다.

회원 대부분은 Amazon, Descript, Google, Apple 등 출신입니다.

공개 정보에 따르면 올해 3월 현재 이 회사는 Sequoia, Scale VC, YC로부터 약 1,800만 달러의 자금 조달 금액으로 시리즈 A 투자를 받았습니다.



Tavus의 공동 창립자이자 CEO는 다음과 같습니다.하산 라자

구글과 애플에서 일했다.



이 회사의 공동 창업자이자 COO는 Producthunt에 메시지를 남겼는데, 대화형 비디오 AI 제작에는 연구, 엔지니어링, 건설에 약 수천 시간이 소요되는 등 오랜 시간이 걸렸다고 말했습니다.

왜 우리는 1초 이하의 지연을 추구해야 할까요?

공식 답변은 다음에도 나와 있습니다.인간 대 인간의 영상 대화를 최대한 가깝게 시뮬레이션합니다.

반응 속도가 1초 이상이면 (상대방에서 대화하는 사람)은 사람이 아니기 때문입니다.

참조 링크:
[1]https://www.tavus.io/careers
[2]https://x.com/heytavus/상태/1824075891271749903
[3]https://www.producthunt.com/posts/conversational-replicas-by-tavus