「彼女」にはイメージがある！ほぼ遅延なく AI とビデオ通話できる、Sequoia YC invested

「彼女」にはイメージがある！ほとんど遅延なく AI にビデオ通話を発信できるように、Sequoia YC が投資

2024-08-16

史上最速の会話動画AIが登場！遅延は 1 秒未満！

エンドツーエンドで、聞いて、見て、話し、イメージすることができます。

この製品は、OpenAI や HeyGen など、以前に機能を実証済みの企業から提供されたものではなく、特定の名前もありません。

起業家チームから生まれたものだからタバス、そのため、Tavus による会話レプリカとも呼ばれます。

主な機能は、AI が生成した没入型のビデオ体験を構築することです。

本日の発売後、Producthunt の注目の新製品リストのトップに上り詰め、「いいね！」の数は依然として増加しています。

Tavus 公式は、製品の特徴をすべての人に向けて要約しています。

遅延は 1 秒未満
現実的でインテリジェントなデジタルツイン
プラグアンドプレイのエンドツーエンドビルディングブロック
LLM音声合成などのモジュール式のカスタマイズ可能なコンポーネント

ネチズンはこれを見て興奮しました。

さて、今、私のためにZOOMビデオ会議を開催してくれる「人」がいます、ははは！

多くのネチズンもこれを次のように考えています文書を読んだりチャットしたりするよりも優れた人間とコンピューターの対話インターフェイス。

この会話型ビデオインターフェイスはゲームチェンジャーです。
没入型体験の無限の可能性をすでに想像できます。

ウェブ上で2分間お試しいただけます

このメッセージを見た Qubit は、1 秒以内に Tavus の公式 Web サイトにアクセスしました。

公式サイトでは、2分間の「史上最速会話動画」をオンラインで体験できる。

既存の設定によると、体験中の会話相手は、Tavus が作成した Carter でした。。

カーターは、AI ビデオ調査会社である Tavus の従業員として位置づけられており、ユーモアを交えて対応し、親切に対応します。

それが下の男性です。

カーターはアバターですが、彼とのビデオチャットは自分の友達とのビデオチャットのようなものです。

当局は、カメラとマイクを許可した後、カーター氏とチャットするときは静かな部屋に留まるように努めることを推奨している。

会話の中でカーター氏は、人々が彼と最も話したがる話題は、テイバス氏が使用しているAI技術について尋ねること以外に、日々の考えを共有したりジョークを言ったりすることだと述べた。

彼はその場でこんな冗談を言いました。

なぜ自転車が自立できないのか考えてみましょう。
答えは、疲れすぎているからです（タイヤが2本）。

話し終えた後、カーター自身も自分を応援し、二度笑った。

私も実際に量子ビットを2分間体験しましたが、全体的な感想は以下の通りです。

まずはテイヴァス応答速度は本当に速いです、「1秒以内」という公式の主張に沿っています。

たとえ話中に突然音を立てても、カーターはすぐに立ち止まってあなたの最新の発言を聞きます。

次に、公式には30以上の言語に対応していると謳っていますが、中国語で質問しても英語で質問しても、必ず答えてくれます。中国語が話せない。

私たちが彼に「中国語を話せますか？」と尋ねると、カーターは「むしろ英語で話したいです！」と答えました。

第三に、Tavus の AIまさに「目で見る」ことができる。

量子ビットの試用中、私はある時点で恥ずかしくて何を質問すればよいのかわからず、くすくすと笑うことしかできませんでした。

カーターはすぐにこう言いました。

おお！笑顔を見せてくれましたね～

4 番目に、デモ版では、カーターズ口の形と話す言葉をほぼ完全に同期させることができる。

一部のネチズンが試した後に次のように言ったのも不思議ではありません。

応答速度が速く、ビデオとオーディオの優れた生成機能を備えているため、非常に優れています。

サインアップするだけで、Tavus の会話型ビデオ AI を使用できます。

正式版では、対話可能な AI キャラクターはカーターだけではありません男女がおり、身分設定は営業から生活指導など多岐にわたります。

オフィスシーンに限らず、チャットの背景もユーザーの好みに応じて変更できます。

同時に、また、会話内容のコンテキストを手動で入力する機能。

個性化度はかなり高いと言えるだろう。

現在、生成されるさまざまな権利と利益に対応する無料版と有料版があります。

自己研究モデルに基づいて開発

Tavus 会話型ビデオ AI の背後には、Tavus チームが自社開発した Phoenix-2 モデルがあります。

これは、オーディオおよびテキスト駆動の 3D モデルと 2D GAN を組み合わせたもので、1 ～ 2 分のリアルな短いビデオを生成できます。

生成プロセスは大きく次の 4 つのステップに分かれます。

TTS (Text to Speech) – 頭と肩の 3D 再構成 – プロンプトワードスクリプトによる顔のアニメーション – 高忠実度のレンダリング。

△差分レンダリングによる顔の幾何学的ディテールの微調整

ユーザーに語りかけるAI画像をよりリアルにするため、TavusチームがPhoenix-2のビデオレンダリングパイプラインを構築した際、GAN と 3D ガウススプラッターを組み合わせたもの。

その理由は、従来の GAN は通常、画像解像度によって制限されるのに対し、ボリュームモデルは常に時間的な一貫性を欠いているためです。

そこで、テイヴァスはこの 2 つを組み合わせることを考えました。

GAN のトレーニングには大規模なデータセットと高価なコンピューティングリソースが必要ですが、その 2 次元の性質と時間的一貫性の問題により、推論時間とビデオ品質は通常制限されます。

Tavus は 3D モデルを「中間物」として使用して 100 FPS を超えるレンダリングを実現し、動的オブジェクトの周囲の物理的知覚の制約により、より高度な制御性と多用途性を実現します。

△2Dヘッドスピーキングモデルと3Dヘッドスピーキングモデルの違いを比較

さらに、以前のシリーズと比較した Phoenix-2 モデルの改良点は、第 1 世代 Phoenix モデルの NeRF を置き換えたことです。

3D ガウススプラッシングに目を向けると、3D 空間で顔の動的な変形を駆動し、この情報を使用して目に見えないオーディオに基づいてビューをレンダリングする方法を学びます。

チームメンバーは、NeRF と比較して、3D Gaussian Splash はデータ、メモリ、計算の複雑さ、プロセス、レンダリング効率の点でパフォーマンスが優れていると述べました。

3D ガウススプラッシュに基づく Phoenix-2 モデルのパイプラインは、元のモデルより 70% 高速にトレーニングでき、60 FPS 以上でレンダリングできます。

テイヴァス氏はこう語った。会話中にターン終了の検出と中断が行われるため、ユーザーは会話がよりリアルに感じられます。

さらに、顔情報は非常に機密性が高いため、チームは情報セキュリティを保護するために、セキュリティチェック、セキュリティプロトコル、自動コンテンツモデレーション、幻覚防止チェックを提供しています。

Phoenix シリーズモデルは別の Tavus 製品もサポートしていることは言及する価値があります。

ユーザーのデジタルツインの会話ビデオを生成します。

2 分間の素材を提供し、API を呼び出してビデオコンテンツを生成するのに 1 ドル (開始) を費やすだけです。

公式ヒントでは、次の機能を備えたエンドツーエンドのソリューションを提供できます。

API を使用して安全で本物のデジタルツインまたは AI エージェントを構築する
LLM、会話文字、背景をカスタマイズ
組み込みの会議室で会話をストリーミングする
会話を録音、文字起こし、共有
実稼働グレードの拡張性で高トラフィックを処理

「1秒未満でなければ、あなたはもはや人間ではありません。」

Tavus チームは、設立 4 年の小規模な AI ビデオスタートアップです。

メンバーのほとんどは、Amazon、Descript、Google、Apple などの出身です。

公開情報によると、今年3月の時点で同社はSequoia、Scale VC、YCからシリーズA投資を受けており、資金調達額は約1,800万米ドルとなっている。

Tavusの共同創設者兼CEOが指名されるハッサン・ラザ。

GoogleとAppleで働いていました。

同社の共同創設者兼最高執行責任者（COO）はProducthuntにメッセージを残し、会話型ビデオAIの制作には長い時間がかかり、研究、エンジニアリング、構築に約数千時間を費やしたと述べた。

なぜ 1 秒以下の遅延を追求する必要があるのでしょうか?

公式の回答も次のとおりです。人間同士のビデオ会話を可能な限り忠実にシミュレート：

反応速度が1秒以上だと、（向こうでチャットしている人は）人間ではないからです。

参考リンク:
[1]https://www.tavus.io/careers
[2]https://x.com/heytavus/status/1824075891271749903
[3]https://www.producthunt.com/posts/conversational-replicas-by-tavus

ニュース

「彼女」にはイメージがある！ほとんど遅延なく AI にビデオ通話を発信できるように、Sequoia YC が投資

ウェブ上で2分間お試しいただけます

自己研究モデルに基づいて開発

「1秒未満でなければ、あなたはもはや人間ではありません。」

導入

私の連絡先情報