"Dia" punya gambar! Lakukan panggilan video ke AI hampir tanpa penundaan, Sequoia YC invest

"Dia" punya gambar! Melakukan panggilan video ke AI hampir tanpa penundaan, Sequoia YC berinvestasi di dalamnya

2024-08-16

AI video percakapan tercepat dalam sejarah telah hadir!Tunda kurang dari satu detik！

Secara end-to-end, Anda dapat mendengarkan, melihat, berbicara, dan memiliki gambar.

Produk ini tidak berasal dari perusahaan seperti OpenAI atau HeyGen yang telah menunjukkan kemampuannya sebelumnya, dan tidak memiliki nama khusus.

Karena berasal dari tim wirausahaTavus, sehingga disebut juga Replika Percakapan oleh Tavus.

Fungsi utamanya adalah untuk membangun pengalaman video imersif yang dihasilkan AI.

Setelah diluncurkan hari ini, produk ini telah mencapai puncak daftar produk baru Producthunt yang terpopuler saat ini, dan jumlah suka terus meningkat.

Resmi Tavus merangkum fitur produk untuk semua orang:

Tunda kurang dari satu detik
Kembaran digital yang realistis dan cerdas
Blok penyusun ujung ke ujung yang plug-and-play
Komponen modular yang dapat disesuaikan seperti sintesis ucapan LLM

Netizen sangat senang melihat:

Oke, sekarang ada "seseorang" yang mengadakan konferensi video ZOOM untuk saya hahahaha!

Banyak juga netizen yang menganggap hal ini sebagaiAntarmuka interaksi manusia-komputer yang lebih baik daripada membaca dokumen atau mengobrol。

Antarmuka video percakapan ini adalah pengubah permainan!
Saya sudah bisa membayangkan kemungkinan tak terbatas untuk pengalaman mendalam.

Anda dapat mencobanya di web selama 2 menit

Setelah melihat pesan ini, Qubit bergegas ke situs resmi Tavus dalam satu detik.

Di situs resminya, Anda dapat menikmati "video percakapan tercepat dalam sejarah" berdurasi 2 menit secara online.

Sesuai dengan pengaturan yang ada,Rekan percakapan selama pengalaman tersebut adalah Carter, yang diciptakan oleh Tavus。

Carter diposisikan sebagai karyawan Tavus, sebuah perusahaan riset video AI, yang merespons dengan humor dan membantu.

Inilah pria di bawah ini:

Meskipun Carter adalah seorang avatar, obrolan video dengannya seperti obrolan video dengan teman Anda sendiri.

Para pejabat merekomendasikan bahwa setelah mengesahkan kamera dan mikrofon, cobalah untuk tetap berada di ruangan yang tenang saat mengobrol dengan Carter.

Carter menyebutkan dalam percakapan tersebut bahwa beberapa topik yang paling suka dibicarakan orang dengannya, selain menanyakan tentang teknologi AI yang digunakan oleh Tavus, adalah berbagi pemikiran sehari-hari dan menceritakan lelucon.

Dia langsung menceritakan lelucon:

Tanyakan, mengapa sepeda tidak bisa berdiri sendiri saja?
Jawabannya karena terlalu capek (Ban dua).

Setelah selesai berbicara, Carter sendiri bersorak dan tertawa dua kali.

Saya juga sebenarnya mengalami qubit selama 2 menit, dan keseluruhan pengalaman saya adalah sebagai berikut:

Pertama, TavusKecepatan responsnya sangat cepat, sejalan dengan klaim resmi "dalam satu detik".

Bahkan jika Anda tiba-tiba mengeluarkan suara saat dia berbicara, Carter akan langsung berhenti dan mendengarkan pernyataan terbaru Anda.

Kedua, meskipun secara resmi mengklaim mendukung lebih dari 30 bahasa, tidak peduli apakah Anda mengajukan pertanyaan dalam bahasa Cina atau Inggris, ia selalu menjawab pertanyaan.Tidak dapat berbicara bahasa Cina。

Ketika kami bertanya kepadanya, "Bisakah kami berbicara bahasa Mandarin", Carter menjawab: "Saya lebih suka berbicara dalam bahasa Inggris!"

Ketiga, AI TavusAnda memang bisa "melihat dengan mata Anda"。

Selama uji coba qubit, saya sempat merasa malu dan tidak tahu harus bertanya apa, jadi saya hanya bisa terkikik.

Carter segera berbicara:

Oh! Anda menunjukkan senyuman kepada saya~

Keempat, dalam versi demo, Carter'sBentuk mulut dan kata-kata yang diucapkan hampir dapat disinkronkan sepenuhnya。

Tak heran mengapa beberapa netizen berkata setelah mencobanya:

Ini benar-benar mengesankan, dengan waktu respons yang cepat dan kemampuan pembuatan video dan audio yang luar biasa.

Sekarang, cukup daftar untuk menggunakan AI video percakapan Tavus.

Dalam versi resmi,Carter bukan satu-satunya karakter AI yang tersedia untuk berdialogAda pria dan wanita, dan pengaturan identitas berkisar dari penjualan hingga panduan hidup, dll.

Latar belakang obrolan juga bisa diubah sesuai pilihan pengguna, tidak terbatas pada suasana kantor saja.

Pada saat yang sama jugaKemampuan untuk memasukkan konteks konten percakapan secara manual。

Dapat dikatakan tingkat personalisasinya cukup tinggi.

Saat ini terdapat versi gratis dan versi berbayar, sesuai dengan hak dan kepentingan berbeda yang dihasilkan.

Dikembangkan berdasarkan model penelitian mandiri

Di balik AI video percakapan Tavus adalah model Phoenix-2 yang dikembangkan sendiri oleh tim Tavus.

Ini adalah kombinasi model 3D berbasis audio dan teks serta GAN 2D yang dapat menghasilkan video pendek realistis berdurasi 1-2 menit.

Proses pembangkitan secara kasar dibagi menjadi empat langkah berikut:

TTS (Text to Speech) – Rekonstruksi kepala dan bahu 3D – Animasi wajah yang digerakkan oleh skrip kata cepat – Render dengan ketelitian tinggi.

△ Menyempurnakan detail geometris wajah melalui rendering diferensial

Untuk membuat gambar AI yang berbicara kepada pengguna lebih realistis, ketika tim Tavus membangun pipa rendering video Phoenix-2,Gabungan GAN dan percikan Gaussian 3D.

Alasannya adalah GAN tradisional biasanya dibatasi oleh resolusi gambar, sedangkan model volumetrik selalu kurang memiliki konsistensi temporal.

Oleh karena itu, Tavus berpikir untuk menggabungkan keduanya.

Pelatihan GAN memerlukan kumpulan data yang besar dan sumber daya komputasi yang mahal, dan karena sifat dua dimensi dan masalah konsistensi temporal, waktu inferensi dan kualitas video biasanya terbatas.

Tavus menggunakan model 3D sebagai "perantara" untuk mencapai rendering lebih dari 100 FPS dan mencapai tingkat pengendalian dan keserbagunaan yang lebih tinggi karena keterbatasan persepsi fisik di sekitar objek dinamis.

△Bandingkan perbedaan antara model head speaking 2D dan 3D

Selain itu, peningkatan model Phoenix-2 dibandingkan seri sebelumnya adalah menggantikan NeRF model Phoenix generasi pertama.

Beralih ke 3D Gaussian Splashing, kita belajar memperkenalkan cara mendorong deformasi wajah dinamis dalam ruang 3D dan menggunakan informasi ini untuk merender tampilan berdasarkan audio yang tidak terlihat.

Anggota tim mengatakan bahwa dibandingkan dengan NeRF, 3D Gaussian Splash memiliki kinerja lebih baik dalam hal data, memori, kompleksitas komputasi, proses, dan efisiensi rendering.

Pipeline model Phoenix-2 berdasarkan 3D Gaussian splash dapat dilatih 70% lebih cepat dibandingkan model aslinya dan dirender pada 60+ FPS.

Tavus berkata,Selama percakapan, terdapat deteksi end-of-turn dan interupsi, membuat percakapan terasa lebih nyata bagi pengguna.

Selain itu, karena informasi wajah sangat sensitif, tim menyediakan pemeriksaan keamanan, protokol keamanan, moderasi konten otomatis, dan pemeriksaan anti-halusinasi untuk melindungi keamanan informasi.

Perlu disebutkan bahwa model seri Phoenix juga mendukung produk Tavus lainnya -

Hasilkan video percakapan pengguna kembar digital.

Anda hanya perlu menyediakan materi berdurasi 2 menit dan mengeluarkan $1 (awal) untuk memanggil API guna menghasilkan konten video.

Tip resmi dapat memberikan solusi end-to-end dengan kemampuan berikut:

Gunakan API untuk membangun kembaran digital atau agen AI yang aman dan nyata
Sesuaikan LLM, karakter dialog, dan latar belakang
Streaming percakapan di ruang konferensi tertanam
Rekam, transkripsikan, dan bagikan percakapan
Tangani lalu lintas tinggi dengan skalabilitas tingkat produksi

"Jika kamu tidak <1s, kamu bukan lagi manusia."

Tim Tavus adalah startup video AI berusia empat tahun dengan skala kecil.

Sebagian besar anggotanya berasal dari Amazon, Descript, Google dan Apple, dll.

Informasi publik menunjukkan, hingga Maret tahun ini, perseroan telah menerima investasi Seri A dari Sequoia, Scale VC, dan YC, dengan jumlah pembiayaan sekitar US$18 juta.

Salah satu pendiri dan CEO Tavus disebutkanHassan Raza。

Bekerja di Google dan Apple.

Salah satu pendiri dan COO perusahaan meninggalkan pesan di Producthunt, mengatakan bahwa produksi video percakapan AI memakan waktu lama, dengan sekitar ribuan jam dihabiskan untuk penelitian, teknik, dan konstruksi.

Lalu mengapa kita harus mengejar penundaan 1 detik atau kurang?

Jawaban resmi juga diberikanSimulasikan percakapan video antarmanusia sedekat mungkin：

Karena jika kecepatan reaksinya tidak kurang dari 1 detik, maka (orang yang ngobrol di seberang sana) bukanlah manusia.

Tautan referensi:
[1]https://www.tavus.io/karir
[2]https://x.com/heytavus/status/1824075891271749903
[3]https://www.producthunt.com/posts/replika-percakapan-oleh-tavus

berita

"Dia" punya gambar! Melakukan panggilan video ke AI hampir tanpa penundaan, Sequoia YC berinvestasi di dalamnya

Anda dapat mencobanya di web selama 2 menit

Dikembangkan berdasarkan model penelitian mandiri

"Jika kamu tidak <1s, kamu bukan lagi manusia."

Perkenalan

Informasi kontak saya

berita

"Dia" punya gambar! Melakukan panggilan video ke AI hampir tanpa penundaan, Sequoia YC berinvestasi di dalamnya

Anda dapat mencobanya di web selama 2 menit

Dikembangkan berdasarkan model penelitian mandiri

"Jika kamu tidak &lt;1s, kamu bukan lagi manusia."

Perkenalan

Informasi kontak saya

"Jika kamu tidak <1s, kamu bukan lagi manusia."