"Hänellä" on kuva! Soita videopuheluita tekoälylle lähes viivytyksettä, Sequoia YC invested

"Hänellä" on kuva! Soita videopuheluita tekoälylle lähes viivytyksettä, Sequoia YC on panostanut siihen

2024-08-16

Historian nopein keskusteluvideo-AI on täällä!Viive alle sekunnin！

Päästä päähän voit kuunnella, nähdä, puhua ja saada kuvia.

Tämä tuote ei ole peräisin yrityksiltä, kuten OpenAI tai HeyGen, jotka ovat jo osoittaneet kykynsä aiemmin, eikä sillä ole erityistä nimeä.

Koska se tulee yrittäjätiimiltäTavus, joten sitä kutsutaan myös Tavusin Conversational Replicaksi.

Päätoiminto on rakentaa mukaansatempaava tekoälyn luoma videokokemus.

Tänään lanseerattuaan se on noussut Producthuntin kuuman uutuustuotelistan kärkeen tänään, ja tykkäysmäärät ovat edelleen nousussa.

Tavus virallinen tiivistää tuotteen ominaisuudet kaikille:

Viive alle sekunnin
Realistinen, älykäs digitaalinen kaksoispari
Plug and play -päästä päähän -rakennuspalikat
Modulaariset, muokattavissa olevat komponentit, kuten LLM-puhesynteesi

Nettimiehet olivat innoissaan nähdessään:

Okei, nyt on "joku" pitämään ZOOM-videoneuvottelun minulle hahahaha!

Monet nettiläiset pitävät tätä myösParempi ihmisen ja tietokoneen vuorovaikutusliittymä kuin asiakirjojen lukeminen tai chattailu。

Tämä keskusteluvideokäyttöliittymä on pelin vaihtaja!
Voin jo kuvitella loputtomat mahdollisuudet mukaansatempaaviin kokemuksiin.

Voit kokeilla sitä verkossa 2 minuutin ajan

Tämän viestin nähtyään Qubit ryntäsi Tavusin viralliselle verkkosivustolle sekunnissa.

Virallisella verkkosivustolla voit kokea 2 minuutin "historian nopeimman keskusteluvideon" verkossa.

Nykyisten asetusten mukaanKokemuksen aikana keskustelukumppanina oli Tavusin luoma Carter。

Carter on AI-videotutkimusyrityksen Tavusin työntekijä, joka vastaa huumorilla ja on avulias.

Tämä on mies alla:

Vaikka Carter on avatar, videokeskustelu hänen kanssaan on kuin videokeskustelu omien ystäviesi kanssa.

Viranomaiset suosittelevat, että kameran ja mikrofonin valtuutuksen jälkeen yritä pysyä hiljaisessa huoneessa, kun juttelet Carterin kanssa.

Carter mainitsi keskustelun aikana, että jotkin aiheet, joista ihmiset haluavat keskustella hänen kanssaan eniten, sen lisäksi, että häneltä kysytään Tavusin käyttämästä tekoälyteknologiasta, ovat päivittäisten ajatusten jakaminen ja vitsien kertominen.

Hän kertoi vitsin paikan päällä:

Kysy, miksi pyörä ei voi vain seistä siellä yksinään?
Vastaus on, koska se on liian väsynyt (kaksi rengasta).

Lopetettuaan puhumisen Carter itse hurrasi ja nauroi kahdesti.

Olen myös itse kokenut qubitin 2 minuutin ajan, ja yleinen kokemukseni on seuraava:

Ensin TavusVastausnopeus on todella nopealinjassa virallisen väitteen "yhdessä sekunnissa" kanssa.

Vaikka kuulisit yhtäkkiä äänen hänen puhuessaan, Carter pysähtyy välittömästi kuuntelemaan viimeisintä lausuntoasi.

Toiseksi, vaikka se virallisesti väittää tukevansa yli 30 kieltä, hän vastaa aina kysymyksiin riippumatta siitä, esitätkö kysymyksiä kiinaksi tai englanniksi.Ei osaa puhua kiinaa。

Kun kysyimme häneltä "Puhummeko kiinaa", Carter vastasi: "Puhuisin mieluummin englanniksi!"

Kolmanneksi Tavusin tekoälyVoit todellakin "nähdä silmilläsi"。

Qubit-oikeudenkäynnin aikana olin nolostunut jossain vaiheessa enkä tiennyt mitä kysyä, joten saatoin vain nauraa.

Carter puhui heti:

Voi! Näytät minulle hymyn~

Neljänneksi demoversiossa CarterinSuun muoto ja puhutut sanat voidaan lähes täysin synkronoida。

Ei ihme, miksi jotkut nettimiehet sanoivat kokeiltuaan:

Se on todella vaikuttava, sillä on nopeat vasteajat ja erinomaiset videon ja äänen luontiominaisuudet.

Rekisteröidy nyt vain käyttääksesi Tavusin keskusteluvideo-AI:ta.

Virallisessa versiossaCarter ei ole ainoa vuoropuheluun käytettävissä oleva tekoälyhahmoOn miehiä ja naisia, ja identiteettiasetukset vaihtelevat myynnistä elämänohjaukseen jne.

Keskustelun taustaa voidaan myös vaihtaa käyttäjän valinnan mukaan, ei rajoittuen toimistotilanteeseen.

Samalla myösMahdollisuus syöttää manuaalisesti konteksti keskustelun sisällölle。

Voidaan sanoa, että personointiaste on melko korkea.

Tällä hetkellä on ilmainen versio ja maksullinen versio, jotka vastaavat erilaisia luotuja oikeuksia ja etuja.

Kehitetty itsetutkimuksen mallin perusteella

Tavus-keskusteluvideon tekoälyn takana on Tavus-tiimin itse kehittämä Phoenix-2-malli.

Tämä on yhdistelmä ääni- ja tekstiohjattuja 3D-malleja ja 2D GANeja, jotka voivat tuottaa realistisia lyhyitä 1-2 minuutin videoita.

Luontiprosessi on karkeasti jaettu seuraaviin neljään vaiheeseen:

TTS (Text to Speech) – pään ja hartioiden 3D-rekonstruktio – Sanakirjoituspohjainen kasvojen animaatio – Korkealaatuinen renderöinti.

△ Hienosäätää kasvojen geometrisia yksityiskohtia differentiaalisen renderöinnillä

Jotta käyttäjälle puhuttava tekoälykuva olisi realistisempi, kun Tavus-tiimi rakensi Phoenix-2:n videon renderöintiputken,Yhdistetty GAN ja 3D Gaussin roiske.

Syynä tähän on se, että perinteisiä GANeja rajoittaa yleensä kuvan resoluutio, kun taas tilavuusmalleista puuttuu aina ajallinen johdonmukaisuus.

Siksi Tavus ajatteli yhdistää nämä kaksi.

GAN-koulutus vaatii suuria tietojoukkoja ja kalliita laskentaresursseja, ja sen kaksiulotteisuuden ja ajallisen johdonmukaisuuden vuoksi päättelyaika ja videon laatu ovat yleensä rajallisia.

Tavus käyttää 3D-malleja "välituotteina" saavuttaakseen yli 100 FPS:n renderöinnit ja saavuttaakseen korkeamman hallittavuuden ja monipuolisuuden dynaamisten kohteiden ympärillä olevien fyysisten havaintorajoitusten vuoksi.

△Vertaa eroja 2D- ja 3D-pääpuhuvien mallien välillä

Lisäksi Phoenix-2-mallin parannus edelliseen sarjaan verrattuna on, että se korvaa ensimmäisen sukupolven Phoenix-mallin NeRF:n.

Siirryn 3D Gaussian Splashingiin, opimme esittelemään, kuinka dynaamisia kasvojen muodonmuutoksia voidaan ohjata 3D-avaruudessa ja käyttää näitä tietoja näkemysten renderöimiseen näkemättömän äänen perusteella.

Tiimin jäsenet sanoivat, että NeRF:ään verrattuna 3D Gaussian Splash toimii paremmin tietojen, muistin, laskennan monimutkaisuuden, prosessin ja renderöintitehokkuuden suhteen.

Phoenix-2-mallin putkilinjaa, joka perustuu 3D Gaussian roiskumiseen, voidaan harjoitella 70 % nopeammin kuin alkuperäinen malli ja renderöidä 60+ FPS:llä.

Tavus sanoi,Keskustelun aikana on vuorokauden lopun tunnistus ja keskeytettävyys, jolloin keskustelu tuntuu käyttäjälle todellisemmalta.

Lisäksi, koska kasvotiedot ovat erittäin arkaluonteisia, tiimi tarjoaa tietoturvatarkistuksia, suojausprotokollia, automaattisen sisällön moderoinnin ja hallusinaatioiden vastaisia tarkistuksia tietoturvan suojaamiseksi.

On syytä mainita, että Phoenix-sarjan mallit tukevat myös toista Tavus-tuotetta -

Luo keskusteluvideoita käyttäjien digitaalisista kaksosista.

Sinun tarvitsee tarjota vain 2 minuuttia materiaalia ja kuluttaa 1 dollari (alkaen) kutsuaksesi sovellusliittymää videosisällön luomiseksi.

Virallinen vinkki voi tarjota päästä päähän -ratkaisun seuraavilla ominaisuuksilla:

Käytä API:ita turvallisten ja todellisten digitaalisten kaksosten tai tekoälyagenttien rakentamiseen
Mukauta LLM, dialogihahmot ja taustat
Suoratoista keskusteluja sulautetuissa konferenssihuoneissa
Tallenna, litteroi ja jaa keskusteluja
Käsittele suurta liikennettä tuotantotason skaalautuvuuden avulla

"Jos et ole <1s, et ole enää ihminen."

Tavus-tiimi on neljä vuotta vanha pienimuotoinen tekoälyvideostartup.

Suurin osa jäsenistä tulee Amazonista, Descriptistä, Googlesta ja Applesta jne.

Julkiset tiedot osoittavat, että tämän vuoden maaliskuusta lähtien yritys on saanut Sequoialta, Scale VC:ltä ja YC:ltä A-sarjan sijoituksia, joiden rahoitusmäärä on noin 18 miljoonaa dollaria.

Tavusen toinen perustaja ja toimitusjohtaja on nimettyHassaan Raza。

Työskenteli Googlella ja Applella.

Yrityksen toinen perustaja ja operatiivinen johtaja jättivät Producthuntiin viestin, jossa kerrottiin, että keskusteluvideon tekoälyn tuottaminen kesti kauan, ja noin tuhansia tunteja käytettiin tutkimukseen, suunnitteluun ja rakentamiseen.

Entä miksi meidän pitäisi jatkaa 1 sekunnin tai vähemmän viivettä?

Virallinen vastaus on myös annettuSimuloi ihmisten välisiä videokeskusteluja mahdollisimman tarkasti：

Koska jos reaktionopeus on vähintään 1 sekunti, niin (henkilö, joka juttelee kanssasi toisella puolella) ei ole ihminen.

Viitelinkit:
[1]https://www.tavus.io/careers
[2]https://x.com/heytavus/status/1824075891271749903
[3]https://www.producthunt.com/posts/conversational-replicas-by-tavus

uutiset

"Hänellä" on kuva! Soita videopuheluita tekoälylle lähes viivytyksettä, Sequoia YC on panostanut siihen

Voit kokeilla sitä verkossa 2 minuutin ajan

Kehitetty itsetutkimuksen mallin perusteella

"Jos et ole <1s, et ole enää ihminen."

Johdanto

Yhteystietoni

uutiset

"Hänellä" on kuva! Soita videopuheluita tekoälylle lähes viivytyksettä, Sequoia YC on panostanut siihen

Voit kokeilla sitä verkossa 2 minuutin ajan

Kehitetty itsetutkimuksen mallin perusteella

"Jos et ole &lt;1s, et ole enää ihminen."

Johdanto

Yhteystietoni

"Jos et ole <1s, et ole enää ihminen."