OpenAI avaa GPT-4o-äänitilan joillekin maksaville käyttäjille tarjoten luonnollisempia reaaliaikaisia keskusteluja

2024-07-31

IT House kertoi 31. heinäkuuta, että OpenAI ilmoitti 30. paikallista aikaa avaavansa GPT-4o-äänitilan (IT Housen huomautus: Alpha-versio) joillekin ChatGPT Plus -käyttäjille tästä lähtien ja mainostaa sitä vähitellen kaikille ChatGPT:lle. tänä syksynä Plus-tilaaja.

Tämän vuoden toukokuussa OpenAI:n teknologiajohtaja Mira Murati mainitsi puheessaan:

GPT-4o:ssa koulutimme uuden yhtenäisen mallin päästä päähän tekstin, näön ja äänen välillä, mikä tarkoittaa, että kaikki tulot ja lähdöt käsitellään samassa hermoverkossa. Koska GPT-4o on ensimmäinen mallimme, jossa yhdistyvät kaikki nämä tilat, olemme vielä alkuvaiheessa tämän mallin ominaisuuksien ja sen rajoitusten tutkimisessa.

OpenAI suunnitteli alun perin kutsuvansa pienen ryhmän ChatGPT Plus -käyttäjiä testaamaan GPT-4o-äänitilaa tämän vuoden kesäkuun lopussa, mutta virkamies ilmoitti lykkäyksestä kesäkuussa sanoen, että se oli välttämätöntäEnemmän aikaa kiillotukseenmalli, paranna malliaTunnista ja hylkää tietty sisältöKyky.

Aikaisemmin paljastettujen tietojen mukaan GPT-3.5-mallin puhepalautteen keskimääräinen viive on 2,8 sekuntia, kun taas GPT-4-mallin viive on 5,4 sekuntia, joten se ei ole kovin hyvä puheviestinnässä, ja tuleva GPT-. 4o voi lyhentää viivettä huomattavasti,lähes saumatonta keskustelua。

GPT-4o-äänitilassa onNopea vastaus、Ääni on yhtä hyvä kuin oikealla ihmiselläJa muita ominaisuuksia, OpenAI kutsutaan myös GPT-4o-puhetilaksi, joka voi havaita puheen tunnesävyn, mukaan lukien surun, jännityksen tai laulun.

OpenAI:n tiedottaja Lindsay McCallum sanoi: "ChatGPT Älä esitä jonkun toisen ääntä, mukaan lukien yksilöiden ja julkisuuden henkilöiden äänet ja lohkotErilainen kuin oletusääni Lähtö. "

uutiset