ChatGPT:n edistynyt äänitila on vihdoin verkossa: Heti kun puhut kiinaa, henkilöllisyytesi "Wai Guorenina" paljastetaan

2024-07-31

Koneen sydänraportti

Toimittaja: Egg Sauce, Xiaozhou

OpenAI:n "Her" on vihdoin avoin joillekin ihmisille.

Tämän vuoden toukokuussa OpenAI lanseerasi uuden sukupolven lippulaivasukupolven mallin GPT-4o ja työpöytäsovelluksen "kevään uuden tuotteen lanseerauksessa" ja esitteli sarjan uusia ominaisuuksia.

Nyt OpenAI on ilmoittanut avaavansa ChatGPT:n edistyneen äänitilan pienelle ryhmälle ChatGPT Plus -käyttäjiä, jolloin käyttäjät voivat saada GPT-4o:n erittäin realistisen äänivasteen ensimmäistä kertaa. Nämä käyttäjät saavat hälytyksen ChatGPT-sovelluksessa ja sähköpostin, jossa on ohjeet sovelluksen käyttöön.

"Siitä lähtien, kun esittelimme edistyneen puhetilan, olemme tehneet lujasti töitä parantaaksemme puhekeskustelujen turvallisuutta ja laatua ja valmistaudumme tuomaan tämän huipputeknologian miljoonien ihmisten ulottuville, OpenAI sanoi, että tämä ominaisuus tulee saataville vähitellen syksyllä." vuodelta 2024. Esitelty kaikille Plus-käyttäjille.

Jotkut käyttäjät ovat jo julkaisseet edistyneen äänitilan käytön vaikutukset:

Lähde: https://x.com/tsarnick/status/1818402307115241608

Kun kerrot vitsejä ChatGPT:n kanssa, ChatGPT voi tarjota sinulle naurua:

Lähde: https://x.com/yoimnotkesku/status/1818406786077970663

ChatGPT:n edistyneen äänitilan avulla "Her" voi luoda taustamusiikkia kertoessaan tarinoita, ja se on saatavilla useilla kielillä.

Lähde: https://x.com/yoimnotkesku/status/1818415019349901354

Ranska, espanja ja urdu ovat myös saatavilla:

Lähde: https://x.com/yoimnotkesku/status/1818424494106853438

Mutta kiinalainen ilmaisu ei ole kovin autenttinen, kuten "waiguoren", joka opiskelee kiinaa:

Lähde: https://x.com/yoimnotkesku/status/1818446895083139170

Kaikki, jotka kuuntelivat, hämmästyivät:

Aksenttiongelma ei esiinny vain kiinassa, vaan myös saksassa:

Lähde: https://x.com/yoimnotkesku/status/1818445235606671670

Lopuksi puhutaan kielenkääntäjästä:

Lähde: https://x.com/yoimnotkesku/status/1818427991514337695

OpenAI sanoo, että edistynyt äänitila on erilainen kuin mitä ChatGPT tällä hetkellä tarjoaa.

ChatGPT:n vanha puhetilaratkaisu käytti kolmea eri mallia: yksi malli muunsi puheen tekstiksi, GPT-4 vastasi kehotteiden (prompts) käsittelystä ja kolmas malli vastasi ChatGPT:n tekstin muuntamisesta puheeksi. GPT-4o on multimodaalinen ja pystyy käsittelemään näitä tehtäviä ilman apumalleja, mikä vähentää merkittävästi dialogin latenssia. OpenAI sanoi myös, että GPT-4o voi aistia käyttäjän äänen emotionaalisen intonaation, mukaan lukien surun, jännityksen jne.

Tämän vuoden toukokuussa OpenAI esitteli GPT-4o:n äänitoiminnon ensimmäistä kertaa "Her" -reaktionopeuden ja hämmästyttävän samankaltaisuuden oikean henkilön ääneen järkytti yleisöä - ja tässä on ongelma.

Ääni nimeltä "Sky" muistuttaa Scarlett Johanssonia, joka esittää keinotekoista avustajaa elokuvassa "Her".

Pian OpenAI-demon jälkeen Johnson sanoi vastustaneensa useita OpenAI:n toimitusjohtajan Sam Altmanin pyyntöjä käyttää ääntään ja että hän palkkasi lakimiehiä puolustamaan ääntään nähtyään GPT-4o-demon. OpenAI kielsi käyttävänsä Scarlett Johanssonin ääntä, mutta poisti myös äänen demosta.

Kesäkuussa OpenAI sanoi, että se viivyttää edistyneen puhetilan julkaisua parantaakseen turvatoimiaan.

Pitkän odotuksen jälkeen "Hän" tapasi vihdoin kaikki. OpenAI sanoi, että tällä kertaa käynnistetty edistynyt äänitila rajoittuu ChatGPT:hen, joka on tehnyt yhteistyötä maksettujen ääninäyttelijöiden kanssa tuottaakseen neljä esiasetettua ääntä: Juniper, Breeze, Cove ja Ember.

On syytä huomata, että lähtöääniä on vain nämä neljä tyyppiä - OpenAI:n toukokuussa esittelyssä näkyvä Sky-ääni ei ole enää saatavilla ChatGPT:lle. "ChatGPT ei voi jäljitellä muiden ääniä, mukaan lukien yksilöiden ja julkisuuden henkilöiden äänet, ja se estää lähdön, joka eroaa jostakin näistä esiasetetuista äänistä", OpenAI:n tiedottaja Lindsay McCallum sanoi.

Tämän asennuksen alkuperäinen tarkoitus on välttää Deepfake-kiista. Tämän vuoden tammikuussa tekoäly-startupin ElevenLabsin äänikloonaustekniikkaa käytettiin jäljittelemään Yhdysvaltain presidentti Bideniä ja huijaamaan New Hampshiren ensisijaisia äänestäjiä, mikä aiheutti huomattavaa kiistaa.

OpenAI ilmoitti myös ottaneensa käyttöön uusia suodattimia estääkseen tietyt pyynnöt luoda musiikkia tai muuta tekijänoikeudella suojattua ääntä.

Viime vuonna monet kuvien ja musiikin tuotantoa valmistavat tekoälyyritykset joutuivat oikeusriitoihin tekijänoikeusrikkomusten vuoksi. Erityisesti riita-asioista kiinnostuneet levy-yhtiöt ovat haastaneet tekoälyn äänigeneraattorit Sunon ja Udion oikeuteen. Ja äänimallit, kuten GPT-4o, lisäävät kokonaan uuden luokan yrityksiä, jotka voivat tehdä valituksia.

OpenAI:n sanotaan testanneen GPT-4o:n puheominaisuuksia yli 100 ulkoisen "punaisen tiimin" jäsenen kanssa 45 kielellä. Nämä keskeiset tiedot julkaistaan tarkemmin elokuussa GPT-4o:n toimintoja, rajoituksia ja turvallisuusarviointia käsittelevässä raportissa.

Viitelinkit:

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-related-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant

uutiset

ChatGPT:n edistynyt äänitila on vihdoin verkossa: Heti kun puhut kiinaa, henkilöllisyytesi "Wai Guorenina" paljastetaan

Johdanto

yhteystietoni