notizia

La modalità vocale avanzata di ChatGPT è finalmente online: non appena parli cinese, la tua identità come "Wai Guoren" viene scoperta

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Rapporto sul cuore della macchina

Redattore: Salsa all'uovo, Xiaozhou

"Her" di OpenAI è finalmente aperto ad alcune persone.

Nel maggio di quest'anno, OpenAI ha lanciato il suo modello di punta di nuova generazione GPT-4o e l'app desktop in occasione del "Lancio di nuovi prodotti di primavera" e ha dimostrato una serie di nuove funzionalità.

Ora, OpenAI ha annunciato che aprirà la modalità vocale avanzata di ChatGPT a un piccolo gruppo di utenti ChatGPT Plus, consentendo agli utenti di ottenere per la prima volta la risposta audio ultra realistica di GPT-4o. Questi utenti riceveranno un avviso nell'app ChatGPT e riceveranno un'e-mail con le istruzioni su come utilizzare l'app.

"Fin dalla nostra prima dimostrazione della modalità vocale avanzata, abbiamo lavorato duramente per migliorare la sicurezza e la qualità delle conversazioni vocali e prepararci a portare questa tecnologia all'avanguardia a milioni di persone." OpenAI ha affermato che questa funzionalità diventerà gradualmente disponibile nel autunno del 2024. Presentato a tutti gli utenti Plus.

Alcuni utenti hanno già pubblicato gli effetti dell'utilizzo della modalità vocale avanzata:

Fonte: https://x.com/tsarnick/status/1818402307115241608

Quando racconti barzellette con ChatGPT, ChatGPT può farti ridere:

Fonte: https://x.com/yoimnotkesku/status/1818406786077970663

Utilizzando la modalità vocale avanzata di ChatGPT, "Her" può creare musica di sottofondo mentre racconta storie ed è disponibile in più lingue.

Fonte: https://x.com/yoimnotkesku/status/1818415019349901354

Sono disponibili anche francese, spagnolo e urdu:

Fonte: https://x.com/yoimnotkesku/status/1818424494106853438

Ma l'espressione cinese non è molto autentica, come una "noce storta" che sta imparando il cinese:

Fonte: https://x.com/yoimnotkesku/status/1818446895083139170

Tutti quelli che ascoltarono rimasero sbalorditi:

Il problema dell’accento non si presenta solo in cinese, ma anche in tedesco:

Fonte: https://x.com/yoimnotkesku/status/1818445235606671670

Infine, parliamo di uno scioglilingua:

Fonte: https://x.com/yoimnotkesku/status/1818427991514337695

OpenAI afferma che la modalità vocale avanzata è diversa da quella attualmente offerta da ChatGPT.

La vecchia soluzione in modalità vocale di ChatGPT utilizzava tre modelli separati: un modello convertiva la voce in testo, GPT-4 era responsabile della gestione dei prompt (prompt) e un terzo modello era responsabile della conversione del testo in voce di ChatGPT. GPT-4o è multimodale e può gestire queste attività senza l'ausilio di modelli ausiliari, riducendo così significativamente la latenza dei dialoghi. OpenAI ha anche affermato che GPT-4o può percepire l'intonazione emotiva nella voce dell'utente, inclusa tristezza, eccitazione, ecc.

Nel maggio di quest'anno, OpenAI ha dimostrato per la prima volta la funzione vocale di GPT-4o, la sua velocità di reazione e la sorprendente somiglianza con la voce di una persona reale hanno scioccato il pubblico: ed ecco il problema.

La voce chiamata "Sky" ricorda Scarlett Johansson, che interpreta l'assistente artificiale nel film "Her".

Poco dopo la demo di OpenAI, Johnson ha dichiarato di aver resistito a numerose richieste del CEO di OpenAI Sam Altman di usare la sua voce e di aver assunto un consulente legale per difendere la sua voce dopo aver visto la demo di GPT-4o. OpenAI ha negato di utilizzare la voce di Scarlett Johansson ma ha anche rimosso la voce dalla demo.

A giugno, OpenAI ha dichiarato che avrebbe ritardato il rilascio di una modalità vocale avanzata per migliorare le sue misure di sicurezza.

Dopo una lunga attesa, "Lei" ha finalmente incontrato tutti. OpenAI ha affermato che la modalità vocale avanzata lanciata questa volta sarà limitata a ChatGPT, che ha collaborato con doppiatori pagati per produrre quattro voci preimpostate: Juniper, Breeze, Cove ed Ember.

Vale la pena notare che ci sono solo questi quattro tipi di suoni in uscita: la voce Sky mostrata nella dimostrazione di OpenAI a maggio non è più disponibile per ChatGPT. "ChatGPT non può impersonare le voci degli altri, comprese quelle di individui e personaggi pubblici, e bloccherà l'output che differisce da una di queste voci preimpostate", ha detto il portavoce di OpenAI Lindsay McCallum.

L'intenzione originale di questa configurazione è quella di evitare controversie su Deepfake. Nel gennaio di quest’anno, la tecnologia di clonazione vocale della startup di intelligenza artificiale ElevenLabs è stata utilizzata per impersonare il presidente degli Stati Uniti Biden e ingannare gli elettori delle primarie nel New Hampshire, provocando notevoli polemiche.

OpenAI ha inoltre affermato di aver introdotto nuovi filtri per bloccare determinate richieste di generazione di musica o altro audio protetto da copyright.

L'anno scorso, molte società di intelligenza artificiale per la generazione di immagini e musica sono state coinvolte in controversie legali a causa della violazione del copyright. In particolare, le case discografiche che amano litigare hanno citato in giudizio i generatori audio di intelligenza artificiale Suno e Udio. E i modelli audio come GPT-4o aggiungono una categoria completamente nuova di aziende che possono presentare reclami.

Si dice che OpenAI abbia testato le capacità vocali di GPT-4o con più di 100 membri esterni della "squadra rossa" in 45 lingue. Queste informazioni chiave saranno annunciate in modo più dettagliato in un rapporto sulle funzioni, limitazioni e valutazione della sicurezza di GPT-4o in agosto.

Link di riferimento:

https://twitter.com/OpenAI/status/1818353580279316863

https://www.theverge.com/2024/7/30/24209650/openai-chatgpt-advanced-voice-mode

https://www.reuters.com/technology/openai-starts-roll-out-advanced-voice-mode-some-chatgpt-plus-users-2024-07-30/

https://www.bloomberg.com/news/articles/2024-07-30/openai-begins-rolling-out-voice-assistant-after-safety-lated-delay?srnd=phx-technology

https://techcrunch.com/2024/07/30/openai-releases-chatgpts-super-realistic-voice-feature/

https://www.theinformation.com/briefings/after-delay-openai-releases-ai-voice-assistant