notizia

OpenAI apre la modalità vocale GPT-4o ad alcuni utenti paganti, fornendo conversazioni più naturali in tempo reale

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

IT House ha riferito il 31 luglio che il 30 ora locale, OpenAI ha annunciato che da ora in poi aprirà la modalità vocale GPT-4o (nota IT House: versione Alpha) ad alcuni utenti ChatGPT Plus e la promuoverà gradualmente a tutti i ChatGPT questo autunno. Abbonato Plus.


Nel maggio di quest'anno, Mira Murati, Chief Technology Officer di OpenAI, ha menzionato nel suo discorso:

In GPT-4o, abbiamo addestrato un nuovo modello unificato end-to-end su testo, visione e audio, il che significa che tutti gli input e gli output vengono elaborati dalla stessa rete neurale. Poiché GPT-4o è il nostro primo modello a combinare tutte queste modalità, siamo ancora nelle prime fasi di esplorazione delle capacità di questo modello e dei suoi limiti.

OpenAI originariamente prevedeva di invitare un piccolo gruppo di utenti ChatGPT Plus a testare la modalità vocale GPT-4o alla fine di giugno di quest'anno, ma il funzionario ha annunciato il rinvio a giugno, affermando che era necessarioPiù tempo per lucidareil modello, migliorare il modelloRileva e rifiuta determinati contenutiCapacità.

Secondo le informazioni precedentemente esposte, il ritardo medio del feedback vocale del modello GPT-3.5 è di 2,8 secondi, mentre il ritardo del modello GPT-4 è di 5,4 secondi, quindi non è molto bravo nella comunicazione vocale e il prossimo GPT-. 4o può abbreviarlo notevolmente.conversazione quasi senza soluzione di continuità

La modalità vocale GPT-4o haRisposta rapidaLa voce è buona quanto quella di una persona realeOltre ad altre funzionalità, OpenAI chiama anche la modalità vocale GPT-4o, che può percepire il tono emotivo nel parlato, inclusa la tristezza, l'eccitazione o il canto.

Il portavoce di OpenAI Lindsay McCallum ha dichiarato: “ChatGPT Non impersonare la voce di qualcun altro, comprese le voci di individui e personaggi pubblici, e blocchiDiverso dal suono predefinito Produzione. "