notizia

OpenAI improvvisamente aggiornato! GPT-4o lancia la versione vocale avanzata, risponde alle domande in pochi secondi, i netizen impazziscono

2024-07-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


Cose intelligenti (account pubblico:zhidxcom
autorevaniglia
modificareLi Shuiqing

La funzione vocale avanzata di GPT-4o finalmente non è più un "futuro"!

Notizie da Zhidongxi del 31 luglio, questa mattina presto,IA apertaAnnuncio dell'inizio del lancio a un piccolo gruppo di utenti ChatGPT PlusModalità vocale avanzata, basato su GPT-4o per fornire conversazioni in tempo reale più naturali.


▲OpenAI avvia la modalità vocale avanzata

Dopo il lancio del modello, molti netizen che hanno ricevuto l'invito hanno già iniziato a giocarci e hanno condiviso i propri video di prova e le proprie sensazioni. Ad esempio, questo è un breve pezzo rap e beatbox presentato da ChatGPT, che suona piuttosto elegante.

//oss.zhidx.com/uploads/2024/07/66a9902a60e1d_66a9902a5d0a5_66a9902a5d078_Beatbox.mp4

Nel complesso, la modalità vocale avanzata di ChatGPT non è molto diversa dalla dimostrazione ufficiale originale.quasi nessun ritardo , anche i vari toni sono molto vividi. Tuttavia, sembra che abbia adottato molte misure protettive in termini di sicurezzaÈ aumentata la possibilità di rifiutare le richieste degli utenti

La funzionalità di conversazione vocale di ChatGPT è stata lanciata per la prima volta a settembre dello scorso anno.Nel maggio di quest'anno, OpenAI ha lanciato aModello di punta GPT-4o Una versione più avanzata del dialogo vocale e ha condotto una dimostrazione pubblica. GPT-4o utilizza un unico modello multimodale invece dei precedenti tre modelli separati per le funzionalità vocali, riducendo la latenza nelle conversazioni con i chatbot. (OpenAI ha ribaltato l'assistente vocale da un giorno all'altro! Il modello GPT-4o è terribilmente potente, ChatGPT ha imparato a leggere lo schermo e la versione reale di Her è qui)

All'epoca, OpenAI annunciò che la funzionalità sarebbe stata distribuita agli utenti gratuiti e a pagamento entro poche settimane. Tuttavia, solo pochi giorni dopo la sua uscita, OpenAI ha avuto una disputa con Scarlett Johansson, che interpreta la "Vedova Nera" nella serie di film "Avengers" ed è nota ai fan come la "sorella vedova" a causa del suono ChatGPT in la dimostrazione Le battute erano troppo simili, ed è stata accusata dalla stessa Scarlett e fortemente osteggiata dai netizen.

Di conseguenza, anche la data di rilascio della modalità vocale avanzata è stata posticipata. Sebbene OpenAI abbia insistito sul fatto che ChatGPT non imitasse la voce di Scarlett, la linea vocale è stata successivamente rimossa.

1. Test con più di cento membri esterni del team rosso, che in autunno potrebbe essere aperto a tutti gli abbonati

La modalità vocale avanzata basata su GPT-4o è attualmente disponibile solo per un numero limitato di utenti ChatGPT Plus ed è disponibileConversazioni in tempo reale più naturaliConsenti agli utenti di interrompere in qualsiasi momento, e puòPercepisci e rispondi alle emozioni degli utenti

Gli utenti che partecipano a questo test Alpha riceveranno un'e-mail con le istruzioni e una notifica nella loro app mobile ChatGPT. OpenAI ha affermato che continuerà ad aggiungere sempre più utenti su base continuativa e prevede di renderlo disponibile a tutti gli abbonati Plus in autunno.


▲E-mail di invito e pagina principale dell'app

La modalità vocale avanzata di ChatGPT è stata rilasciata nel maggio di quest'anno. Si basa sul nuovo modello di punta di OpenAI GPT-4o, che può eseguire chat vocale e interazione video in tempo reale, come comprendere equazioni lineari attraverso immagini video e comprendere e giudicare le espressioni delle persone. e intonazioni.

OpenAI ha affermato che sin dal suo rilascio iniziale, il team ha lavorato per migliorare la sicurezza e la qualità delle conversazioni vocali, testando le capacità vocali con oltre 100 membri esterni del team rosso in 45 lingue.

Per proteggere la privacy, OpenAI ha parlato solo con quattro voci preimpostate durante l'addestramento del modello e ha creato un sistema corrispondente per bloccare diversi output. Ha inoltre adottato misure protettive per bloccare le richieste di contenuti violenti o protetti da copyright.

OpenAI prevede di condividere un rapporto dettagliato sulle funzionalità, le limitazioni e la valutazione della sicurezza di GPT-4o all'inizio di agosto.

2. La prima ondata di utenti di prova ha iniziato a vivere una vita piena: praticare il francese, imparare a miagolare e spiegare il calcio.

La prima ondata di utenti di prova non vede l'ora di utilizzare la modalità vocale avanzata e condividere le proprie esperienze di prova.

L'artista Manuel Sainsily accende la telecamera mentreRiprese dal vivoHo chiesto a ChatGPT informazioni sul mio gattino appena cresciuto e sull'ambiente che ho organizzato per lui, mentre chiedevo a ChatGPT le sue opinioni sull'alimentazione.

//oss.zhidx.com/uploads/2024/07/66a9900fc37cb_66a9900fbde19_66a9900fbddf7_Video conversazione.mp4

La risposta di ChatGPT è stata praticamente immediata. Innanzitutto ha elogiato la dolcezza del gatto con un tono molto affettuoso, quindi ha confortato Sainsily dopo avergli chiesto ulteriori informazioni, dicendogli di non preoccuparsi. Sainsily esclama: “Sembra di fare una videochiamata con un amico esperto”.

Netizen Bergara ha condiviso sulla piattaforma social Reddit che ChatGPT ha rifiutato tutte le sue richieste di canto e non era disposto a cambiare la sua voce. ChatGPT ha avuto successo quando gli ha chiesto di recitare una poesia in modi e stati d'animo diversi, ma quando gli è stato chiesto di recitarla con un sorriso, ha rifiutato.

Ad esempio, Bergara ha detto che stava praticando il francese e ha chiesto a ChatGPT di fungere daallenatore di lingue, chiedendo la loro opinione sulla pronuncia.

//oss.zhidx.com/uploads/2024/07/66a9903094c84_66a99030913bd_66a990309139a_Insegnamento francese.mp4

Per quanto riguarda la pronuncia della parola Bergara, ChatGPT ha fornito suggerimenti dettagliati sull'accento, sui suoni finali, ecc., e ha fornito dimostrazioni. Allo stesso tempo, il suo stile di insegnamento è molto "incoraggiante all'educazione", e loda senza esitazione la pronuncia di Bergara, che ne aumenta direttamente il valore emotivo.

Bergara consente a ChaGPT di usarlo separatamenteTono timido e arrabbiato Racconta barzellette sulla birra. La comprensione della timidezza da parte di ChatGPT consiste nel pronunciarla con voce sussurrata e, quando si esprime rabbia, aumenta i suoi decibel.

//oss.zhidx.com/uploads/2024/07/66a990398daca_66a9903989c33_66a9903989c08_Raccontare barzellette in tono timido e arrabbiato.mp4

Quando viene richiesto di utilizzare ChatGPTtono tristeQuando reciti una poesia, sembra che stia per rompersi...

//oss.zhidx.com/uploads/2024/07/66a9902fc3720_66a9902fbc252_66a9902fbc230_sad tone.mp4

Bergara ha affermato che nei test finora ChatGPT si è comportato in modo simile a quanto mostrato da OpenAI, maIl tasso di rifiuto sembra un po' alto, ha ipotizzato che potrebbe essere per motivi di sicurezza.

Ad esempio, quando Bergara ha chiesto a ChatGPT di cantare una storia sui robot e sull'amore, ha detto che avrebbe potuto raccontare la storia, ma solo con un tono di voce normale.

//oss.zhidx.com/uploads/2024/07/66a99036460bb_66a9903642127_66a99036420ff_Emotional storytelling.mp4

Durante lo storytelling di ChatGPT, Bergara lo ha interrotto più volte chiedendogli di "aggiungere più emozione". ChatGPT ha aderito e il suo tono è diventato più lento e più animato.

Alcuni netizen hanno già iniziato a utilizzare ChatGPT per organizzare la propria vita.

Il cofondatore e CTO di Squad Ethan Sutin consente a ChatGPTimitato vari miagolii di gatti . Devo dire che questo richiamo del gatto è un po' "magico", ma sembra abbastanza reale, perché il mio gatto ne è rimasto attratto...

//oss.zhidx.com/uploads/2024/07/66a9901c00939_66a9901bf0c77_66a9901bf0c51_Impara a miagolare.mp4

Sembra che anche ChatGPT lo abbiaesibizione musicale Capacità. Sutin gli ha chiesto di suonare un accordo di do minore. C'è qualche lettore che conosca la teoria musicale e possa ascoltarlo e vedere se è accurato?

//oss.zhidx.com/uploads/2024/07/66a9903dcfec1_66a9903dcbf91_66a9903dcbf62_chord.mp4

Il Netizen Cristiano Giardina ha lasciato giocare ChatGPTcommentatore di partite di calcio . Ha condiviso alcune prime impressioni provando la modalità vocale avanzata: è molto veloce, produce sempre risultati interessanti e ha sempre un accento americano quando si parla altre lingue.

//oss.zhidx.com/uploads/2024/07/66a9988d2ea93_66a9988d279ea_66a9988d279c4_football commentary.mp4

Netizen Kesku ha chiesto a ChatGPT di dire una cosalinguaggio inesistente , quindi spiegare come funziona la lingua. ChatGPT ha creato Glimnar, un linguaggio basato sul suono che ricorda un po' il canto.

//oss.zhidx.com/uploads/2024/07/66a998835c09b_66a9988357da7_66a9988357d83_Creation Language.mp4

Sebbene ci siano ancora solo pochi utenti che utilizzano la modalità vocale avanzata di ChatGPT, man mano che la sua portata push si espande, forse saremo in grado di vedere gameplay ed esperienze più interessanti.

Conclusione: OpenAI aumenta la consapevolezza sulla sicurezza dell’intelligenza artificiale

L’intelligenza artificiale in voce e video viene esaminata attentamente per la sua capacità di fungere da strumento per le frodi. Sebbene la modalità vocale di OpenAI attualmente non consenta la generazione di nuove voci o cloni vocali, la modalità può comunque causare confusione.

Nei mesi successivi all'aggiornamento primaverile, OpenAI ha pubblicato una serie di nuovi documenti sulla sicurezza e sull'allineamento del modello AI. Ciò avviene dopo che il team Super Alignment è stato sciolto, criticato da alcuni ex e attuali dipendenti per aver spostato la propria attenzione sul lancio di nuovi prodotti piuttosto che sulla sicurezza. Per ora, il rallentamento nell’implementazione delle modalità vocali avanzate sembra essere un segnale per utenti, regolatori e legislatori che OpenAI prende sul serio la sicurezza.

Il rilascio della modalità vocale avanzata di ChatGPT differenzia ulteriormente OpenAI da concorrenti come il modello Llama 3.1 di Meta e Claude 3 di Anthropic, mettendo sotto pressione le startup di intelligenza artificiale che si concentrano sul linguaggio emotivo.