La versione GPT-4o "Her" è finalmente arrivata! Raccontando barzellette e miagolando come un gatto, quanto può essere sexy una ragazza AI?

2024-07-31

Nuovo rapporto sulla saggezza

Editor: Taozi è così assonnato

[Introduzione alla Nuova Saggezza] La funzione vocale GPT-4o finalmente arriva come previsto, e la versione fantascientifica di Her diventa realtà! Alcuni utenti della rete che hanno testato Grayscale sono impazziti. Tuttavia, OpenAI attualmente fornisce solo 4 voci preimpostate. Inoltre, anche il token di output del nuovo modello GPT-4o è aumentato di 16 volte a 64K.

La promessa di Ultraman è stata finalmente mantenuta.

Prima della fine di luglio, la modalità vocale GPT-4o ha finalmente lanciato i test in scala di grigi e un piccolo numero di utenti ChatGPT Plus ha già ottenuto i ticket di adozione anticipata.

Se vedi la seguente interfaccia dopo aver aperto l'app ChatGPT, congratulazioni per essere diventato uno dei primi fortunati.

Secondo OpenAI, la modalità vocale avanzata fornisce una conversazione più naturale e in tempo reale, può essere interrotta a piacimento e può persino percepire e rispondere alle tue emozioni.

Si prevede che tutti gli utenti ChatGPT Plus potranno utilizzare questa funzionalità questo autunno.

Inoltre, in seguito verrà lanciata una condivisione video e schermo più potente. In altre parole, accendendo la fotocamera, puoi chattare "faccia a faccia" con ChatGPT.

Alcuni utenti della rete colpiti dalla scala di grigi hanno iniziato a testare uno dopo l'altro e hanno scoperto molti casi d'uso della modalità vocale GPT-4o.

No, alcune persone lo lasciano agire come un "coach di seconda lingua straniera" per insegnare a se stessi come esercitarsi nel parlare.

Nell'insegnamento seguente, ChatGPT ha aiutato i netizen a correggere la pronuncia di Croissant (croissant) e Baguette (baguette francese).

Allo stesso tempo, i token di output di GPT-4o sono aumentati di 16 volte, dai 4.000 token iniziali a 64.000 token.

Questo è il nuovo modello beta gpt-4o-64k-output-alpha che OpenAI ha recentemente lanciato silenziosamente sul suo sito ufficiale.

Un token di output più lungo significa che è possibile ottenere circa 4 script completi di lungometraggi contemporaneamente.

Lei è arrivata

Il motivo per cui la funzione vocale GPT-4o è stata rilasciata ora è perché OpenAI ha condotto test di sicurezza e qualità su di essa negli ultimi mesi.

Hanno testato le capacità vocali di GPT-4o in 45 lingue con oltre 100 membri del team rosso.

Per proteggere la privacy delle persone, il team ha addestrato il modello a parlare utilizzando solo 4 "voci predefinite".

Hanno anche creato un sistema per bloccare l'emissione di suoni diversi da questi quattro.

Inoltre, anche il filtraggio dei contenuti è essenziale e il team ha anche adottato misure per prevenire la generazione di contenuti violenti e legati al copyright.

OpenAI ha annunciato che prevede di pubblicare un rapporto dettagliato sulle capacità, i limiti e la valutazione della sicurezza di GPT-4o all'inizio di agosto.

Misurazione effettiva su tutta la rete

Di seguito sono riportati alcuni casi di modalità vocale GPT-4o condivisi dai netizen.

ChatGPT può eseguire beatboxing.

ChatGPT raccontava anche barzellette sulla birra in toni timidi, arrabbiati e sempre più arrabbiati.

Alcuni utenti della rete hanno raccontato una battuta appositamente per ChatGPT: "Perché gli scienziati non credono nell'Adam-Atom, perché sono loro che inventano tutto".

ChatGPT rise goffamente.

La cosa ancora più divertente è che ChatGPT ha ancora un modo per imparare a miagolare.

Dopo alcuni test, qualcuno ha scoperto che la modalità vocale avanzata di ChatGPT è molto veloce e non c'è quasi nessun ritardo nella risposta.

Quando gli viene chiesto di imitare alcuni suoni, riproduce sempre i suoni in modo realistico. E si possono imitare anche accenti diversi.

Il video qui sotto mostra la scena in cui l'IA funge da commentatore per una partita di calcio.

ChatGPT racconta storie in cinese, anch'esso molto vivido.

Sebbene OpenAI affermi che le funzioni di condivisione di video e schermo verranno lanciate in un secondo momento, alcuni netizen l'hanno già utilizzata per primi.

Un utente della rete ha un nuovo gatto domestico. Gli ha costruito un nido e gli ha preparato del cibo, ma non sapeva cosa fare, quindi ha chiesto a ChatGPT.

Durante la conversazione nel video, il netizen gli ha mostrato la casa del gatto. Dopo averla vista, ChatGPT ha commentato: "Deve essere molto comoda" ed era preoccupata per come stava il gatto.

Gli utenti della rete hanno detto che non ha ancora mangiato e sembra un po' preoccupato. ChatGPT conforta: "Questo è normale. Ci vuole tempo perché i gatti si adattino".

Si può vedere che l'intero processo di domanda e risposta è molto fluido, dando alle persone la sensazione di comunicare con persone reali.

I netizen hanno anche tirato fuori la versione giapponese della console di gioco, ma non parlano giapponese.

A questo punto, ha mostrato l'interfaccia del gioco a ChatGPT e gli ha chiesto di tradurla per lui. Alla fine, Hu ha completato il gioco insieme.

Devo dire che con la benedizione della modalità visiva + vocale, ChatGPT è molto più potente.

GPT-4o Long Output è tranquillamente online, con output fino a 64K

Inoltre, seguirà GPT-4o, che supporta un output di token più grande.

Proprio ieri OpenAI ha annunciato ufficialmente che fornirà ai tester la versione GPT-4o Alpha, che supporta l'output fino a 64.000 token per richiesta, l'equivalente di un romanzo di 200 pagine.

I tester possono accedere alla funzione di output lungo di GPT-4o da "gpt-4o-64k-output-alpha".

Tuttavia, il prezzo del nuovo modello ha fissato ancora una volta un nuovo tetto. Il costo è di 6 dollari per milione di token di input e 18 dollari per milione di token di output.

Sebbene il token di output sia 16 volte quello di GPT-4o, anche il prezzo è aumentato di 3 dollari.

Dopo un simile confronto, gpt-4o-mini è davvero più conveniente!

Il ricercatore Simon Willison ha affermato che l’output lungo viene utilizzato principalmente per casi d’uso di trasformazione dei dati.

Ad esempio, per tradurre documenti da una lingua a un'altra o per estrarre dati strutturati da documenti, è necessario utilizzare quasi tutti i token di input nel JSON di output.

Prima di questo, il modello di output più lungo che conosceva era GPT-4o mini, che era di 16.000 token.

Perché lanciare un modello con una produzione più lunga?

Ovviamente, un output più lungo consente a GPT-4o di fornire una risposta più completa e dettagliata, il che è molto utile per alcuni scenari.

Ad esempio, scrivere codice e migliorare la scrittura.

Anche questa è una modifica apportata da OpenAI in base al feedback degli utenti secondo cui sono necessari contenuti di output più lunghi per soddisfare il caso d'uso.

Differenza tra contesto e output

Sin dal suo lancio, GPT-4o ha fornito una finestra di contesto massima di 128K. Per GPT-4o Long Output, la finestra di contesto massima è ancora 128K.

Quindi, come fa OpenAI ad aumentare il numero di token di output da 4.000 a 64.000 mantenendo la finestra di contesto complessiva di 128K?

Questo perché OpenAI inizialmente limitava il numero di token di output a un massimo di 4.000 token.

Ciò significa che gli utenti possono utilizzare fino a 124.000 token come input in un'interazione e possono ottenere solo fino a 4.000 token di output.

Naturalmente è possibile inserire anche più token, il che significa che verranno emessi meno token.

Dopotutto, la lunghezza del contesto lungo (128K) è fissata indipendentemente da come cambia l'input, il token di output non supererà 4000.

Ora OpenAI limita la lunghezza del token di output a 64.000 token, il che significa che puoi produrre 16 volte più token di prima.

Dopotutto, l’output è più intensivo dal punto di vista computazionale e l’aumento dei prezzi è maggiore.

Allo stesso modo, anche per l’ultimo GPT-4o mini il contesto è 128K, ma l’output massimo è stato aumentato a 16.000 token.

Quindi, gli utenti possono fornire fino a 112.000 token come input e infine ottenere fino a 16.000 token come output.

In generale, OpenAI fornisce una soluzione per limitare il token di input per ottenere una risposta più lunga da LLM, anziché espandere direttamente la lunghezza del contesto.

Come per gli altri modelli sul mercato, quello lungo ha superato il milione (Gemini), e quello leggermente più corto ha 200K (Claude), alcuni hanno addirittura uscite del modello che hanno raggiunto i 200K, e OpenAI è ancora qui;

Ciò pone anche un problema difficile agli sviluppatori: se vuoi inserire di più, devi accettare meno output; se vuoi più output, devi inserire meno;

Come misurarlo dipende da quale sei disposto a sacrificare...

Riferimenti:

https://x.com/OpenAI/status/1818353580279316863

https://x.com/tsarnick/status/1818402307115241608

https://x.com/kimmonismus/status/1818409637030293641

https://www.reddit.com/r/singularity/comments/1eg51gz/chatgpt_advanced_audio_helping_me_pronouce/

https://venturebeat.com/ai/openai-launches-experimental-gpt-4o-long-output-model-with-16x-token-capacity/

notizia

La versione GPT-4o "Her" è finalmente arrivata! Raccontando barzellette e miagolando come un gatto, quanto può essere sexy una ragazza AI?

introduzione

le mie informazioni di contatto