notizia

Lo spot GPT-4o si trasforma in futures, cosa frena OpenAI?

2024-07-16

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina


La tecnologia RTC è una delle chiavi della popolarità dell’intelligenza artificiale in tempo reale.


Autore |
modificare|.Jingyu

Lei sta passando dal cinema alla realtà.

Nel maggio di quest'anno, OpenAI ha rilasciato l'ultimo modello di grandi dimensioni multimodale AI GPT-4o. Rispetto al precedente GPT-4 Turbo, GPT-4o è due volte più veloce e costa la metà. Il ritardo medio dell'interazione vocale AI in tempo reale è compreso tra 2,8 secondi (GPT-3.5) e 5,4 secondi (GPT) rispetto alla versione precedente. . -4), raggiungendo addirittura i 320 millisecondi, quasi la stessa velocità di risposta del dialogo umano quotidiano.

Non solo è migliorata l'efficienza, ma anche l'analisi emotiva nelle conversazioni è diventata una delle caratteristiche di questo aggiornamento del prodotto. Durante la conversazione con l'ospite, l'IA può sentire il "nervosismo" quando parla e suggerisce in modo mirato di fare un respiro profondo.

IA aperta, sta diventando il “creatore” a base di silicio nell'era dei modelli di grandi dimensioni.

Tuttavia, la conferenza stampa è stata scioccante, ma la realtà era molto scarsa. Dopo il lancio del prodotto, OpenAI, l'iniziatore di questa rivoluzione tecnologica su larga scala, sta gradualmente diventando un'azienda del "futuro".

Dopo il rilascio del GPT-4o completo e a bassa latenza, il lancio della funzione audio e video in tempo reale è ancora in ritardo; il prodotto video multimodale Sora viene rilasciato, ma anche lui è stato ritardato.

Ma questo non è solo un problema per OpenAI come azienda: dopo il rilascio di ChatGPT, ci sono state tante versioni domestiche di ChatGPT quante carassi che attraversano il fiume. Tuttavia, attualmente esiste solo un SenseTime 5.5 che confronta veramente GPT-4o e i progressi saranno gli stessi. Rimani in open beta entro il mese.

Perché nella conferenza stampa il grande modello multimodale in tempo reale è solo a un passo dal cambiare il mondo, ma nel processo di transizione verso la produzione si trasforma sempre da "spot" a "opzione"?

Una nuova voce sta emergendo: in un mondo multimodale, forse la violenza (algoritmica) non ha miracoli.

01

voce in tempo reale,un pezzo

Deve passareDiPercorso di commercializzazione dell'IA

La maturità della tecnologia sta aiutando a prendere gradualmente forma una nuova industria dell’oceano blu.

I dati di a16z, un noto istituto di venture capital della Silicon Valley, mostrano che tra le 50 principali applicazioni di intelligenza artificiale con utenti globali, 9 sono prodotti complementari. I dati dell'elenco dei prodotti AI mostrano che il numero di visite ad AI Companion nel maggio di quest'anno ha raggiunto 432 milioni, con un aumento su base annua del 13,87%.

L’elevata domanda, l’elevato tasso di crescita, l’elevato spazio di mercato e la compagnia dell’intelligenza artificiale comporteranno un duplice cambiamento nei modelli di business e nell’interazione uomo-computer.

La maturità del business sta anche costringendo il continuo progresso della tecnologia a invertire la tendenza.Prendendo come nodo solo la prima metà di quest’anno, la tecnologia vocale AI in tempo reale ha già subito tre iterazioni in soli sei mesi.

Il prodotto rappresentativo della prima ondata tecnologica è Pi.

Nel marzo di quest'anno la start-up Inflection AI ha aggiornato il suo chatbot emozionale Pi per i singoli utenti.

L'interfaccia del prodotto Pi è molto semplice. La finestra di dialogo Testo + è l'interfaccia interattiva principale, ma aggiunge anche funzioni vocali AI come la lettura vocale e le telefonate.

Per ottenere questo tipo di interazione vocale, Pi si affida alla tradizionale tecnologia vocale in tre fasi di STT (Speech Recognition, Speech-to-Text) - LLM (Large Model Semantic Analysis) - TTS (Text To Speech). È caratterizzato da una tecnologia matura, ma da una risposta lenta, dalla mancanza di comprensione di informazioni chiave come il tono e dall'incapacità di ottenere un vero dialogo vocale in tempo reale.

Un altro prodotto in evidenza dello stesso periodo è Call Annie. Rispetto a Pi, Call Annie ha un design completo dell'esperienza di videochiamata Oltre al design per rispondere e terminare le chiamate, la funzione obbediente può anche essere ridotta a icona e trasferita ad altre app e supporta più di 40 impostazioni di ruolo di conversazione.

Tuttavia, condividono tutti problemi tecnici comuni: elevata latenza e mancanza di colore emotivo. In termini di latenza, anche l'OpenAI più avanzato del settore subirà un ritardo compreso tra 2,8 secondi (GPT-3.5) e 5,4 secondi (GPT-4).Emotivamente, informazioni come il tono, il tono e la velocità del parlare andranno perse durante l'interazione e sarà impossibile produrre espressioni vocali avanzate come risate e canti.

Successivamente, il rappresentante della nuova ondata tecnologica fu un prodotto chiamato EVI.

Questo prodotto è stato lanciato da Hume AI nell'aprile di quest'anno e ha fruttato a Hume AI 50 milioni di dollari (circa 362 milioni di yuan) in finanziamenti di serie B.

In termini di design del prodotto, Hume AI ha lanciato una funzione di gioco nell'algoritmo sottostante. Gli utenti possono scegliere le proprie configurazioni e modelli di grandi dimensioni. Oltre all'impostazione predefinita ufficiale, possono anche scegliere Claude, GPT-4 Turbo, ecc.Ma la differenza è che la voce trasporta emozione, quindi ci sono anche cambiamenti nel ritmo e nell'intonazione nell'espressione.

La realizzazione di questa funzione si basa principalmente sull'aggiunta del nuovo algoritmo SST (teoria dello spazio semantico, teoria dello spazio semantico) al tradizionale processo in tre fasi STT-LLM-TTS. L’SST può tracciare con precisione l’intero spettro delle emozioni umane attraverso un’ampia raccolta di dati e modelli statistici avanzati, rivelando la continuità tra gli stati emotivi umani, conferendo all’EVI molte caratteristiche antropomorfiche.

Il prezzo del progresso emotivo è l’ulteriore sacrificio del ritardo temporale, il tempo di attesa dell'utente per parlare con EVI è ulteriormente aumentato rispetto a Pi e Call Annie.

A metà maggio è stato rilasciato GPT-4o e l’integrazione della tecnologia multimodale è diventata la direzione tecnica di questo periodo.

Rispetto ai precedenti prodotti di interazione vocale in tre fasi, GPT-4o è un nuovo modello addestrato end-to-end su testo, immagini e audio, il che significa che tutti gli input e gli output vengono elaborati dalla stessa rete neurale.

Anche il problema del ritardo è stato notevolmente migliorato. OpenAI ha annunciato ufficialmente che l'interazione vocale in tempo reale di GPT-4o può rispondere all'input audio con una velocità massima di 232 millisecondi e una media di 320 millisecondi. Dal punto di vista emotivo, l’interazione tra gli utenti e l’intelligenza artificiale è diventata sempre più intelligente, con cambiamenti nella velocità del parlato e nella comprensione emotiva.

A livello di prodotto, diventa possibile per gli esseri umani innamorarsi dell’intelligenza artificiale e che l’intelligenza artificiale possa sostituire i ciechi nel vedere il mondo.

Character.ai, che ha recentemente lanciato la funzione di chiamata vocale ed è una nuova stella accattivante nella Silicon Valley nel 2024, è diventato il più grande beneficiario di questa ondata tecnologica.

Su Character.ai, gli utenti hanno l'opportunità di inviare messaggi con repliche di personaggi di anime, personaggi televisivi e personaggi storici in giochi di ruolo ultra realistici. La nuova impostazione ha comportato un aumento del numero di utenti del prodotto. Secondo i dati di Similarweb, Character.ai può gestire 20.000 richieste di inferenza AI al secondo e il numero di visite a maggio ha raggiunto i 277 milioni.


Confronto del traffico tra Character.ai e perplexity.ai|Fonte immagine: Similarweb

Allo stesso tempo, Microsoft, Google e altri hanno annunciato ufficialmente che i loro modelli di grandi dimensioni lanceranno funzioni di chiamata vocale in tempo reale.

Tuttavia, il design del prodotto a tenuta stagna, nell'implementazione effettiva, mostra sempre l'effetto di implementazione dello scarico dell'inondazione delle Tre Gole: nella terza ondata, i prodotti complementari in stile quasi "lei" alla conferenza stampa sono tutti cambiati nell'implementazione effettiva diventato un "piano" da lanciare, sarà lanciato presto ed è in fase di test interno.

Una conclusione indubbia è che l'audio e il video in tempo reale potrebbero diventare la forma definitiva di interazione uomo-computerIntelligenza artificialeOltre alla scena complementare, dovrebbero esplodere scene come NPC intelligenti di gioco, insegnanti parlati con intelligenza artificiale e traduzione in tempo reale. Tuttavia, prima di ciò, come risolvere l'ultimo miglio dalla "conferenza stampa" al lancio del prodotto è oggi il problema più difficile del settore.

02

Voce in tempo reale AI,

Nessun miracolo con grande forza

Intelligenza artificialeVoce in tempo reale "nessun miracolo con grandi sforzi", un detto pessimista si sta diffondendo silenziosamente nella Silicon Valley.

La resistenza proviene da tutti gli aspetti della tecnologia, della regolamentazione e del business.

Il leader spirituale dell'opposizione tecnica è Yann LeCun, il "padre delle reti convoluzionali".

Secondo lui: rispetto a diversi algoritmi di intelligenza artificiale del passato, la caratteristica più importante della tecnologia dei modelli di grandi dimensioni è che "i grandi sforzi possono fare miracoli". Attraverso l’alimentazione di big data, nonché il supporto hardware di cluster di calcolo con centinaia di milioni di parametri e prestazioni elevate, gli algoritmi possono essere utilizzati per gestire problemi più complessi e ottenere una maggiore scalabilità. Tuttavia, attualmente siamo eccessivamente ottimisti riguardo ai grandi modelli, in particolare all’idea che i grandi modelli multimodali possano essere modelli mondiali, il che è ancora più insensato.

Ad esempio, le persone hanno cinque sensi, che costituiscono la nostra vera comprensione del mondo, che si forma sulla base di una grande quantità di testi Internet, manca di osservazione e interazione con il mondo fisico e manca di abbastanza buon senso. Pertanto, nel processo di generazione di video o voce, ci saranno sempre contenuti, traiettorie di movimento o emozioni vocali apparentemente fluidi, ma privi di realismo. Inoltre, anche le limitazioni fisiche rappresentano un problema. Di fronte alla crescente dimensione dei modelli e delle dimensioni di interazione, gli attuali modelli di grandi dimensioni non dispongono di una larghezza di banda sufficiente per elaborare tali informazioni.

livello normativo,Intelligenza artificialeIl discorso in tempo reale, ovvero il modello ampio del discorso end-to-end, si trova ad affrontare un gioco tra tecnologia ed etica.

In passato, il processo in tre fasi STT-LLM-TTS nel tradizionale settore vocale dell'intelligenza artificiale è stato inizialmente causato da una tecnologia immatura. L'evoluzione verso un modello vocale di grandi dimensioni end-to-end richiede un'implementazione aggiuntiva in termini di architettura del modello e metodi di formazione e l'interazione multimodale. Allo stesso tempo, poiché la voce stessa è più difficile da monitorare rispetto al testo, la voce AI può essere facilmente utilizzata in scenari come frodi telefoniche, pornografia e marketing spam. Per facilitare la verifica, in una certa misura è diventato necessario anche il collegamento testuale intermedio.

E a livello aziendale, L'addestramento end-to-end di modelli di grandi dimensioni audio e video richiede una grande quantità di dati di YouTube e podcast durante la fase di addestramento. Il costo è decine di volte o addirittura superiore a quello dei precedenti modelli di addestramento del testo milioni di dollari.

Per quanto riguarda questo tipo di costi, per le normali società di intelligenza artificiale in questo momento è inutile buttare soldi dal cielo. Devono anche pagare per le schede informatiche AI ​​di fascia alta di NVIDIA, lo spazio di archiviazione gigabit e gli inesauribili diritti d'autore audio e video privi di rischi. .

Naturalmente, che si tratti del giudizio tecnico di Yang Likun, delle possibili difficoltà normative o del dilemma dei costi della commercializzazione, queste non sono le questioni centrali per l’Open AI.

Rendi davvero la classe GPT-4o in tempo realeIntelligenza artificialeIl motivo fondamentale per cui i prodotti di interazione vocale sono passati da spot a futuri è a livello di implementazione del progetto.

03

GPT-4o per dimostrazione con cavo di rete collegato,

Manca ancora un utile aiuto RTC

Un segreto tacito nel settore è, Classe GPT-4oIntelligenza artificialeI prodotti vocali in tempo reale, a livello ingegneristico, sono solo metà dell'opera.

Al momento del lancio di GPT-4o, nonostante si affermasse una bassa latenza, alcuni utenti attenti hanno scoperto che il telefono cellulare nel video dimostrativo era ancora collegato con un cavo di rete.Ciò significa anche che il ritardo medio di 320 ms annunciato ufficialmente da GPT-4o sarà probabilmente una dimostrazione di apparecchiature fisse, reti fisse e scenari fissi, ed è un indicatore di laboratorio che può essere raggiunto in condizioni ideali.


La conferenza di lancio di GPT-4o di OpenAI mostra chiaramente che i telefoni cellulari sono collegati | Fonte immagine: OpenAI

dov'è il problema?

Smantellandolo dal livello tecnico, per realizzare chiamate vocali AI in tempo reale, i tre passaggi a livello di algoritmo sono combinati in uno, che è solo uno dei collegamenti principali. Anche l'altro collegamento principale, il livello di comunicazione RTC, affronta una serie delle sfide tecniche. Il cosiddetto RTC può essere semplicemente inteso come la trasmissione e l'interazione di audio e video in un ambiente di rete in tempo reale. Si tratta di una tecnologia che supporta voce in tempo reale, video in tempo reale e altre interazioni.

Chen Ruofei, responsabile della tecnologia audio presso Agora, ha dichiarato a Geek Park che negli scenari applicativi reali, gli utenti di solito non possono sempre trovarsi in apparecchiature fisse, reti fisse e ambienti fisici fissi. Nei nostri scenari di videochiamata quotidiana, quando la rete di un interlocutore è scarsa, i ritardi e i ritardi vocali aumenteranno. Questa situazione si verificherà anche nelle chiamate vocali in tempo reale con intelligenza artificiale, quindi la trasmissione a bassa latenza e un'eccellente ottimizzazione della rete sono cruciali per la trasmissione RTC.

Inoltre, anche l’adattamento multi-dispositivo, l’elaborazione del segnale audio, ecc. sono aspetti tecnici che non possono essere ignorati nell’implementazione della voce AI in tempo reale.

Come risolvere questi problemi?

La risposta sta negli ultimi requisiti di reclutamento di OpenAI, specificatamente menzionati, che vogliono reclutare talenti ingegneristici per aiutarli a implementare i modelli più avanzati nell'ambiente RTC.

In termini di selezione della soluzione specifica, la tecnologia RTC utilizzata da GPT-4o è una soluzione open source basata su WebRTC, che può risolvere alcuni ritardi a livello tecnico, nonché la perdita di pacchetti, la sicurezza del contenuto della comunicazione e la multipiattaforma causata da diversi ambienti di rete.

Tuttavia, il lato B dell’open source è la debolezza della produttivizzazione.

Per fare un semplice esempio, per quanto riguarda le problematiche di adattamento multi-dispositivo, gli scenari di utilizzo dell’RTC sono per lo più rappresentati dai telefoni cellulari, ma le capacità di comunicazione e di raccolta del suono dei diversi modelli di telefoni cellulari variano ampiamente: attualmente i cellulari Apple possono raggiungere un ritardo stabile di circa decine di millisecondi Tuttavia, l'ecosistema Android, che è relativamente complesso, non solo ha molti modelli, ma anche il divario prestazionale tra i prodotti di fascia alta e quelli di fascia bassa è abbastanza evidente. Per alcuni dispositivi di fascia bassa, la latenza può arrivare fino a centinaia di millisecondi a livello di raccolta e comunicazione.

Per fare un altro esempio, negli scenari di applicazione vocale in tempo reale dell’intelligenza artificiale, i segnali vocali umani possono essere mescolati con il rumore di fondo. È necessaria un’elaborazione complessa del segnale per rimuovere il rumore e l’eco per garantire un input vocale pulito e di alta qualità, in modo che l’intelligenza artificiale possa comprendere meglio le persone .le parole dette.

La compatibilità multi-dispositivo e le funzionalità avanzate di riduzione del rumore audio sono anche ciò che manca a WebRTC open source.

L’esperienza del settore rappresenta un collo di bottiglia nell’applicazione di prodotti open source. Pertanto, rispetto alle soluzioni open source, i grandi produttori di modelli e i fornitori di soluzioni RTC professionali lavorano insieme per perfezionarli e ottimizzarli, il che, in una certa misura, può rappresentare meglio le future tendenze del settore.

Nel campo di RTC, Agora è il produttore più rappresentativo. Era noto per fornire tecnologia audio a Clubhouse. Secondo il sito ufficiale di Agora, oltre il 60% delle app di pan-entertainment del mondo scelgono il servizio RTC In Oltre a note aziende nazionali Oltre ad app come Xiaomi, Bilibili, Momo e Xiaohongshu, ci sono anche Yalla, la più grande piattaforma vocale di social e intrattenimento in Medio Oriente e Nord Africa, Kumu, il "King of Social Live" Piattaforme di trasmissione” nel sud-est asiatico, HTC VIVE, The Meet Group, Bunch, ecc. in tutto il mondo. Aziende rinomate hanno adottato la tecnologia RTC di Agora.


L’accumulo di esperienza nel settore e la selezione di clienti globali sono un’ulteriore prova della leadership tecnologica. Secondo Chen Ruofei, la rete di trasmissione in tempo reale SD-RTN™ sviluppata da Shengwang copre più di 200 paesi e regioni in tutto il mondo e il ritardo globale end-to-end di audio e video raggiunge una media di 200 ms. In risposta alle fluttuazioni nell'ambiente di rete, la tecnologia di routing intelligente di SoundNet e l'algoritmo di rete anti-debole possono garantire la stabilità e la fluidità delle chiamate. Tenendo conto delle differenze nelle apparecchiature terminali, Shengwang ha accumulato centinaia di milioni di app preinstallate in tutto il mondo e ha accumulato know-how nell'adattamento ad ambienti complessi.

Oltre alla leadership tecnologica, l’esperienza nel settore è una barriera invisibile.

In effetti, questo è il motivo per cui il panorama imprenditoriale del settore RTC è rimasto relativamente stabile nel corso degli anni:Per fare un buon lavoro, RTC non si è mai affidata al modello su larga scala secondo cui "i grandi sforzi possono produrre miracoli".

L’unico modo per ottenere l’ottimizzazione definitiva del ritardo vocale e l’uso commerciale universale dell’interazione vocale in tempo reale è attraverso un lavoro intenso e accumulato nel tempo.

E da questa prospettiva,Intelligenza artificialeL'interazione vocale in tempo reale è una battaglia da non sottovalutare in termini di fantasia e difficoltà.

Il suo futuro: algoritmi, audit e RTC devono superare ogni livello. Per compiere questo lungo percorso non dobbiamo solo alzare lo sguardo al cielo stellato della tecnologia, ma anche avere i piedi per terra dell’ingegneria.

*Fonte dell'immagine dell'intestazione: Visual China

Questo articolo è un articolo originale di Geek Park Per la ristampa, contattare Geek Jun su WeChat geekparkGO

chiese il geek

Quali app complementari AI hai utilizzato?


Il segreto del successo di Zuckerberg: non lasciarti ingannare dai film, nessuno sa come farlo.

Metti mi piace e seguiAccount video Geek Park