La “Her” di OpenAI è difficile da fornire. Cosa lo trattiene?

2024-07-27

Mengchen viene dal Tempio Aofei
Qubit |. Account pubblico QbitAI

Sono passati due mesi e due settimane e non abbiamo ancora visto la versione rilasciata pubblicamente di OpenAI "Her".

Il 14 maggio OpenAI ha rilasciato GPT-4o eModalità di conversazione audio e video end-to-end in tempo reale, dimostrazione dal vivo del dialogo dell'IA fluido come quello degli esseri umani.

Può percepire il tuo ritmo respiratorio e rispondere in tempo reale con un tono più ricco di prima. Può persino interrompere l'intelligenza artificiale in qualsiasi momento e l'effetto è sorprendente.

Ma come tutti lo aspettano con ansia, di tanto in tantorimandareè uscita la notizia.

Cosa trattiene OpenAI? Secondo le informazioni conosciute:

AvereControversie legali, per garantire che il timbro della voce non susciti nuovamente polemiche come la "sorella vedova" Scarlett Johansson.

Ci sono ancheDomanda di Sicurezza, devono essere adeguatamente allineati e le conversazioni audio e video in tempo reale apriranno nuovi scenari di utilizzo e anche l'utilizzo come strumento di frode sarà uno di questi.

Tuttavia, oltre a quanto sopra, ci sono problemi e difficoltà tecniche che devono essere superate?

Dopo l'eccitazione iniziale, gli esperti hanno cominciato a guardare la porta.

Gli utenti della rete più attenti potrebbero averlo notato,Durante la dimostrazione in conferenza stampa il cellulare era collegato con un cavo di rete.。

Agli occhi degli addetti ai lavori, la dimostrazione della conferenza GPT-4o è stata fluida, ma ci sono ancora diverse limitazioni:

Bisogno"Rete fissa, apparecchiature fisse, ambiente fisico fisso"。

Dopo l'effettivo rilascio al pubblico, non è ancora noto se gli utenti globali potranno vivere un'esperienza non compromessa rispetto alla conferenza stampa.

C'era un altro dettaglio interessante nella conferenza stampa, il bel ricercatore Barret Zoph.ChatGPT è stato utilizzato come tabella durante la dimostrazione di una videochiamata。

Il ritardo nella parte della videochiamata è evidente.La parte vocale della domanda è stata elaborata e la parte visiva sta ancora elaborando lo scatto precedente., che è il tavolo di legno catturato dalla fotocamera quando è stato appena sollevato il telefono.

Immagina quante persone lo useranno dopo il suo rilascio definitivo?

Uno dei casi più discussi nel video promozionale, in cui un cieco ha fatto segno di chiamare un taxi con l'aiuto della voce AI, è stato immediatamente discusso dagli utenti della rete.

Tuttavia, va anche notato che questo sarà aScenari che fanno molto affidamento su funzionalità a bassa latenza, se la guida dell'IA arriva un po' più lentamente, il taxi passerà.

Potrebbe non essere garantita la stabilità del segnale di rete nelle scene all'aperto, per non parlare di scene come aeroporti, stazioni ferroviarie e attrazioni turistiche in cui sono presenti molte persone e dispositivi che occupano la larghezza di banda, quindi la difficoltà aumenterà notevolmente.

Anche,Ci saranno anche problemi di rumore nelle scene all'aperto。

I modelli di grandi dimensioni sono intrinsecamente preoccupati dal problema dell '"illusione". Se il rumore influisce sul riconoscimento della voce dell'utente e compaiono alcune parole che non sono correlate alle istruzioni, la risposta non sarà chiara.

Infine, c’è un’altra questione che viene facilmente trascurata:Adattamento multi-dispositivo。

Si può vedere che l'attuale conferenza OpenAI e i video promozionali utilizzano tutti il nuovo iPhone Pro.

Per sapere se la stessa esperienza potrà essere ottenuta sui modelli di fascia bassa bisognerà attendere il rilascio ufficiale.

OpenAI promuove l'utilizzo di GPT-4oSolo 232 millisecondi, media 320 millisecondiper rispondere all'input audio in un tempo coerente con la velocità con cui gli esseri umani rispondono in una conversazione.

Ma questo è solo il tempo che intercorre tra l’input e l’output del modello più grande, non dell’intero sistema.

Tutto sommato, semplicemente facendo un buon lavoro nell'intelligenza artificiale, non è ancora possibile creare un'esperienza fluida come "Her". Richiede anche una serie di funzionalità come bassa latenza, adattamento multi-dispositivo e capacità di gestire varie condizioni di rete e ambienti rumorosi.

L’intelligenza artificiale da sola non può creare “Lei”

Per ottenere bassa latenza, adattamento multi-dispositivo, ecc., facciamo affidamento suRTC(Comunicazioni in tempo reale, Comunicazioni in tempo reale).

Prima dell’era dell’intelligenza artificiale, la tecnologia RTC era ampiamente utilizzata nelle trasmissioni in diretta, nelle videoconferenze e in altri scenari, e il suo sviluppo era relativamente maturo.

Dal punto di vista di RTC, le parole vocali dell'utente devono passare attraverso una serie di processi complessi prima di essere inserite nel modello di grandi dimensioni.

Acquisizione e preelaborazione del segnale:Sui dispositivi finali come i telefoni cellulari, la voce dell'utente viene raccolta in segnali originali ed elaborata come riduzione del rumore ed eliminazione dell'eco per prepararsi al successivo riconoscimento.

Codificazione e compressione del parlato: Per risparmiare il più possibile la larghezza di banda di trasmissione, il segnale vocale deve essere codificato e compresso. Allo stesso tempo, alcuni meccanismi di ridondanza e correzione degli errori devono essere aggiunti in modo adattivo in base alle condizioni effettive della rete per resistere alla perdita di pacchetti di rete.

trasmissione in rete: I dati vocali compressi vengono suddivisi in pacchetti di dati e inviati al cloud tramite Internet. Se la distanza fisica dal server è lunga, la trasmissione spesso deve passare attraverso più nodi e ogni hop può introdurre ritardi e perdite di pacchetti.

Decodifica e ripristino della voce:Dopo che il pacchetto di dati raggiunge il server, il sistema lo decodifica e ripristina il segnale vocale originale.

Alla fine, è stato il turno dell'intelligenza artificiale di agire.Solo convertendo prima il segnale vocale in token attraverso il modello Embedding il grande modello multimodale end-to-end sarà in grado di comprendere e generare risposte.

Naturalmente, dopo che il modello di grandi dimensioni ha generato una risposta, deve passare attraverso una serie di processi inversi, quindi il segnale audio della risposta viene infine ritrasmesso all'utente.

Ogni fase dell'intero processo richiede un'ottimizzazione estrema per ottenere veramente dialoghi audio e video AI in tempo reale.

Tra questi, la compressione, la quantizzazione e altri metodi del grande modello stesso influenzeranno le capacità dell’intelligenza artificiale, quindi l’ottimizzazione congiunta combinata con fattori come l’elaborazione del segnale audio e la perdita di pacchetti di rete è particolarmente importante.

Resta inteso che OpenAI non ha risolto questo problema in modo indipendente, ma ha scelto di collaborare con terzi.

I partner lo sonoFornitore RTC open source LiveKit, che attualmente sta diventando il fulcro del settore con il suo supporto per la modalità vocale ChatGPT.

Oltre a OpenAI, LiveKit ha collaborato anche con società di intelligenza artificiale correlate come Character.ai e ElevenLabs.

Forse ad eccezione di alcuni giganti come Google che hanno una tecnologia RTC autosviluppata relativamente matura,La collaborazione con produttori RTC specializzati nel settore è l'attuale scelta principale per i lettori di dialoghi audio e video in tempo reale con intelligenza artificiale.。

Naturalmente, questa ondata prevede anche la partecipazione di attori nazionali. Molte aziende nazionali di intelligenza artificiale stanno già intensificando lo sviluppo di grandi modelli multimodali end-to-end e di applicazioni di dialogo audio e video in tempo reale.

Le applicazioni IA domestiche riusciranno a raggiungere i risultati di OpenAI e quando tutti potranno davvero sperimentarlo da soli?

Dato che questi progetti sono fondamentalmente nelle fasi iniziali, non molte informazioni sono state divulgate pubblicamente, tranne i loro partner RTCrete sonoraÈ diventata una svolta.

Qubit ha chiesto a Sound Network,Con l’attuale livello tecnologico nazionale, il ritardo di un ciclo di dialogo può essere ridotto a circa 1 secondo., insieme a più tecniche di ottimizzazione, non è più un problema ottenere conversazioni fluide in grado di rispondere in modo tempestivo.

Per fare bene RTC, l'AI non è solo “Lei”

Chi è SoundNet?

Un'impresa rappresentativa nel settore RTC, che diventerà il primo fornitore globale di servizi cloud interattivi in tempo reale nel 2020.

La prima volta che SoundNet è uscita dal settore è stato perché forniva supporto tecnico per Clubhouse, un'applicazione social audio di grande successo.

Infatti, molte applicazioni rinomate come Bilibili, Xiaomi e Xiaohongshu hanno scelto la soluzione RTC di Agora, e anche il business all’estero si è sviluppato rapidamente negli ultimi anni.

Quindi, per le applicazioni di dialogo audio e video in tempo reale con intelligenza artificiale, come risolvere in modo specifico le difficoltà legate alla bassa latenza e all'adattamento multi-dispositivo e quali effetti possono essere ottenuti?

Abbiamo invitatoZhong Sheng, capo scienziato e CTO di Shengwangper rispondere a questa domanda.

Secondo Zhong Sheng, l'inferenza del modello di grandi dimensioni non viene calcolata;Diciamo solo che il tempo impiegato da un segnale per andare avanti e indietro su una linea di rete può già essere di 70-300 millisecondi.。

Nello specifico, ci concentriamo principalmente sull'ottimizzazione sotto tre aspetti.

Primo,Shengwang ha costruito più di 200 data center in tutto il mondo e i luoghi scelti per stabilire le connessioni sono sempre più vicini agli utenti finali.

In combinazione con la tecnologia di routing intelligente, quando una determinata linea è congestionata, il sistema può selezionare automaticamente altri percorsi con ritardo e larghezza di banda migliori per garantire la qualità della comunicazione.

Se non è coinvolta la trasmissione tra regioni, end-to-end può essere inferiore a 100 ms. Se include più regioni, ad esempio dalla Cina agli Stati Uniti, è più probabile che siano necessari 200-300 ms.

secondo, Shengwang, fondata nel 2014, sta analizzando vari scenari di rete deboli attraverso il data mining basato sull'enorme quantità di dati di scene reali accumulati nel corso degli anni, per poi riprodurli in laboratorio. Ciò fornisce un "poligono di tiro" per ottimizzare l'algoritmo di trasmissione in modo che possa far fronte ad ambienti di rete complessi e mutevoli; può anche apportare modifiche tempestive alla strategia di trasmissione quando si verifica una corrispondente modalità di rete debole durante la trasmissione in tempo reale per effettuare la trasmissione più liscio.

terzo, Per i settori verticali e compiti specifici, Shengwang sta anche cercando di personalizzare i modelli con parametri più piccoli per comprimere il tempo di risposta dei modelli di grandi dimensioni. Le capacità estreme di modelli linguistici di grandi dimensioni e modelli vocali di dimensioni specifiche sono direzioni che vale la pena esplorare, che sono fondamentali per ottimizzare il rapporto costo-efficacia e l’esperienza a bassa latenza dell’intelligenza artificiale conversazionale o dei chatbot.

infine, L'SDK RTC sviluppato da Shengwang è inoltre adattato e ottimizzato per diversi dispositivi terminali, in particolare per alcuni modelli di fascia bassa, che possono raggiungere un basso consumo energetico, un basso utilizzo della memoria, dimensioni del pacchetto estremamente ridotte, ecc. In particolare, le funzionalità lato dispositivo di riduzione del rumore vocale, cancellazione dell’eco e miglioramento della qualità video basate su algoritmi AI possono influenzare direttamente la portata e l’effetto del chatbot AI.

Zhongsheng ha anche introdotto che nel processo di esplorazione della combinazione tra RTC e tecnologia di modelli di grandi dimensioni, anche l'ambito della stessa tecnologia RTC sta cambiando.

Ha citato alcune delle sue direzioni di pensiero, come il passaggio dalla trasmissione di segnali audio alla trasmissione di token che possono essere compresi direttamente da modelli di grandi dimensioni, e persino l'implementazione del riconoscimento vocale (STT) e del riconoscimento delle emozioni alla fine, in modo che solo testo e le informazioni correlate possono essere trasmesse parametri emotivi.

In questo modo, è possibile posizionare più processi di elaborazione del segnale sul lato finale e il modello Embeding che richiede meno potenza di calcolo può essere posizionato più vicino all'utente, riducendo i requisiti di larghezza di banda dell'intero processo e il costo del modello cloud.

Partendo da questo punto, Zhong Sheng ritiene che la combinazione finale tra tecnologia AI e RTC si sposterà verso l’integrazione di dispositivi e cloud.

Ciò significa che non è possibile affidarsi completamente a modelli di grandi dimensioni nel cloud. Questa non è la scelta migliore in termini di costi, consumo energetico ed esperienza di latenza.

Dal punto di vista dell’integrazione finale del cloud, l’intera infrastruttura deve cambiare di conseguenza. La potenza di calcolo non è solo nel cloud, ma verrà utilizzata anche la potenza di calcolo dei telefoni cellulari. I nodi di trasmissione all’edge distribuiranno anche la potenza di calcolo e anche il protocollo di trasmissione dei dati cambierà di conseguenza…

Al momento, Agora e i produttori di applicazioni per modelli di grandi dimensioni hanno capito come farloTre modelli di cooperazione, ovvero le diverse modalità di alimentazione delle tre parti dell'intero sistema: modello large, RTC e server cloud:

Distribuzione privata:Shengwang fornisce solo RTC SDK, che viene distribuito insieme ai modelli di grandi dimensioni nei data center dei partner. È adatto per le aziende con modelli di grandi dimensioni autosviluppati o infrastrutture di inferenza di modelli di grandi dimensioni.
Piattaforma cloud Shengwang: Shengwang fornisce SDK RTC e risorse del server cloud e gli sviluppatori possono selezionare in modo flessibile modelli, posizioni di distribuzione e risorse di elaborazione in base alle loro esigenze. Non è necessario creare la propria infrastruttura e puoi creare rapidamente applicazioni vocali AI.
Soluzione Agora end-to-end: Shengwang fornisce modelli di grandi dimensioni autosviluppati, SDK RTC e risorse del server cloud. I modelli verticali possono essere personalizzati per settori segmentati come istruzione, commercio elettronico, intrattenimento sociale, servizio clienti, ecc. e sono profondamente integrati con le funzionalità RTC per fornire soluzioni integrate di interazione vocale.

Inoltre, nei progetti di cooperazione esistenti, l’applicazione più rapida non è lontana dal soddisfare tutti.

Nella comunicazione con Acoustic Network c’è un’altra nuova tendenza nella scoperta dei qubit degna di attenzione:

Le applicazioni domestiche dell’IA stanno gradualmente andando oltre l’ambito delle domande e risposte dell’assistente AI e della compagnia emotiva dell’IA.

Prendiamo ad esempio settori come l’intrattenimento sociale, lo streaming live di e-commerce e l’istruzione online. Ciò a cui tutti prestano maggiore attenzione sono i conduttori di celebrità di Internet e gli insegnanti famosi. Le persone digitali guidate dal dialogo audio e video in tempo reale dell'intelligenza artificiale possono diventare i loro "cloni digitali" e interagire ulteriormente individualmente con ciascun fan o studente. Allo stesso tempo, anche il tempo e l'energia dell'utente sono limitati e non hanno la capacità di dividersi in più compiti e hanno anche bisogno dei propri cloni di intelligenza artificiale. Con lo sviluppo della tecnologia, il miglioramento dell'esperienza della tecnologia avatar AI e la riduzione dei costi, il loro ambito di applicazione si espanderà sempre più.

Prendiamo le parole di Zhong Sheng: "La cosa più scarsa per gli esseri umani è il tempo":

Dobbiamo tutti fare questa esperienza. E se due incontri fossero in conflitto e potessimo parteciparvi solo a uno?

Puoi parteciparvi tu stesso e inviare un assistente AI a un altro evento per riportare informazioni interessanti. In futuro, questo assistente potrà anche essere il tuo avatar AI. Durante l'attività, potrai condurre comunicazioni personalizzate, porre o rispondere a varie domande in base ai tuoi interessi e preoccupazioni e interagire con altre persone o avatar di altre persone.

Pertanto, i dialoghi audio e video in tempo reale dell'intelligenza artificiale possono fare molto di più che semplicemente "Lei".

notizia

La “Her” di OpenAI è difficile da fornire. Cosa lo trattiene?

introduzione

le mie informazioni di contatto