un articolo per capire meta connect 2024: è arrivato llama 3.2, svelati gli occhiali ar orian

un articolo per capire meta connect 2024: è arrivato llama 3.2, svelati gli occhiali ar di orian

2024-09-26

autore della tecnologia tencent wu bin hao boyang

l'editore zheng kejun

all'1:00 del 26 settembre, ora di pechino, si è tenuto l'annuale meta connect 2024 a menlo park, in california. zuckerberg ha iniziato con l'atteso nuovo prodotto quest 3s, annunciando che il sogno di meta del metaverso ha iniziato a diffondersi nel mercato consumer entry-level.

allo stesso tempo, meta ha anche annunciato l'ultima versione 3.2 del suo grande modello ai llama, che fornisce funzionalità visive multimodali, combinate con la più recente funzionalità di dialogo vocale ai ai voice. il significato più grande del rilascio di questi modelli è che meta ha completato tutti i modelli multimodali tradizionali, il che pone solide basi per la sua integrazione di hardware ai e xr. allo stesso tempo, anche diverse applicazioni di intelligenza artificiale annunciate da meta, come la traduzione in tempo reale con intelligenza artificiale e l'uomo digitale con intelligenza artificiale in tempo reale paragonabile a "her 2.0", hanno fatto un ulteriore passo avanti nelle soluzioni di settore e hanno il potenziale per diventare applicazioni killer. .

inoltre, gli occhiali ar orion rilasciati questa volta sono definiti da xiao zha gli occhiali ar più potenti in superficie. forniscono anche più ingressi al futuro mondo del metaverso. sebbene non sia ancora perfetto, è anche un prodotto che porta con sé l’ambizione della forma finale di apparecchiature per il calcolo spaziale dell’intelligenza artificiale. secondo i resoconti dei media stranieri, il costo di questo prodotto supera i 10.000 dollari usa.

mate insiste ancora nel continuare ad avanzare sulle due strade del metaverso e dell’intelligenza artificiale, e si sforza di coniugare realtà virtuale e intelligenza artificiale attraverso l’integrazione dei prodotti.

alla conferenza connect del 2024, zuckerberg ha mostrato ancora una volta al mondo la forma di ingresso del mondo della realtà virtuale da lui delineata. abbiamo visto l'integrazione di virtualità e realtà, l'integrazione della controllabilità autonoma e dell'intelligenza artificiale, nonché la forma del reale prodotti e integrazione delle future esperienze operative.

zuckerberg riassume la conferenza stampa: lanciando 5 nuovi prodotti, meta sta lavorando duramente per costruire un futuro più aperto

meta quest 3s è qui, il prezzo è ridotto ma non i materiali

meta quest 3s è stato il primo ad apparire, e questa volta è stato raro pubblicare il prezzo del prodotto prima dei parametri e delle nuove funzionalità.

zuckerberg è ansioso di far sapere a tutti che questo nuovo occhiale vr viene venduto solo per $ 299,99, ovvero ben $ 200 in meno rispetto a quest 3 rilasciato nello stesso periodo dell'anno scorso. inoltre, non ha troppe funzionalità rispetto a quest 3.

meta quest 3s ha lo stesso chip qualcomm snapdragon xr2 gen 2 e 8 gb di memoria di funzionamento del suo "fratello maggiore" quest 3, il che significa che hanno esattamente la stessa potenza di elaborazione per l'elaborazione dei dati.

allo stesso tempo, quest 3s utilizza lo stesso controller touch plus di quest 3 e supporta la tecnologia di acquisizione del movimento degli occhi e delle mani.

anche quest 3s ha una durata della batteria più lunga. secondo i dati ufficiali forniti da meta, il quest 3s con una batteria integrata da 4324mah può raggiungere 2,5 ore di autonomia, mentre il quest 3 con una capacità della batteria maggiore (5060 mah) può funzionare solo per un massimo di 2,2 ore.

essendo un prodotto di occhiali per realtà virtuale economico, il rammarico di quest 3s è che non utilizza la struttura ottica pancake più tradizionale. utilizza la stessa lente fresnel delle serie quest 1 e 2. questo design è relativamente più elegante e a basso costo, ma significa anche che le sue dimensioni e il suo peso complessivi saranno maggiori di quelli di quest 3.

ma la vera differenza tra i due prodotti è la differenza nell'effetto di visualizzazione: quest 3s utilizza un lcd a commutazione rapida da 1832 x 1920 (20 ppd pixel per grado) con una frequenza di aggiornamento di 90/120 hz.

il suo campo visivo orizzontale e verticale è di soli 96 e 90 gradi, rispetto ai 2064 x 2208 (25 pixel ppd per grado) di quest 3 e al campo visivo orizzontale di 110 gradi e verticale di 96 gradi.

ovviamente, quest 3s dimostra l'ambizione di meta nell'ambito del sogno del metaverso da molti anni. utilizza occhiali per realtà virtuale con configurazioni di base vicine ai prodotti tradizionali ma più economici per promuovere la divulgazione degli occhiali vr a una base di utenti più ampia.

un'altra forza trainante che spinge meta a creare un prodotto del genere è il suo ecosistema di realtà virtuale, che sta ancora gradualmente migliorando.

alla conferenza stampa, zuckerberg ha affermato che quest 3s supporterà la tecnologia dolby vision e aggiungerà una funzione di riconoscimento dello schermo in grado di identificare il computer utilizzato e proiettare lo schermo con un clic. ciò espande gli scenari di utilizzo più ampi dei prodotti di realtà virtuale montati sulla testa come quest 3s.

tuttavia, meta ha commesso un errore durante una dimostrazione dal vivo di questa tecnologia, quest 3s si è bloccato inaspettatamente, provocando un'esplosione di applausi da parte del pubblico.

successivamente, zuckerberg ha mostrato l'ultima versione di horizon worlds anche se sembra ancora un gioco "casa da gioco", sta lentamente migliorando: quest'anno è stata lanciata la funzione youtube multigiocatore di avantar. questo attirerà più utenti youtube.

per quanto riguarda le applicazioni di terze parti, la sorpresa più grande arriva da "batman: arkham shadow", che uscirà il 22 ottobre e sarà abbinato ai nuovi quest 3 e 3s e sarà valido fino ad aprile del prossimo anno. sulla piattaforma quest verranno lanciati anche il già annunciato "alien: rogue invasion" e il gioco di zombi "arizona sunshine". inoltre, meta ha anche annunciato che lancerà wordle (un gioco di parole pubblicato quotidianamente dal new york times) per quest.

oh, a proposito, per farti acquistare il nuovo quest 3s, meta ha preso l'iniziativa di interrompere la produzione di quest 2 e quest pro dopo aver esaurito l'inventario di questi due prodotti, le uniche opzioni che puoi scegliere sono il quest 3s più economico, o il quest 3s più economico. è il quest 3 con configurazione più alta.

xiao zha ha detto che il modello end-side più potente llama 3.2 è qui

meta lancia il modello grande multimodale llama 3.2, la versione leggera può funzionare sui telefoni cellulari

come l'ultima conferenza connect, anche di questa conferenza è irrinunciabile il protagonista: l'ai.

zuckerberg ha annunciato l'aggiornamento 3.2 del suo modello base llama. il suo modello grande è disponibile nelle versioni 90b e 11b e il modello end-side è disponibile nelle dimensioni 1b e 3b.

xiao zha ha dimostrato una nuova funzionalità del prodotto sviluppata per llama 3.2: caricando immagini, non solo puoi cancellare e aggiungere funzioni di pennello magico, ma anche cambiare direttamente l'abbigliamento del personaggio in base alla descrizione testuale e persino sostituire lo sfondo attuale con un arcobaleno.

secondo la documentazione tecnica fornita da mata, llama 3.2 può essere direttamente intesa come una versione di llama 3.1 che supporta la multimodalità. perché meta non aggiorna i parametri del suo modello linguistico durante il processo di addestramento al riconoscimento delle immagini.

in termini di metodo di addestramento, meta utilizza un metodo più convenzionale. aggiunge un adattatore di immagini e un codificatore a llama3.1, utilizza il modello diffusion per addestrare il testo e le immagini corrispondenti, quindi esegue la messa a punto del contenuto del dominio.

infine, nella fase post-addestramento di regolazione del modello, llama 3.2 utilizza anche cicli multipli di messa a punto supervisionata, campionamento di rifiuto (utilizzando una distribuzione ausiliaria per generare campioni e accettando o rifiutando campioni in base a una certa probabilità) e preferenza diretta ottimizzazione. lascia che il modello si allinei.

è interessante notare che durante questo processo meta ha utilizzato llama 3.1 per generare più serie di didascalie di immagini per ottimizzare la descrizione dell'immagine da parte del modello.

meta utilizza llama 3.1 per generare più set di sottotitoli di immagini per ottimizzare la descrizione dell'immagine del modello.

nei risultati dei test forniti da meta, la capacità di ragionamento grafico della versione 90b di llama 3.2 è superiore a gpt 4o-mini in più test. la versione 11b supera ampiamente la versione haiku, una versione più piccola di claude 3.

zuckerberg ha affermato che le versioni lato client 1b e 3b di llama 3.2 saranno le più potenti ia lato client.

attualmente accetta input e output di testo e supporta una lunghezza massima del contesto di 128.000 token. questi due modelli end-side sono stati addestrati attraverso la potatura (eliminazione dei parametri con basso utilizzo nel modello grande) e la distillazione (utilizzando il modello grande come insegnante e la modalità di addestramento dei parametri principali dell'apprendimento del modello piccolo) su llama 3.1 8b e 70b. durante il processo di perfezionamento della formazione, sono stati aggiunti anche i dati sintetici forniti da llama 3.1 405b per ottimizzarne le prestazioni in molteplici funzionalità come riepilogo, riscrittura, seguito delle istruzioni, ragionamento linguistico e utilizzo degli strumenti.

la conferenza stampa ha dimostrato che la versione 3b di llama 3.2 ha superato in molti indicatori il modello gemma 2 2b rilasciato da google a giugno e il modello phi 3.5 3.8b rilasciato da microsoft ad agosto in molti indicatori, soprattutto per quanto riguarda le funzioni lato terminale comunemente utilizzate come come riepilogo, seguito del comando e il vantaggio del punteggio è evidente nell'attività di riscrittura.

ad esempio, sul set di test ifeval, che verifica la capacità di rispettare le istruzioni dell'utente, la versione llama 3.2 3b migliora di oltre il 20% rispetto a phi 3.5 della stessa dimensione. nei due benchmark che mettono alla prova la capacità di richiamare strumenti, anche llama 3.2 presenta evidenti vantaggi.

ciò consente a llama 3.2 di essere quello che secondo xiao zha è attualmente "il più forte" in termini di esperienza applicativa pratica sul lato del dispositivo. tuttavia, in termini di abilità di base come il ragionamento e la matematica, llama 3.2 3b è per lo più in ritardo rispetto a phi 3.5 mini.

inoltre, questi modelli supportano l'hardware qualcomm e mediatek il giorno del lancio e sono ottimizzati per i processori arm.

oltre a llama 3.2, che supporta la comprensione multimodale delle immagini, meta questa volta ha lanciato anche meta ai voice al connect. completamento di tutte le principali funzioni multimodali contemporaneamente. nelle dimostrazioni dal vivo, come gpt-4o, può supportare l'interruzione del dialogo e il suono è molto naturale, ma sfortunatamente non mostra di avere la ricca intonazione e l'espressione emotiva di gpt-4o.

sebbene le prestazioni siano pari solo a quelle di gpt-4o, meta ai voice ha trovato un nuovo punto di forza: fornisce opzioni vocali per 5 celebrità, come judi dench del capo femminile dalla faccia fredda in 007 e l'eroina di crazy rich asians . la voce del protagonista lin jiazhen.

rispetto a openai, che è stato citato in tribunale per aver presumibilmente rubato la voce di scarlett johansson, meta è ovviamente più affidabile in questo senso. secondo il wall street journal, meta ha pagato "milioni di dollari" per la voce di ogni celebrità. alcune celebrità vogliono limitare il modo in cui le loro voci possono essere utilizzate e assicurarsi di non essere ritenute responsabili se viene utilizzata meta ai.

secondo "reuters", celebrity voice sarà lanciato questa settimana negli stati uniti e in altri mercati di lingua inglese attraverso la famiglia di app meta, tra cui facebook, instagram e whatsapp.

oltre a integrare le funzionalità del modello di base, meta ha anche dimostrato alcune nuove funzionalità nelle applicazioni ia. queste funzionalità sono ampiamente supportate dalle soluzioni ai esistenti, ma meta fa un ulteriore passo avanti. è anche più adatto per gli scenari di utilizzo dei social media o degli occhiali ai.

ad esempio, meta ai studio ora supporta la costruzione diretta di sistemi umani digitali ai. nelle dimostrazioni dal vivo, la latenza delle conversazioni con gli esseri umani digitali era molto bassa e gli effetti di movimento e i suoni erano reali e naturali.

meta ai studio supporta direttamente la creazione di sistemi umani digitali ai

immagina di avere un'intelligenza artificiale che ti parla con una voce e un volto così reali come tuo compagno emotivo, vorrei chiamarla una lei "visibile" 2.0.

se inaugurerà un’età dell’oro dei prodotti associati all’intelligenza artificiale resta da testare ulteriormente da parte degli utenti.

un altro prodotto davvero sorprendente è la traduzione meta live. con le nuove funzionalità multimodali di meta ai, può riconoscere e sostituire direttamente la forma della bocca della lingua originale con la forma della bocca della lingua di destinazione. questa funzionalità è stata effettivamente implementata da aziende come heygen, ma in base all'ampiezza della copertura delle applicazioni meta, potrebbe diventare il primo prodotto correlato completamente popolare.

sebbene llama 3.1 sia già il modello open source più utilizzato dagli sviluppatori, per espandere meglio il livello dell'applicazione, meta ha anche rilasciato la prima versione ufficiale dello strumento di sviluppo del prodotto llama llama stack alla conferenza connect, che può semplificare notevolmente il flusso di lavoro di sviluppatori che utilizzano modelli llama in ambienti diversi e può anche consentire l'implementazione con un clic di applicazioni basate su strumenti come il recupero avanzato di generazione (rag) e funzioni di sicurezza integrate.

il rilascio di llama 3.2 è di grande importanza per meta. completa le principali carenze di llama nei modelli multimodali all'avanguardia e fornisce anche le basi per le funzioni multimodali dei suoi successivi prodotti hardware ai, come gli occhiali ray-ban che supportano l'intelligenza ai.

il popolare prodotto "occhiali ray-ban", batte il ferro finché è caldo e lancia nuovi prodotti

alla conferenza meta connect dello scorso anno, nessuno si sarebbe aspettato che il prodotto più popolare non fosse il quest 3, ma gli occhiali ai di seconda generazione lanciati da meta e dal produttore di occhiali ray-ban.

sebbene la prima generazione sia sconosciuta, ciò non impedisce agli appassionati di tecnologia in europa e negli stati uniti di affrettarsi ad acquistare la seconda generazione di occhiali intelligenti ray-ban. secondo le statistiche idc, meta ha spedito più di 700.000 paia di occhiali ray-ban , in particolare il volume degli ordini nel secondo trimestre di quest'anno, che è superiore a quello della prima generazione. più che raddoppiato da trimestre a trimestre. durante l’intero ciclo di vita degli occhiali ray-ban meta, a partire da maggio 2024, le sue vendite globali hanno superato 1 milione di unità e il mercato prevede che le spedizioni per l’intero anno nel 2024 supereranno 1,5 milioni di unità.

meta ha colpito mentre il ferro era caldo e quest'anno ha lanciato subito il suo nuovo prodotto.

piuttosto che dire che si tratta di un nuovo prodotto, è meglio dire che si tratta di un nuovissimo stile traslucido, perché il suo design complessivo è esattamente lo stesso dell'anno scorso.

ma ha un corpo in vetro trasparente con un forte senso della tecnologia: come previsto, le aziende di hardware di tutto il mondo hanno la stessa comprensione del "senso della tecnologia", che deve essere traslucido.

meta ha aggiunto più funzioni ai a questa generazione di occhiali. il miglioramento più grande è l'aggiunta della funzione di riconoscimento delle immagini con intelligenza artificiale in tempo reale, che consente agli utenti di chiedere agli occhiali ray-ban meta la scena o l'oggetto che stanno attualmente vedendo. gli utenti possono anche scansionare i codici qr direttamente attraverso gli occhiali e chiamare i numeri di telefono che vedono in vista.

inoltre, gli occhiali da sole supportano anche funzioni di promemoria simili a quelle degli smartphone, traduzione linguistica in tempo reale tra cui inglese in francese, italiano o spagnolo e integrazione con app di streaming musicale come amazon music, audible e iheart radio integrate.

orian, la forma definitiva degli occhiali ar secondo meta?

orian avrebbe dovuto essere prodotto in serie molto tempo fa, ma a causa della riduzione del budget complessivo di meta a causa dell'epidemia, zuckerberg ha deciso di accantonare il rilascio. ciò ha portato meta a non lanciare il suo primo prodotto di occhiali ar fino al 2024.

si tratta di occhiali ar che pesano solo 98 grammi, il che non è particolarmente leggero tra i prodotti di occhiali ar.

i telai di orian sono realizzati in lega di magnesio, che è più leggera dell'alluminio e può dissipare il calore più facilmente. le lenti sono realizzate in carburo di silicio, che è durevole, leggero e ha un elevato indice di rifrazione, che consente alla luce emessa dal proiettore sugli occhiali di espandersi su un'area di visualizzazione più ampia.

ma chiamare orian un paio di occhiali ar non sembra rigoroso. se vuole funzionare correttamente, deve collaborare con un braccialetto e un organismo informatico.

il corpo del computer fornisce più potenza di elaborazione e gli occhiali non possono funzionare da soli lontano da esso. se si desidera utilizzare orian normalmente, è necessario indossare il corpo del computer sempre al proprio fianco.

il braccialetto svolge un lavoro più interessante, è realizzato con materiali tessili ad alte prestazioni e utilizza l'elettromiografia (emg) per comprendere i segnali neurali associati ai gesti. nel giro di pochi millisecondi questi segnali vengono convertiti in segnali di ingresso e comunicati all’agente informatico, un po’ come in un film di fantascienza.

per quanto riguarda il display, orion ha un campo visivo di 70 gradi ed è dotato di un proiettore micro led nel telaio, in grado di proiettare immagini sul substrato di silicio dell'obiettivo. questo è simile al principio di funzionamento di tutti gli attuali occhiali ar .

zuckerberg ha detto che spera che le persone utilizzino orion per due scopi principali: comunicare con informazioni digitali sovrapposte al mondo reale e interagire con l'intelligenza artificiale.

quest'ultimo è più facile da capire. orion ha le stesse capacità di intelligenza artificiale degli occhiali ray-ban meta, comprese le funzionalità di riconoscimento delle immagini e di interazione linguistica appena aggiunte.

il primo è più astratto. sulla scena, meta ha mostrato una scena che combina immagini olografiche con il mondo reale. meta ha sviluppato una versione ar dell'applicazione messenger per questi occhiali, che può realizzare videochiamate con proiezione olografica in tempo reale, come se l'altra parte fosse in piedi accanto. voi.

per promuovere gli occhiali ar, meta ha anche fatto emergere huang renxun come la prima ondata di utenti a provare orion. zuckerberg ha detto: "huang l'ha provato e ha detto che è buono"!

secondo zuckerberg, la maturazione degli occhiali ar sarà un processo graduale. da un lato, gli occhiali per l'intelligenza artificiale senza display, come ray-ban meta, si diffonderanno più rapidamente.

d’altra parte, sarà reso popolare da occhiali con display piccoli, come l’imminente hypernova di meta, che può fornire interazioni tattili più facili, come interagire con meta ai o comunicare con gli amici.

xiao zha ha affermato che orion rappresenta la forma finale degli occhiali ar: gli occhiali ar maturi hanno una potenza di calcolo sufficiente per permetterti di lasciare lo smartphone a casa.

detto questo, anche se siamo separati dal cellulare, quando usciamo dobbiamo comunque portare con noi il corpo informatico, che è ancora lontano dalla forma finale che avevamo immaginato.

in più, c'è anche una bacinella di acqua fredda versata nel tempo: la durata della batteria di orion è di sole 2 ore. per dirla più semplicemente, orion può permetterti di essere un supereroe nel mondo virtuale solo per 2 ore.

e realizzare la massima libertà degli occhiali ar potrebbe non essere troppo economico. secondo resoconti di media stranieri come the verge e techcrunch, quando ha mostrato la macchina di prova, lo staff di meta ha affermato che l'attuale costo dell'hardware di orion supera i 10.000 dollari. ciò significa che il prezzo di questo prodotto è molto più alto rispetto al vision pro di apple.

conclusione

dal fallimento del metaverso nel 2022 e l’essere ridicolizzato da molte parti, al diventare il re dell’intelligenza artificiale open source nel 2023, fino all’utilizzo degli occhiali intelligenti quest’anno per aprire le porte a una nuova generazione di hardware ai. zuckerberg negli ultimi tre anni ha portato a termine un contrattacco quasi impossibile.

durante questo periodo, le sue due importanti decisioni: realizzare un'intelligenza artificiale open source e sviluppare occhiali intelligenti leggeri, si sono concretizzate entrambe in connect oggi.

dall'esposizione degli occhiali ray-ban dotati di funzioni ai, abbiamo infatti visto i vantaggi degli occhiali come portatore nell'era dell'ia: non solo possono usare la voce per chiamare modelli di grandi dimensioni, ma possono anche sfruttare più direttamente il potenziale dell’intelligenza artificiale multimodale. la "visualizzazione" diretta è un'esperienza utente molto più naturale rispetto alla "scansione" con un telefono cellulare. e questa immediatezza determinerà probabilmente il trasferimento della prossima generazione di dispositivi intelligenti.

l'ultimo orion rilasciato è un lavoro futuro che porta con sé l'ambizione della forma finale di apparecchiature di calcolo spaziale ai. rispetto al pesante e scomodo vision pro, la leggera visione mr di xiao zha è più simile al futuro dell’informatica spaziale. e ora questa visione ha preso forma. se la migrazione dei dispositivi smart nell’era dell’ai è destinata ad avvenire, meta è l’azienda più vicina alla sua soglia rispetto a piccoli tentativi come ai pin.

se parli di tutto questo con una persona nel 2022, sicuramente non ci crederà.zuckerberg, un nerd tecnologico dall'apparenza un po' losca, mantiene davvero la sua promessa e ci porta sempre più vicino all'ingresso del metaverso.

notizia