La versione Google di Her è all'avanguardia! Evoca Gemini con un clic, sovvertendo 5,2 miliardi di terminali in tutto il mondo

2024-08-14

Nuovo rapporto sulla saggezza

Redattore: Dipartimento editoriale

[Introduzione alla Nuova Saggezza]La versione Google di Her debutta prima di OpenAI? Il modello vocale di Google Gemini Live sarà presto disponibile su 3 miliardi di dispositivi Android e 2,2 miliardi di dispositivi iOS in tutto il mondo. Anche se la dimostrazione dal vivo era ancora un po' ribaltata, Google era determinata a non aspettare oltre, ed era determinata a sconfiggere OpenAI e combattere contro Apple!

OpenAI, è stato semplicemente bloccato?

Sulla scia di "Her" di OpenAI, Google ha anche annunciato ufficialmente: il rilascio della funzione vocale AI!

Proprio poco fa, nel discorso di apertura "Made by Google", Google ha annunciato il lancio di Gemini Live, una modalità vocale. Gemini Live sarà presto disponibile sull'app mobile Gemini.

La corsa agli armamenti tra Google e OpenAI è ricominciata.

Date un'occhiata a OpenAI. La "Her" che è stata rivoluzionaria tre mesi fa è ancora silenziosa. Questo è un ritmo che sicuramente verrà censurato da Google.

Anche Rick Osterloh, il leader di Google Present, ha affermato in modo significativo: "Abbiamo sentito troppe promesse sull'intelligenza artificiale e troppi slogan sul suo imminente lancio. Oggi, ciò che vogliamo mostrare è un vero progresso!"

Inoltre, durante questa presentazione, Google ha anche dimostrato in dettaglio come Gemini sarà integrato più profondamente in Android, nelle app e nei nuovi dispositivi Pixel.

Nella serie di telefoni cellulari Pixel 9 lanciata in un colpo solo, Google ha esplorato anche la nuova forma di "telefoni cellulari AI+": che tipo di forma di prodotto AI lato dispositivo sarà nata dall'integrazione di Gemini, Android e Pixel.

Ora, con Android basato sull’intelligenza artificiale, Google può battere Apple?

Anche “Her” di Google è qui

Secondo Google, Gemini Live è una nuova esperienza di conversazione mobile.

Se vogliamo fare un brainstorming su che tipo di lavoro possiamo trovare in base alle nostre competenze e alla nostra istruzione, i Gemelli possono immediatamente parlarci in tempo reale.

Questa sensazione è come avere in tasca un assistente premuroso che può chattare in qualsiasi momento.

E come OpenAI, anche la funzione vocale di Google consente agli utenti di comunicare con esso in un linguaggio di conversazione naturale e le sue risposte utilizzano anche una voce e un ritmo simili a quelli umani.

Si prega di ascoltare l'audio qui sotto. Diverse voci maschili e femminili hanno timbri molto naturali.

Per darci l'esperienza più naturale, Google ha lanciato 10 voci d'un fiato e possiamo scegliere a nostro piacimento il tono e lo stile preferiti.

Inoltre, Gemini Live supporta anche la funzione vivavoce. Anche se l'app Gemini è in background o il telefono è bloccato, possiamo comunque parlarci come durante una normale telefonata.

Inoltre, possiamo interromperlo e cambiare argomento in qualsiasi momento: sembra familiare, vero? Esatto, può fare tutto ciò che può fare la voce di OpenAI.

La funzione vocale avanzata “Her” di OpenAI, che ha stupito tutti a maggio, è ancora in fase di sviluppo. Alla fine del mese scorso è stata aperta solo selettivamente a un piccolo numero di partecipanti all’Alpha test.

In termini di velocità, Google batte chiaramente OpenAI.

Gemini Live è ora disponibile su dispositivi Android per $ 19,99 al mese tramite l'app Google Gemini.

Al momento è aperta la versione inglese, mentre nelle prossime settimane verrà lanciata la versione iOS e il supporto per più lingue.

D'altro canto, in termini di scala utente, la modalità vocale avanzata di Google raggiungerà anche una gamma più ampia di potenziali utenti rispetto a OpenAI.

Sai, ora ci sono più di 3 miliardi di utenti Android e 2,2 miliardi di utenti iOS nel mondo.

Parte del motivo per cui la funzione vocale di OpenAI ha fallito potrebbe essere legato alle prestazioni anomale dell’IA nel test della squadra rossa.

Google ha risolto completamente questi problemi di sicurezza? Nessuno lo sa ancora, ma è evidente che Google, che non vuole soccombere agli altri, questa volta ha deciso di dare il massimo.

Ma si è ribaltato due volte

L'unico inconveniente è che si sono verificati alcuni intoppi durante la dimostrazione dal vivo di Gemini Live.

Quando il dirigente di Google Dave Citron ha mostrato le nuove funzionalità di Gemini per connettere Google Calendar, Tasks e Keep sui nuovi telefoni Android, non si aspettava di ribaltare la situazione due volte di seguito.

Per prima cosa ha usato il suo telefono cellulare per scattare un poster promozionale per la sfilata di Sabrina Carpenter a San Francisco, quindi ha chiesto a Gemini: "Controlla i miei impegni per vedere se sono libero per partecipare alla sfilata di Sabrina Carpenter".

Nella prima risposta di Gemini, ha detto che qualcosa era andato storto e doveva riprovare.

Quando ho provato i passaggi proprio ora per la seconda volta, Gemini non ha ancora ricevuto risposta.

Solo la terza volta (è stato cambiato un dispositivo diverso) i risultati sono stati finalmente forniti e ci sono stati applausi da parte del pubblico.

Ridefinire l'Assistente AI

In questo discorso, Google ha affermato: Con Gemini, hanno reinventato cosa significa per un assistente personale essere veramente utile agli esseri umani: più naturale, colloquiale e intuitivo.

Connetti più app

Quali sono le parole chiave più importanti per un buon assistente AI?

collegare.

Gemini è così, si integrerà con tutte le applicazioni e gli strumenti Google che utilizziamo per portare a termine compiti grandi e piccoli.

E a differenza di altri assistenti, non dobbiamo perdere tempo passando da un'applicazione all'altra e da un servizio all'altro.

Nelle prossime settimane Google lancerà anche nuove estensioni, tra cui Keep, Tasks, Utilities e YouTube Music.

Che cibo c'è nella foto? Chiedi a Gemini e ti elencherà tutto.

Supponiamo ora di voler organizzare una cena, Gemini può usare le sue varie arti marziali——

Da Gmail, può trovare una ricetta di lasagne che qualcuno ci ha inviato, quindi aggiungere gli ingredienti alla lista della spesa di Keep, quindi può chiedere a Gemini di compilare una playlist per noi, chiedendogli di "ricordarmi la fine degli anni '90".

Nella prossima estensione del calendario di Google, possiamo scattare direttamente una foto del poster di un concerto e chiedere a Gemini: sono libero quel giorno? Se la risposta è sì, possiamo anche chiedere ai Gemelli di aiutarci a impostare promemoria e prepararci a prendere i biglietti.

Chiedi a Gemelli di scrivere una mail al professore chiedendo ferie, e di chiedere una proroga dei termini per qualche altro giorno, semplicemente parlando.

Evoca Gemini con un clic

Ora, Gemini è stato completamente integrato nell'esperienza utente Android.

Solo in Android possiamo sperimentare una consapevolezza del contesto così fluida.

Finché abbiamo in mano un telefono Android, qualunque cosa vogliamo fare, Gemini può apparire quando necessario.

Tieni premuto il pulsante di accensione oppure dì "Ehi Google" per evocare Gemini!

Se utilizzi YouTube, puoi porre domande a Gemini sui video.

Ad esempio, supponiamo di creare una guida per viaggiare all'estero e di aver appena guardato un video blog di viaggio. Fai clic su "Chiedi informazioni su questo video" e lascia che elenchi tutti i ristoranti visualizzati nel video e li aggiunga a Google Maps lo farò uno per uno.

Guardando l'immagine qui sotto, le immagini generate da Gemini possono essere direttamente trascinate e rilasciate in Gmail e Google Messaggi.

Credo che tu abbia capito la bellezza di questa operazione——

Poiché Gemini ha creato una profonda integrazione per Android, l'intelligenza artificiale può fare molto di più che leggere semplicemente il contenuto dello schermo e interagire con molte delle app che già utilizziamo.

Gemini 1.5 Flash, dotato di assistente AI

Tuttavia, ci sono due problemi: un LLM in grado di interpretare meglio il linguaggio naturale e di elaborare le attività spesso significa che occorre più tempo per completare anche attività semplici.

E se l’intelligenza artificiale mostra un comportamento inaspettato o fornisce informazioni imprecise, anche questo sarà un grattacapo.

A tal fine, Google ha introdotto appositamente un nuovo modello: Gemini 1.5 Flash.

Risponde più velocemente e la qualità delle sue risposte è più elevata.

Nei prossimi mesi, Google integrerà ulteriormente il modello anche con Google Home, Telefono e Messaggi.

Google afferma che oggi abbiamo ufficialmente raggiunto un punto di svolta in cui l’utilità degli assistenti AI supera di gran lunga le loro sfide.

Basato su Imagen 3, genera immagini in 2 secondi

Durante l'incontro, Google ha anche lanciato Pixel Studio, una nuova applicazione per la generazione di foto tramite intelligenza artificiale.

Bastano poche parole per generare una bella immagine.

La cosa più importante è che si tratta di un'APP per la generazione di immagini locale, basata su Imagen 3, in grado di generare varie immagini entro 2 secondi.

Sempre oggi è stata pubblicata anche la relazione tecnica di Imagen 3. I dettagli tecnici si trovano nel documento di 32 pagine.

Indirizzo del documento: https://arxiv.org/pdf/2408.07009

Il primo telefono AI costa 20 krypton dollari al mese

Tutte queste funzionalità di intelligenza artificiale sono state integrate nell'hardware più recente del telefono cellulare di Google.

Durante l'evento, Google ha rilasciato un totale di quattro telefoni AI: Pixel 9, Pixel9 Pro, Pixel9 Pro XL e lo schermo pieghevole di seconda generazione Pixel 9 Pro Fold.

Ciò che non devi perdere sulla nuova serie Pixel 9 sono le funzionalità della fotocamera basate sull'intelligenza artificiale.

Google ha affermato che l'algoritmo di elaborazione delle immagini - HDR+pipeline, è stato completamente ricostruito, consentendo alle foto scattate di avere contrasto, ombre, esposizione, nitidezza, colore, ecc. migliori.

Di seguito sono riportate le nuove funzionalità di modifica delle immagini AI dei telefoni della serie Pixel 9:

Aggiungimi

Ti capita spesso di riscontrare che durante le riunioni di famiglia, il team building e i viaggi di famiglia, ti assumi la responsabilità di scattare foto, ma sei l'unico che manca dalle foto?

Tuttavia, non devi preoccuparti di questo in futuro.

La funzione "Aggiungimi" di Google può compensare i tuoi rimpianti.

Per prima cosa è necessario scattare una foto di gruppo. Quindi, la persona responsabile dello scatto interagisce con la persona nella foto e scatta una foto includendo il "fotografo".

Al momento, Pixel utilizza la tecnologia AR in tempo reale per guidare la seconda persona a comporre la foto in modo che corrisponda alla composizione della prima foto.

Infine, Pixel unisce le due immagini per garantire che tutti appaiano nella stessa foto, compreso il "fotografo".

Reimmaginare

Un'altra funzione Reimagine è facile da capire.

Al momento, una funzionalità del Magic Editor ti consente di descrivere l'effetto desiderato direttamente nella casella di testo.

L’intelligenza artificiale può trasformare le tue idee in realtà.

Ad esempio, puoi modificare lo sfondo della foto, i vulcani, i tramonti, l'aurora e altre scene e giocare con loro come preferisci.

Telaio automatico

La composizione automatica è una nuova funzionalità di Magic Editor che può ricomporre le foto già scattate.

Può persino ingrandire le tue foto e generare sfondi di aree vuote tramite l'intelligenza artificiale.

Zoom Migliora

Zoom Enhance può riempire automaticamente gli spazi tra i pixel e prevedere con precisione i dettagli per ottenere effetti di ingrandimento di ripresa di alta qualità.

La realizzazione delle capacità AI è inseparabile dai potenti chip dietro la serie Pixel 9.

Il processore AI più potente: Google Tensor G4

Il nuovo telefono cellulare utilizza il processore di nuova concezione di Google: Google Tensor G4.

Google ha dichiarato: "Il chip Tensor G4 è il nostro chip più veloce e potente finora".

Basandosi sul Tensor G3 dello scorso anno, Google ha collaborato con Samsung per creare un processore semi-personalizzato Tensor G4 basato sul processo a 4 nm, utilizzando i core CPU e GPU forniti da Arm.

Allo stesso tempo, utilizza anche i moduli di Google per migliorare le funzioni di intelligenza artificiale, fotografia e sicurezza.

È stato riferito che rispetto alle due generazioni precedenti, G4 ha aumentato la velocità di navigazione web del 20%, la velocità di avvio dell'APP del 17% e il consumo energetico giornaliero della batteria delle applicazioni è aumentato fino al 20%.

In termini di CPU, G4 è dotato di 1 core Cortex-X4 a 3,1 GHz, 3 core Cortex-A720 a 2,6 GHz e 4 core Cortex-A520 a 1,95 GHz.

In confronto, il Tensor G3 ha un core Cortex-X3 a 2,91 GHz, quattro core Cortex-A715 a 2,37 GHz e quattro core Cortex-A510 a 1,70 GHz.

Sebbene il Tensor G4 abbia un core in meno, tutti i core hanno un clock da 200 MHz a 300 MHz superiore.

Secondo i punteggi trapelati da Geekbench, il Tensor G4 ha ottenuto 2.005 nel test single-core e 4.835 nel test multi-core. In confronto, il Tensor G3 ha ottenuto 1.751 nel test single-core e 4.208 nel test multi-core. C'è una differenza di prestazioni del 14%.

Per quanto riguarda la GPU, Tensor G4 utilizza la stessa GPU ARM Mali-G715 del Tensor G3 dell'anno scorso, ma la frequenza è stata aumentata da 890 MHz a 940 MHz. Ciò significa che le prestazioni della GPU del Tensor G4 dovrebbero essere leggermente migliori di quelle del Tensor G3.

Supporta nuove funzioni AI

L’intelligenza artificiale è ovviamente una delle principali forze trainanti del progetto Tensor.

Il Tensor G4 riprogettato è progettato per potenziare le più recenti funzioni Gemini e di fotografia computazionale.

I modelli Gemini Nano che possono essere eseguiti localmente (la versione più grande ha 3,5 miliardi di parametri) possono generare contenuti a una velocità di 45 token/s.

Sebbene il TPU di Google sia già veloce, non è in vantaggio rispetto ai suoi concorrenti in termini di elaborazione dei token.

In confronto, Qualcomm Snapdragon 8 Gen 3 può generare 15 token al secondo eseguendo 10 miliardi di parametri. MediaTek Dimensity 9300 può eseguire 7 miliardi di parametri a 20 token al secondo.

Tuttavia, le capacità AI uniche della serie Pixel 9 potrebbero non dipendere interamente dal nuovo chip, ma piuttosto dal risultato di altri fattori.

L’intelligenza artificiale richiede inoltre grandi quantità di memoria e l’accesso a pool di memoria veloci e di grandi dimensioni per eseguire modelli più complessi.

Pixel 9 viene fornito con 12 GB di RAM e la serie Pro viene aggiornata a 16 GB.

Google ha affermato che, per ottenere un'esperienza IA più fluida, questa è la prima volta che mette da parte "una porzione dedicata di RAM per eseguire Gemini sul dispositivo" per impedire ad altre applicazioni di utilizzare la memoria.

Tuttavia, Google non ha rivelato quanta parte sia stata destinata alle attività di intelligenza artificiale.

Sebbene il chip in sé non disponga di un aggiornamento importante in termini di intelligenza artificiale, potrebbe comunque offrire una migliore esperienza di intelligenza artificiale e nuove funzionalità attraverso l'ottimizzazione della gestione della RAM.

Riferimenti:

https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

https://x.com/TechCrunch/status/1823410187404743131

https://venturebeat.com/ai/googles-ai-surprise-gemini-live-speaks-like-a-human-taking-on-chatgpt-advanced-voice-mode/

https://www.androidauthority.com/google-tensor-g4-explained-3466184/

notizia

La versione Google di Her è all'avanguardia! Evoca Gemini con un clic, sovvertendo 5,2 miliardi di terminali in tutto il mondo

Introduzione

Le mie informazioni di contatto