notizia

Google rilascia Gemini Live: supporta la chat vocale AI e può simulare scene di interviste

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Secondo le notizie di IT House del 14 agosto, Google ha tenuto oggi la conferenza sul lancio dei telefoni cellulari della serie Pixel 9.Il servizio Gemini Live è stato rilasciato e sarà disponibile a partire da oggi per gli abbonati Gemini Advanced di lingua inglese.


Promuovere scambi di conversazione naturali e fluidi

Google ha affermato che Gemini Live fornisce un'esperienza di conversazione mobile che consente agli utenti di avere conversazioni fluide con Gemini.

Si può dire che Gemini Live sia l'ultima modalità vocale avanzata (test Alpha limitato) lanciata da OpenAI ChatGPT. Adotta un motore vocale migliorato e può effettuare conversazioni a più round più coerenti, emotivamente espressive e realistiche.


Google afferma che gli utenti possono interrompere il chatbot mentre parla per porre domande di follow-up e il chatbot si adatterà ai modelli di conversazione dell'utente in tempo reale.

Parte del post del blog di Google tradotto da IT House è la seguente:

Con Gemini Live [utilizzando l'app Gemini], gli utenti possono parlare con Gemini e scegliere tra [10 nuovi] suoni naturali a cui può rispondere. Gli utenti possono anche parlare al proprio ritmo o interrompere a metà risposta per porre domande chiarificatrici, proprio come in una conversazione umana.

Google ha mostrato una scena di Gemini Live, simulando una conversazione tra un utente e un responsabile delle assunzioni (o intelligenza artificiale, a seconda della situazione), fornendo agli utenti consigli sulle capacità di parlare e suggerimenti di ottimizzazione.

Un portavoce di Google ha detto:

Live utilizza il nostro modello Gemini Advanced, che abbiamo ottimizzato per renderlo più colloquiale. L'ampia finestra di contesto del modello viene utilizzata quando gli utenti intraprendono lunghe conversazioni con Live.
Non supporta l'input multimodale

Gemini Live non ha ancora una delle funzionalità che Google ha mostrato all'I/O: input multimodale.

Google ha rilasciato a maggio un video preregistrato che mostra Gemini Live che vede e reagisce all'ambiente circostante l'utente attraverso foto e video catturati dalla fotocamera del telefono, come nominare le parti di una bicicletta rotta o spiegare quale parte del codice sullo schermo del computer. fa.

Google ha affermato che l’input multimodale verrà lanciato “entro la fine dell’anno”, ma ha rifiutato di condividere i dettagli.