Google merilis Gemini Live: mendukung obrolan suara AI dan dapat mensimulasikan adegan wawancara

2024-08-14

IT House melaporkan pada 14 Agustus bahwa pada konferensi peluncuran ponsel seri Pixel 9 Google yang diadakan hari ini,Layanan Gemini Live telah dirilis dan akan tersedia untuk pelanggan Gemini Advanced berbahasa Inggris mulai hari ini.

Promosikan pertukaran percakapan yang alami dan lancar

Google mengatakan Gemini Live memberikan pengalaman percakapan seluler yang memungkinkan pengguna melakukan percakapan bebas dengan Gemini.

Gemini Live dapat dikatakan sebagai mode Suara Tingkat Lanjut terbaru (tes Alpha terbatas) yang diluncurkan oleh OpenAI ChatGPT. Mode ini mengadopsi mesin ucapan yang disempurnakan dan dapat melakukan percakapan multi-putaran yang lebih koheren, ekspresif secara emosional, dan realistis.

Google mengatakan pengguna dapat menyela chatbot saat sedang berbicara untuk mengajukan pertanyaan lanjutan, dan chatbot akan beradaptasi dengan pola bicara pengguna secara real time.

Bagian dari postingan blog Google yang diterjemahkan oleh IT House adalah sebagai berikut:

Dengan Gemini Live [menggunakan aplikasi Gemini], pengguna dapat berbicara dengan Gemini dan memilih dari [10 baru] suara alami yang dapat ditanggapinya. Pengguna bahkan dapat berbicara dengan kecepatan mereka sendiri atau menyela di tengah jawaban untuk mengajukan pertanyaan klarifikasi, seperti dalam percakapan manusia.

Google mendemonstrasikan adegan Gemini Live, yang menyimulasikan percakapan antara pengguna dan manajer perekrutan (atau kecerdasan buatan, tergantung situasinya), memberikan rekomendasi kepada pengguna tentang keterampilan berbicara dan saran pengoptimalan.

Seorang juru bicara Google berkata:

Live menggunakan model Gemini Advanced kami, yang telah kami sesuaikan agar lebih komunikatif. Jendela konteks besar model digunakan saat pengguna terlibat dalam percakapan panjang dengan Live.

Tidak mendukung input multimodal

Gemini Live belum memiliki salah satu fitur yang dipamerkan Google di I/O: input multimodal.

Google merilis video yang direkam sebelumnya pada bulan Mei yang menunjukkan Gemini Live melihat dan bereaksi terhadap lingkungan sekitar pengguna melalui foto dan video yang diambil dengan kamera ponsel, seperti memberi nama bagian-bagian pada sepeda yang rusak, atau Menjelaskan beberapa kode di layar komputer. melakukan.

Google mengatakan input multimoda akan diluncurkan “akhir tahun ini,” tetapi menolak untuk memberikan rinciannya.

berita

Google merilis Gemini Live: mendukung obrolan suara AI dan dapat mensimulasikan adegan wawancara

Perkenalan

Informasi kontak saya