νέα

Η Google κυκλοφορεί το Gemini Live: υποστηρίζει φωνητική συνομιλία AI και μπορεί να προσομοιώσει σκηνές συνεντεύξεων

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Σύμφωνα με τα νέα του IT House στις 14 Αυγούστου, η Google πραγματοποίησε τη σημερινή διάσκεψη κυκλοφορίας κινητών τηλεφώνων της σειράς Pixel 9.Η υπηρεσία Gemini Live κυκλοφόρησε και θα είναι διαθέσιμη στους αγγλόφωνους συνδρομητές Gemini Advanced από σήμερα.


Προωθήστε τις φυσικές, ομαλές συνομιλίες

Η Google είπε ότι το Gemini Live παρέχει μια εμπειρία συνομιλίας μέσω κινητού που επιτρέπει στους χρήστες να έχουν ελεύθερες συνομιλίες με τους Gemini.

Το Gemini Live μπορεί να ειπωθεί ότι είναι η πιο πρόσφατη λειτουργία Advanced Voice (περιορισμένη δοκιμή Alpha) που κυκλοφόρησε από το OpenAI ChatGPT. Υιοθετεί μια βελτιωμένη μηχανή ομιλίας και μπορεί να πραγματοποιήσει συνομιλίες πολλαπλών γύρων που είναι πιο συνεκτικές, συναισθηματικά εκφραστικές και ρεαλιστικές.


Η Google λέει ότι οι χρήστες μπορούν να διακόψουν το chatbot ενώ μιλάει για να κάνουν ερωτήσεις παρακολούθησης και το chatbot θα προσαρμοστεί στα μοτίβα ομιλίας του χρήστη σε πραγματικό χρόνο.

Μέρος της ανάρτησης ιστολογίου Google που μεταφράστηκε από το IT House έχει ως εξής:

Με το Gemini Live [χρησιμοποιώντας την εφαρμογή Gemini], οι χρήστες μπορούν να μιλήσουν με το Gemini και να επιλέξουν από [10 νέους] φυσικούς ήχους στους οποίους μπορεί να ανταποκριθεί. Οι χρήστες μπορούν ακόμη και να μιλήσουν με τον δικό τους ρυθμό ή να διακόψουν τη μέση της απάντησης για να κάνουν διευκρινιστικές ερωτήσεις, ακριβώς όπως σε μια ανθρώπινη συνομιλία.

Η Google παρουσίασε μια σκηνή του Gemini Live, που προσομοιώνει μια συνομιλία μεταξύ ενός χρήστη και ενός διευθυντή προσλήψεων (ή τεχνητής νοημοσύνης, ανάλογα με την κατάσταση), παρέχοντας στους χρήστες συστάσεις σχετικά με τις δεξιότητες ομιλίας και προτάσεις βελτιστοποίησης.

Ένας εκπρόσωπος της Google είπε:

Το Live χρησιμοποιεί το μοντέλο Gemini Advanced, το οποίο έχουμε τροποποιήσει για να το κάνουμε πιο συνομιλητικό. Το μεγάλο παράθυρο περιβάλλοντος του μοντέλου χρησιμοποιείται όταν οι χρήστες συμμετέχουν σε μεγάλες συνομιλίες με το Live.
Δεν υποστηρίζει πολυτροπική είσοδο

Το Gemini Live δεν διαθέτει ακόμη ένα από τα χαρακτηριστικά που έδειξε η Google στο I/O: multi-modal input.

Η Google κυκλοφόρησε ένα προηχογραφημένο βίντεο τον Μάιο που δείχνει το Gemini Live να βλέπει και να αντιδρά στο περιβάλλον του χρήστη μέσω φωτογραφιών και βίντεο που τραβήχτηκαν από την κάμερα του τηλεφώνου, όπως να ονομάσει τα μέρη σε ένα σπασμένο ποδήλατο ή να εξηγήσει ποιος είναι ο κώδικας στην οθόνη του υπολογιστή κάνει.

Η Google είπε ότι η πολυτροπική εισαγωγή θα κυκλοφορήσει "αργότερα φέτος", αλλά αρνήθηκε να κοινοποιήσει λεπτομέρειες.