Google veröffentlicht Gemini Live: unterstützt KI-Voice-Chat und kann Interviewszenen simulieren

2024-08-14

Laut IT House-Nachrichten vom 14. August veranstaltete Google heute die Einführungskonferenz für Mobiltelefone der Pixel 9-Serie.Der Gemini Live-Dienst wurde veröffentlicht und steht ab heute englischsprachigen Gemini Advanced-Abonnenten zur Verfügung.

Fördern Sie einen natürlichen, reibungslosen Gesprächsaustausch

Laut Google bietet Gemini Live ein mobiles Gesprächserlebnis, das es Nutzern ermöglicht, ungehinderte Gespräche mit Gemini zu führen.

Gemini Live ist der neueste von OpenAI ChatGPT eingeführte Advanced Voice-Modus (eingeschränkter Alpha-Test). Er verfügt über eine verbesserte Sprach-Engine und kann Mehrrundengespräche führen, die kohärenter, emotional ausdrucksvoller und realistischer sind.

Laut Google können Benutzer den Chatbot während des Sprechens unterbrechen, um Folgefragen zu stellen, und der Chatbot passt sich in Echtzeit an die Sprechmuster des Benutzers an.

Ein Teil des von IT House übersetzten Google-Blogbeitrags lautet wie folgt:

Mit Gemini Live [mithilfe der Gemini-App] können Benutzer mit Gemini sprechen und aus [10 neuen] natürlichen Geräuschen auswählen, auf die es reagieren kann. Benutzer können sogar in ihrem eigenen Tempo sprechen oder mitten in der Antwort unterbrechen, um klärende Fragen zu stellen, genau wie in einem menschlichen Gespräch.

Google demonstrierte eine Szene von Gemini Live, in der ein Gespräch zwischen einem Benutzer und einem Personalmanager (oder künstlicher Intelligenz, je nach Situation) simuliert und den Benutzern Empfehlungen zu Sprechfähigkeiten und Optimierungsvorschläge gegeben wurden.

Ein Google-Sprecher sagte:

Live verwendet unser Gemini Advanced-Modell, das wir optimiert haben, um es gesprächiger zu machen. Das große Kontextfenster des Modells wird verwendet, wenn Benutzer lange Gespräche mit Live führen.

Unterstützt keine multimodale Eingabe

Gemini Live verfügt noch nicht über eine der Funktionen, die Google auf der I/O gezeigt hat: multimodale Eingabe.

Google hat im Mai ein vorab aufgezeichnetes Video veröffentlicht, das zeigt, wie Gemini Live anhand von Fotos und Videos, die von der Kamera des Telefons aufgenommen wurden, die Umgebung des Benutzers sieht und darauf reagiert, wie zum Beispiel die Benennung der Teile eines kaputten Fahrrads oder die Erklärung einiger Codes auf dem Computerbildschirm tut.

Google sagte, der multimodale Input werde „später in diesem Jahr“ eingeführt, lehnte es jedoch ab, Einzelheiten mitzuteilen.

Nachricht

Google veröffentlicht Gemini Live: unterstützt KI-Voice-Chat und kann Interviewszenen simulieren

Einführung

Meine Kontaktdaten