Die Google-Version von Her ist dem Spiel voraus! Beschwöre Zwillinge mit einem Klick und unterwandere 5,2 Milliarden Terminals auf der ganzen Welt.

Die Google-Version von Her ist dem Spiel voraus! Beschwöre Gemini mit einem Klick und unterwandere 5,2 Milliarden Terminals auf der ganzen Welt

2024-08-14

Neuer Weisheitsbericht

Herausgeber: Redaktion

[Einführung in die neue Weisheit]Google-Version von Her erscheint vor OpenAI? Googles Sprachmodell Gemini Live wird bald auf 3 Milliarden Android- und 2,2 Milliarden iOS-Geräten weltweit verfügbar sein. Obwohl die Live-Demonstration noch ein wenig gescheitert war, war Google entschlossen, nicht länger zu warten und OpenAI zu besiegen und gegen Apple zu kämpfen!

OpenAI, wurde es einfach blockiert?

Kurz nach OpenAIs „Her“ kündigte Google auch offiziell die Veröffentlichung der KI-Sprachfunktion an!

Gerade in der Keynote-Rede „Made by Google“ kündigte Google die Einführung von Gemini Live an, einem Sprachmodus. Gemini Live wird bald in der mobilen Gemini-App verfügbar sein.

Das Wettrüsten zwischen Google und OpenAI hat erneut begonnen.

Schauen Sie sich OpenAI an. Das „Her“, das vor drei Monaten bahnbrechend war, ist immer noch still. Dies ist ein Rhythmus, der von Google sicher zensiert wird.

Rick Osterloh, der Leiter von Google Present, sagte ebenfalls vielsagend: „Wir haben zu viele Versprechungen über KI und Slogans über ihre bevorstehende Einführung gehört. Was wir heute zeigen wollen, sind echte Fortschritte!“

Darüber hinaus demonstrierte Google im Rahmen dieser Präsentation auch ausführlich, wie Gemini tiefer in Android, Apps und neue Pixel-Geräte integriert wird.

In der auf einen Schlag veröffentlichten Mobiltelefonserie Pixel 9 untersuchte Google auch die neue Form von „AI+-Mobiltelefonen“: Welche Art von geräteseitiger KI-Produktform wird durch die Integration von Gemini, Android und Pixel entstehen?

Kann Google nun mit KI-gestütztem Android Apple schlagen?

Googles „Her“ ist auch hier

Laut Google ist Gemini Live ein neues mobiles Gesprächserlebnis.

Wenn wir überlegen möchten, welche Art von Jobs wir aufgrund unserer Fähigkeiten und Ausbildung finden können, können Zwillinge sofort und in Echtzeit mit uns sprechen.

Dieses Gefühl ist, als hätte man einen fürsorglichen Assistenten in der Tasche, der jederzeit chatten kann.

Und wie bei OpenAI ermöglicht auch die Sprachfunktion von Google den Nutzern, mit ihm in natürlicher Konversationssprache zu kommunizieren, und seine Antworten verwenden auch eine menschenähnliche Stimme und einen menschenähnlichen Rhythmus.

Bitte hören Sie sich den Ton unten an. Mehrere männliche und weibliche Stimmen haben sehr natürliche Klangfarben.

Um uns ein möglichst natürliches Erlebnis zu bieten, hat Google 10 Stimmen in einem Atemzug eingeführt, und wir können nach Belieben unseren Lieblingston und -stil wählen.

Darüber hinaus unterstützt Gemini Live auch die Freisprechfunktion. Selbst wenn die Gemini-App im Hintergrund läuft oder das Telefon gesperrt ist, können wir wie bei einem normalen Telefongespräch mit ihr sprechen.

Außerdem können wir es jederzeit unterbrechen und das Thema wechseln – kommt Ihnen bekannt vor, oder? Das ist richtig, es kann alles, was die Stimme von OpenAI kann.

Die fortschrittliche Sprachfunktion „Her“ von OpenAI, die im Mai alle verblüffte, ist noch in der Entwicklung. Ende letzten Monats wurde sie nur selektiv für eine kleine Anzahl von Alpha-Testteilnehmern geöffnet.

In puncto Geschwindigkeit schlägt Google OpenAI deutlich.

Gemini Live ist jetzt für 19,99 $ pro Monat über die Google Gemini-App auf Android-Geräten verfügbar.

Die englische Version ist derzeit geöffnet. Die iOS-Version und die Unterstützung weiterer Sprachen werden in den nächsten Wochen veröffentlicht.

Andererseits wird der erweiterte Sprachmodus von Google im Hinblick auf die Benutzergröße auch einen größeren Bereich potenzieller Benutzer erreichen als OpenAI.

Wissen Sie, es gibt mittlerweile weltweit mehr als 3 Milliarden Android-Nutzer und 2,2 Milliarden iOS-Nutzer.

Ein Teil des Grundes, warum die Sprachfunktion von OpenAI ausfiel, könnte mit der abnormalen Leistung der KI im Red-Team-Test zusammenhängen.

Hat Google diese Sicherheitsprobleme vollständig gelöst? Niemand weiß es noch, aber es ist offensichtlich, dass Google, das anderen nicht nachgeben will, dieses Mal beschlossen hat, alles zu geben.

Aber es hat sich zweimal gewendet

Der einzige Nachteil ist, dass es während der Live-Demonstration von Gemini Live zu einigen Problemen kam.

Als Google-Manager Dave Citron die neuen Funktionen von Gemini für die Verbindung von Google Kalender, Aufgaben und Notizen auf neuen Android-Handys vorstellte, hatte er nicht damit gerechnet, dass es zweimal hintereinander kippen würde.

Zuerst nahm er mit seinem Mobiltelefon ein Werbeplakat für die Modenschau von Sabrina Carpenter in San Francisco auf und fragte Gemini dann: „Überprüfen Sie meinen Zeitplan, um zu sehen, ob ich Zeit habe, an der Modenschau von Sabrina Carpenter teilzunehmen.“

In Geminis erster Antwort sagte sie, dass etwas schiefgegangen sei und sie es erneut versuchen müsse.

Als ich die Schritte gerade zum zweiten Mal ausprobierte, hatte Gemini immer noch keine Antwort.

Erst beim dritten Mal (ein anderes Gerät wurde ausgetauscht) wurden die Ergebnisse endlich bekannt gegeben, und das Publikum brach in lauten Jubel aus.

KI-Assistent neu definiert

In dieser Rede sagte Google: „Mit Gemini haben sie neu definiert, was es bedeutet, dass ein persönlicher Assistent für Menschen wirklich nützlich ist – natürlicher, gesprächiger und intuitiver.“

Verbinden Sie weitere Apps

Was sind die wichtigsten Schlüsselwörter für einen guten KI-Assistenten?

verbinden.

Gemini ist so: Es lässt sich in alle Google-Anwendungen und -Tools integrieren, die wir verwenden, um große und kleine Aufgaben zu erledigen.

Und im Gegensatz zu anderen Assistenten müssen wir keine Zeit damit verbringen, zwischen Anwendungen und Diensten zu wechseln.

In den kommenden Wochen wird Google außerdem neue Erweiterungen einführen, darunter Keep, Tasks, Utilities und YouTube Music.

Welches Essen ist auf dem Bild? Fragen Sie Gemini und es wird alles für Sie aufgelistet.

Angenommen, wir möchten jetzt eine Dinnerparty veranstalten, und Zwillinge können ihre verschiedenen Kampfkünste nutzen –

Über Gmail kann es ein Lasagne-Rezept finden, das uns jemand geschickt hat, und dann die Zutaten zu Keeps Einkaufsliste hinzufügen. Anschließend kann es Gemini bitten, eine Playlist für uns zusammenzustellen, um „mich an das Ende der 90er zu erinnern“.

In der kommenden Google-Kalendererweiterung können wir direkt ein Foto eines Konzertplakats machen und Gemini fragen: Habe ich an diesem Tag Zeit? Wenn die Antwort „Ja“ lautet, können wir Gemini auch bitten, uns beim Einrichten von Erinnerungen und bei der Vorbereitung auf den Ticketkauf zu helfen.

Bitten Sie Gemini, dem Professor eine E-Mail mit der Bitte um Urlaub zu schreiben und um eine Fristverlängerung um ein paar weitere Tage zu bitten, indem Sie einfach sprechen.

Beschwöre Zwillinge mit einem Klick

Jetzt wurde Gemini vollständig in das Android-Benutzererlebnis integriert.

Nur in Android können wir eine solch reibungslose Kontexterkennung erleben.

Solange wir ein Android-Telefon in der Hand haben, können Zwillinge bei Bedarf erscheinen, egal was wir tun möchten.

Halten Sie die Ein-/Aus-Taste gedrückt oder sagen Sie „Hey Google“, um Zwillinge zu beschwören!

Wenn Sie YouTube nutzen, können Sie Gemini Fragen zu Videos stellen.

Angenommen, wir erstellen einen Reiseführer für Reisen ins Ausland und haben uns gerade einen Reisevideo-Blog angesehen. Klicken Sie auf „Nach diesem Video fragen“ und lassen Sie alle Restaurants auflisten, die im Video erscheinen, und fügen Sie sie zu Google Maps hinzu Werde es einzeln machen.

Auf dem Bild unten können die von Gemini generierten Bilder direkt per Drag & Drop in Gmail und Google Messages gezogen werden.

Ich glaube, Sie haben die Schönheit dieser Operation erkannt –

Da Gemini eine umfassende Integration für Android entwickelt hat, kann KI mehr als nur Bildschirminhalte lesen und mit vielen der Apps interagieren, die wir bereits verwenden.

Gemini 1.5 Flash, ausgestattet mit KI-Assistent

Es gibt jedoch zwei Probleme: LLM, das natürliche Sprache besser interpretieren und Aufgaben verarbeiten kann, bedeutet oft, dass selbst einfache Aufgaben mehr Zeit in Anspruch nehmen.

Und wenn KI unerwartetes Verhalten zeigt oder ungenaue Informationen liefert, wird es auch Kopfschmerzen bereiten.

Zu diesem Zweck hat Google eigens ein neues Modell eingeführt – Gemini 1.5 Flash.

Es reagiert schneller und die Qualität seiner Antworten ist höher.

In den kommenden Monaten wird Google das Modell auch tiefer in Google Home, Phone und Messages integrieren.

Laut Google haben wir heute offiziell einen Wendepunkt erreicht, an dem der Nutzen von KI-Assistenten ihre Herausforderungen bei weitem überwiegt.

Erstellen Sie basierend auf Imagen 3 Bilder in 2 Sekunden

Bei dem Treffen stellte Google auch eine neue KI-Anwendung zur Fotogenerierung vor: Pixel Studio.

Es genügen ein paar schnelle Worte, um ein schönes Bild zu erzeugen.

Das Wichtigste ist, dass es sich um eine lokale Bildgenerierungs-APP handelt, die auf Imagen 3 basiert und innerhalb von 2 Sekunden verschiedene Bilder generieren kann.

Ebenfalls heute wurde der technische Bericht von Imagen 3 veröffentlicht. Die technischen Details finden Sie im 32-seitigen Papier.

Papieradresse: https://arxiv.org/pdf/2408.07009

Das erste KI-Telefon kostet 20 Krypton-Dollar pro Monat

All diese KI-Funktionen wurden von Google in die neueste Mobiltelefon-Hardware integriert.

Bei der Veranstaltung stellte Google insgesamt vier KI-Telefone vor – Pixel 9, Pixel9 Pro, Pixel9 Pro XL und das faltbare Display der zweiten Generation, Pixel 9 Pro Fold.

Was Sie bei der neuen Pixel-9-Serie nicht verpassen dürfen, sind die KI-gestützten Kamerafunktionen.

Google sagte, dass der Bildverarbeitungsalgorithmus – HDR+Pipeline – komplett neu aufgebaut wurde, sodass die aufgenommenen Fotos einen besseren Kontrast, Schatten, Belichtung, Schärfe, Farbe usw. aufweisen.

Im Folgenden sind die neuen KI-Bildbearbeitungsfunktionen der Telefone der Pixel 9-Serie aufgeführt:

Füge mich hinzu

Kommt es bei Familientreffen, Teambuilding und Familienausflügen oft vor, dass Sie die Verantwortung für das Fotografieren übernehmen, auf den Fotos aber nur Sie fehlen?

Sie müssen sich jedoch in Zukunft keine Sorgen mehr darüber machen.

Die „Add Me“-Funktion von Google kann Ihr Bedauern wettmachen.

Zunächst muss ein Gruppenfoto gemacht werden. Dann interagiert die für die Aufnahme des Fotos verantwortliche Person mit der Person auf dem Foto und macht ein Foto einschließlich des „Fotografen“.

Zu diesem Zeitpunkt verwendet Pixel Echtzeit-AR-Technologie, um die zweite Person bei der Zusammenstellung des Fotos anzuleiten, damit es mit der Zusammenstellung des ersten Fotos übereinstimmt.

Schließlich führt Pixel die beiden Bilder zusammen, um sicherzustellen, dass alle auf demselben Foto erscheinen, einschließlich des „Fotografen“.

Neu vorstellen

Eine weitere Reimagine-Funktion ist leicht zu verstehen.

Zu diesem Zeitpunkt können Sie mit einer Funktion im Magic Editor den gewünschten Effekt direkt im Textfeld beschreiben.

KI kann Ihre Ideen in die Realität umsetzen.

Sie können beispielsweise den Hintergrund des Fotos, Vulkane, Sonnenuntergänge, Polarlichter und andere Szenen ändern und nach Belieben damit spielen.

Auto Frame

Die automatische Komposition ist eine neue Funktion im Magic Editor, mit der bereits aufgenommene Fotos neu zusammengesetzt werden können.

Es kann sogar Ihre Fotos vergrößern und durch KI leere Hintergrundbereiche erzeugen.

Zoom-Verbesserung

Zoom Enhance kann die Lücken zwischen Pixeln automatisch füllen und Details genau vorhersagen, um hochwertige Aufnahmevergrößerungseffekte zu erzielen.

Die Realisierung von KI-Fähigkeiten ist untrennbar mit den leistungsstarken Chips hinter der Pixel-9-Serie verbunden.

Der leistungsstärkste KI-Prozessor: Google Tensor G4

Das neue Mobiltelefon nutzt den neu entwickelten Prozessor Google Tensor G4.

Google sagte: „Der Tensor G4-Chip ist unser bisher schnellster und leistungsstärkster Chip.“

Basierend auf dem letztjährigen Tensor G3 hat Google gemeinsam mit Samsung einen semi-kundenspezifischen Prozessor Tensor G4 entwickelt, der auf dem 4-nm-Prozess basiert und die von Arm bereitgestellten CPU- und GPU-Kerne nutzt.

Gleichzeitig nutzt es auch Google-eigene Module, um KI-, Fotografie- und Sicherheitsfunktionen zu verbessern.

Es wird berichtet, dass G4 im Vergleich zu den beiden vorherigen Generationen die Geschwindigkeit beim Surfen im Internet um 20 %, die Startgeschwindigkeit der APP um 17 % und den täglichen Batteriestromverbrauch von Anwendungen um bis zu 20 % erhöht hat.

In Bezug auf die CPU ist G4 mit 1 Cortex-X4-Kern mit 3,1 GHz, 3 Cortex-A720-Kernen mit 2,6 GHz und 4 Cortex-A520-Kernen mit 1,95 GHz ausgestattet.

Im Vergleich dazu verfügt der Tensor G3 über einen Cortex-X3-Kern mit 2,91 GHz, vier Cortex-A715-Kerne mit 2,37 GHz und vier Cortex-A510-Kerne mit 1,70 GHz.

Obwohl der Tensor G4 einen Kern weniger hat, sind alle Kerne um 200 MHz bis 300 MHz höher getaktet.

Den durchgesickerten Geekbench-Ergebnissen zufolge erreichte der Tensor G4 im Single-Core-Test 2.005 Punkte und im Multi-Core-Test 4.835 Punkte. Zum Vergleich: Der Tensor G3 erreichte im Single-Core-Test 1.751 Punkte und im Multi-Core-Test 4.208 Punkte. Es gibt einen Leistungsunterschied von 14 %.

Was die GPU angeht, verwendet Tensor G4 dieselbe ARM Mali-G715 GPU wie der letztjährige Tensor G3, aber die Frequenz wurde von 890 MHz auf 940 MHz erhöht. Dies bedeutet, dass die GPU-Leistung von Tensor G4 etwas besser sein sollte als die von Tensor G3.

Unterstützen Sie neue KI-Funktionen

KI ist natürlich eine der Hauptantriebskräfte hinter dem Tensor-Projekt.

Der neu gestaltete Tensor G4 ist darauf ausgelegt, die neuesten Gemini- und Computerfotografiefunktionen zu unterstützen.

Gemini Nano-Modelle, die lokal ausgeführt werden können (die größte Version hat 3,5 Milliarden Parameter), können Inhalte mit einer Geschwindigkeit von 45 Token/s ausgeben.

Obwohl die TPU von Google bereits schnell ist, ist sie ihren Konkurrenten bei der Token-Verarbeitung nicht voraus.

Im Vergleich dazu kann Qualcomm Snapdragon 8 Gen 3 15 Token pro Sekunde ausgeben, wenn 10 Milliarden Parameter ausgeführt werden; MediaTek Dimensity 9300 kann 7 Milliarden Parameter bei 20 Token pro Sekunde ausführen.

Die einzigartigen KI-Fähigkeiten der Pixel-9-Serie hängen jedoch möglicherweise nicht vollständig vom neuen Chip ab, sondern sind das Ergebnis anderer Faktoren.

KI benötigt außerdem viel Speicher und Zugriff auf schnelle und große Speicherpools, um komplexere Modelle ausführen zu können.

Das Pixel 9 verfügt über 12 GB RAM und die Pro-Serie wird auf 16 GB aufgerüstet.

Um ein reibungsloseres KI-Erlebnis zu erreichen, habe Google zum ersten Mal „einen dedizierten Teil des Arbeitsspeichers reserviert, um Gemini auf dem Gerät auszuführen“, um zu verhindern, dass andere Anwendungen den Speicher nutzen.

Google gab jedoch nicht bekannt, wie viel davon für KI-Aufgaben bereitgestellt wurde.

Obwohl der Chip selbst kein großes Upgrade in Bezug auf KI aufweist, kann er durch die Optimierung der RAM-Verwaltung dennoch ein besseres KI-Erlebnis und neue Funktionen bringen.

Referenzen:

https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

https://x.com/TechCrunch/status/1823410187404743131

https://venturebeat.com/ai/googles-ai-surprise-gemini-live-speaks-like-a-human-take-on-chatgpt-advanced-voice-mode/

https://www.androidauthority.com/google-tensor-g4-explained-3466184/

Nachricht

Die Google-Version von Her ist dem Spiel voraus! Beschwöre Gemini mit einem Klick und unterwandere 5,2 Milliarden Terminals auf der ganzen Welt

Einführung

Meine Kontaktdaten