Nachricht

Google: Android-Telefone, hören Sie mir zu, die KI muss das tun

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Autor |. Xinxin
bearbeiten |. Jingyu

Einen Monat vor Apple hat Google mit seinem neuen Pixel-Telefon alle Möglichkeiten von AI+-Telefonen demonstriert.

Am 13. August Ortszeit veröffentlichte Google neue Hardwareprodukte wie Pixel 9, Pixel 9 Pro, das Faltdisplay Pixel 9 Fold der zweiten Generation, Smartwatches und Kopfhörer. Im Vergleich zur Hardware sind die Menschen eher besorgt darüber, wie Google als Manager des Android-Systems die On-Device-KI für Android-Telefone nutzen wird, wenn AI+-Mobiltelefone so beliebt sind.

Vor knapp 10 Monaten brachte Google die erste Generation von KI-Handys auf den Markt, nun vor weniger als einem Jahr hat der Riese sein Produktportfolio aus Gemini, Android und Pixel erneut aktualisiert Konkurrenten haben.“ „Modell.

Seit OpenAI den ChatGPT-Sprachmodus eingeführt hat und die KI-Funktionen von Apples iPhone der nächsten Generation offengelegt wurden, ist Google nicht bereit, bei den Möglichkeiten seiner Kollegen ins Hintertreffen zu geraten, einschließlich KI-Sprachgesprächen, der Suche nach Informationen in Screenshots usw. Gleichzeitig integriert Google KI auch weiter in sein eigenes Anwendungsökosystem.

Wer ist der Marktführer bei KI-Mobiltelefonen? Google muss mit Apple konkurrieren.

Als Antwort auf OpenAI:

Gemini Live ist online

Gemini ist der Eckpfeiler der verschiedenen KI-Produkte von Google und der Standardassistent auf den Mobiltelefonen der Pixel-9-Serie. Welche Upgrades Gemini bei der Integration in Mobiltelefone bietet, war ein Hauptschwerpunkt der Konferenz.

Zwillinge auf Google Pixel-Telefonen können durch Drücken der Ein-/Aus-Taste beschworen werden. Laut Google-Führungskräften können Benutzer ab heute Gemini-Overlays über den von ihnen verwendeten Apps anzeigen, um Fragen zu den Bildschirminhalten zu stellen. Benutzer können beispielsweise Fragen zu einem YouTube-Video stellen, das sie gerade ansehen, oder sie können Bilder direkt aus den Overlays von Gemini generieren und diese per Drag & Drop in Apps wie Gmail und Google Messages ziehen.

Google plant außerdem, Gemini „in den kommenden Wochen“ mit weiteren Apps zu verbinden, darunter Kalender, Keep und YouTube Music. Zu den besonderen Funktionen gehört, Gemini zu bitten, „eine Playlist mit Liedern zu erstellen, die mich an die späten 90er Jahre erinnern.“ „Machen Sie ein Foto von einem Konzertflyer und bitten Sie Gemini, die Verfügbarkeit an diesem Tag zu prüfen – und stellen Sie sogar Erinnerungen für den Kauf von Tickets ein.“ Bitten Sie Gemini darum Suchen Sie ein Rezept in Ihrem Gmail und bitten Sie es, die Zutaten zu Ihrer Einkaufsliste in Keep hinzuzufügen.


Gemini nutzt Screenshots, um Informationen zu extrahieren und mit weiteren Apps zu interagieren |

Zusätzlich zu diesen integrierten Erlebnissen hat Google auch offiziell Gemini Live eingeführt. Man kann sagen, dass diese Funktion Googles Antwort auf den von OpenAI eingeführten erweiterten Sprachmodus GPT-4o ist. Diese Funktion wurde bereits auf der I/O-Entwicklerkonferenz 2024 von Google vorgestellt und wird heute offiziell eingeführt.

Benutzer können ihre Mobiltelefone verwenden, um Sprachgespräche mit Gemini, dem generativen KI-Chatbot von Google, zu führen. Sie können die Unterhaltung jederzeit unterbrechen und weitere Fragen stellen. Zu den konkreten Einsatzmöglichkeiten gehören beispielsweise die Begleitung durch Gemini Live bei der Vorbereitung auf Vorstellungsgespräche, beim Üben von Reden und bei lockeren Gesprächen über Themen, die Ihnen am Herzen liegen.


Gemini Live zielt offensichtlich darauf ab, die Sprachinteraktion von GPT-4o zu vergleichen|Bildquelle: Google

Hat Gemini Live also irgendwelche Vorteile gegenüber dem Sprachmodus von ChatGPT?

Es heißt, dass die generative KI-Modellarchitektur, die Live – Gemini 1.5 Pro und Gemini 1.5 Flash unterstützt, über ein überdurchschnittlich langes „Kontextfenster“ verfügt, was bedeutet, dass sie große Datenmengen verarbeiten und beurteilen können, bevor eine Antwort generiert wird Theorie Gespräche können stundenlang dauern.

Gemini Live funktioniert auch freihändig, sodass Benutzer Sprachgespräche im Hintergrund der App oder bei gesperrtem Telefon fortsetzen können, wobei 10 neue Stimmen zur Auswahl stehen.

Es ist jedoch erwähnenswert, dass Gemini Live die Funktion „Multimodale Eingabe“ noch nicht eingeführt hat, die angeblich „später in diesem Jahr“ eingeführt wird.

Vor einigen Monaten veröffentlichte Google ein vorab aufgezeichnetes Video, das zeigt, wie Gemini Live anhand von Fotos und Videos, die von der Kamera des Telefons aufgenommen wurden, die Umgebung des Benutzers erkennen und reagieren kann, indem er beispielsweise auf ein kaputtes Fahrradteil hinweist oder erklärt, was auf einem Computerbildschirm passiert . Die Funktionalität eines Codestücks, von dem nichts live demonstriert wurde.

Darüber hinaus ist Gemini Live für Gemini Advanced-Abonnenten auf Android-Telefonen verfügbar und nicht kostenlos. Derzeit ist es nur auf Englisch verfügbar, aber Google sagt, dass es „in den kommenden Wochen“ auf weitere Sprachen und über eine App auf iOS ausgeweitet wird.


Live-Übertragung der Demonstration von Google-Führungskräften Gemini Live|Bildquelle: Google

Ein Google Gemini Experience- und Google Assistant-Manager sagte: „Google befindet sich in einem frühen Stadium der Erforschung von Möglichkeiten, wie KI-gestützte Assistenten nützlich sein können – und genau wie Pixel-Telefone werden Gemini immer besser.“

Darüber hinaus sagten Führungskräfte des Android-Ökosystems von Google, dass Gemini Hunderte von Mobiltelefonmodellen von Dutzenden von Geräteherstellern unterstützt und dass bei der Verarbeitung von Benutzerdaten die Daten das Telefon nicht verlassen.

„Gemini kann Ihnen dabei helfen, einen täglichen Trainingsplan auf der Grundlage einer E-Mail Ihres persönlichen Trainers zu erstellen oder ein Stellenprofil mithilfe Ihres Lebenslaufs in Google Drive zu erstellen. Nur Gemini kann dies alles auf diese sichere All-in-One-Methode erledigen, ohne dass dies erforderlich ist.“ „Die Daten werden an einen externen KI-Anbieter übergeben, den Sie möglicherweise nicht kennen oder dem Sie nicht vertrauen“, sagte Sameer Samat, Präsident des Android-Ökosystems von Google.

„Da Android das erste mobile Betriebssystem ist, das über ein großes multimodales KI-Modell auf dem Gerät verfügt – namens Gemini Nano –, verlassen Ihre Daten Ihr Telefon nie, auch wenn einige der sensibelsten Anwendungsfälle bearbeitet werden.“

KI ist weiter in Android integriert

Der größte Vorteil von Google bei der Förderung von KI-Telefonen sind zweifellos seine vielfältigen Anwendungstools und das Android-Ökosystem. Google hat mittlerweile Milliarden von Android-Nutzern, und es gibt offensichtlich mehr Platz dafür als eine Chatbot-Anwendung.

Letztes Jahr brachte die Pixel-8-Serie von Google als erstes KI-zentriertes Smartphone verschiedene KI-Funktionen mit. Benutzer können beispielsweise einzelne Elemente in einem Foto entfernen, verschieben oder bearbeiten, Ausdrücke zwischen Fotos verschieben, um das beste zusammengesetzte Foto zu erhalten, anhand von Screenshots oder einem „eingekreisten Teil“ des Bildschirms suchen und vieles mehr.

Alle diese Funktionen kamen erstmals in der Pixel-8-Serie zum Einsatz und haben sich seitdem im gesamten Android-Ökosystem verbreitet.

Die „Kreissuche“-Funktion von Google erschien tatsächlich zum ersten Mal auf Samsungs Galaxy AI-Handy. Als Googles Android-Ökosystempartner haben Samsungs Handys auch viele ähnliche KI-Funktionen hinzugefügt. Der bereits erwähnte KI-Assistent Gemini kommt auch in Samsungs Galaxy Z Fold6, Motorola Razr+ und anderen Mobiltelefonen zum Einsatz.

Gleichzeitig haben auch andere Hersteller angekündigt, ihre eigene Mobiltelefon-KI auf den Markt zu bringen. Diejenige, die in den letzten Monaten die größte Aufmerksamkeit auf sich gezogen hat, ist die Integration eines eigenen Anwendungsökosystems.

Man kann sagen, dass „KI-Mobiltelefone“ in fast einem Jahr zur Kernperspektive der Marktansicht von Mobiltelefonen geworden sind, nicht nur von Google-Mobiltelefonen. Wie man KI nutzt, um Menschen zum Strahlen zu bringen, ist eine Herausforderung für Google. Derzeit produziert Google, ähnlich wie bei der Einführung des KI-Telefons Pixel 8 der ersten Generation, immer noch vor allem verschiedene KI-Funktionsgeräte.

Zu den wichtigsten neuen KI-Funktionen von Google beim diesjährigen Made By Google-Event gehören:

  • „Add Me“ ermöglicht es sogar der Person, die das Foto macht, sich selbst in das Gruppenfoto aufzunehmen;

  • „Pixel Studio“, ein KI-Bildgenerator, der der kommenden Image Playground-App von Apple sehr ähnlich ist;

  • „Pixel Screenshots“, das die Galerie eines Benutzers nach Screenshots durchsucht und diese in eine leicht durchsuchbare Datenbank umwandelt;

  • „Anrufnotizen“ können eine Zusammenfassung der Informationen im Anrufverlauf speichern. Nach Aktivierung dieser Funktion erhält jeder Teilnehmer des Anrufs eine Benachrichtigung.

Wenn Sie beispielsweise die Funktion „Add Me“ implementieren möchten, macht der Fotograf zunächst ein Foto ohne sich selbst, und dann wird eine andere Person zum Fotografen und macht ein weiteres Foto. Pixel führt die beiden Fotos zusammen, um sicherzustellen, dass sich alle auf einem Foto befinden, sodass Sie keinen Fremden bitten müssen, das Foto aufzunehmen.


Gruppenfotofunktion|Bildquelle: Google

Ein wichtiges Verkaufsargument für Googles Positionierung der Pixel-9-Serie ist auch die KI-Kamera, die das Unternehmen selbst als „die weltweit erste KI-gesteuerte Kamera“ bezeichnet. Google-Führungskräfte sagten außerdem: „Pixel war das erste Telefon, das Night Sight in Fotos und Videos nutzte, und jetzt ist es auch das erste Telefon, das atemberaubende Panoramalandschaften und Stadtlandschaften in Umgebungen mit wenig Licht einfängt.“ Auf der Pressekonferenz sagten auch Google-Führungskräfte verglich Fotos, die mit dem Pixel 9 Pro XL mit Apples iPhone 15 Pro Max aufgenommen wurden.


Nachtfotografieeffekt von Google-Handys im Vergleich zu Apple-Handys|Quelle: Google

Das faltbare Pixel 9 Pro Fold mit ultragroßem Bildschirm verfügt außerdem über eine „Made You Look“-Funktion, mit der sich die Aufmerksamkeit der Nutzer erregen und sie zum Lächeln in die Kamera bringen lässt. Wenn Sie diese Funktion verwenden, klappen Sie das Telefon auf und auf einer Seite des externen Bildschirms wird eine auffällige visuelle Animation abgespielt, z. B. ein leuchtend gelbes Huhn oder andere lustige Animationen.


Bildschirmfunktionen, die die Aufmerksamkeit der Nutzer erregen|Bildquelle: Google

Nach dem Aufnehmen eines Fotos gibt es auch Fotobearbeitungstools und der Magic Editor von Google Fotos hat dieses Jahr einige neue Funktionen eingeführt. Beispielsweise wird die „Auto Frame“-Funktion verwendet, um den Winkel geneigter Fotos zu korrigieren, während mithilfe generativer KI die Lücken um das Motiv gefüllt werden, um ein breiteres Sichtfeld zu schaffen. Es gibt auch eine „Reimagine“-Funktion. Nachdem Sie den gewünschten Effekt im Textfeld beschrieben haben, können Sie generative KI für P-Bilder verwenden, z. B. das Verwandeln von Gras auf dem Boden in Wildblumen oder das Hinzufügen eines Heißluftballons zu einem bestimmten Teil des Bildes Himmel usw.

Darüber hinaus ist Google in die Fußstapfen von Apple getreten und hat eine „Satelliten-SOS“-Funktion für den Einsatz in Notfällen eingeführt. Diese Funktion ermöglicht es Benutzern, Notfallhelfer zu kontaktieren und Standortinformationen auszutauschen, wenn kein Mobilfunkdienst verfügbar ist. Laut Google-Führungskräften wird die Pixel-9-Serie „die ersten Android-Telefone sein, die Satelliten-SOS nutzen können“.


Satelliten-SOS-Funktion|Bildquelle: Google

Aus funktionaler Sicht liegt die Kombination aus Pixel 9+ Gemini in puncto KI nicht weit vor den aktuellen heimischen Android-Herstellern. Es ist jedoch zu beachten, dass Google im Gegensatz zu Apple über eigene Systeme und Terminals sowie über große Modelle und Cloud Computing verfügt. Es ist derzeit das einzige Unternehmen unter allen Unternehmen, das einen wirklich geschlossenen Kreislauf im Bereich „Soft, Hard and“ abgeschlossen hat Kernwolke“.

Sobald es einen Durchbruch in der Terminal-KI gibt, hat Google, das zu allem bereit ist, eine viel größere Chance, es „wieder großartig zu machen“ als seine Konkurrenten.

Vielleicht fehlt es Google einfach nur an größerem Ehrgeiz.

*Quelle des Headerbildes: Google

Bei diesem Artikel handelt es sich um einen Originalartikel von Geek Park. Für einen Nachdruck wenden Sie sich bitte an Geek Jun auf WeChat geekparkGO