La version Google de Her est en avance sur le jeu ! Invoquez Gemini en un seul clic, renversant 5,2 milliards de terminaux dans le monde

2024-08-14

Nouveau rapport de sagesse

Editeur : Service éditorial

[Introduction à la nouvelle sagesse]Version Google de Ses débuts avant OpenAI ? Le modèle vocal Gemini Live de Google sera bientôt disponible sur 3 milliards d’appareils Android et 2,2 milliards d’appareils iOS dans le monde. Même si la démonstration en direct était encore un peu renversée, Google était déterminé à ne plus attendre, et était déterminé à vaincre OpenAI et à lutter contre Apple !

OpenAI, a-t-il simplement été bloqué ?

Dans la foulée de « Her » d'OpenAI, Google a également annoncé officiellement : la sortie de la fonction vocale AI !

Juste dans le discours d'ouverture "Made by Google" tout à l'heure, Google a annoncé le lancement de Gemini Live, un mode vocal. Gemini Live sera bientôt disponible sur l'application mobile Gemini.

La course aux armements entre Google et OpenAI a repris.

Jetez un œil à OpenAI. Le "Her" qui a été révolutionnaire il y a trois mois est toujours silencieux. C'est un rythme qui sera sûrement censuré par Google.

Rick Osterloh, le leader actuel de Google, a également déclaré de manière significative : "Nous avons entendu trop de promesses sur l'IA et les slogans à venir. Aujourd'hui, ce que nous voulons montrer, c'est un réel progrès !"

De plus, lors de cette présentation, Google a également démontré en détail comment Gemini sera plus profondément intégré à Android, aux applications et aux nouveaux appareils Pixel.

Dans la série de téléphones mobiles Pixel 9 lancée en une seule fois, Google a également exploré la nouvelle forme de « téléphones mobiles IA+ » : quel type de produit d'IA côté appareil sera né de l'intégration de Gemini, Android et Pixel.

Maintenant, avec Android alimenté par l’IA, Google peut-il battre Apple ?

Le « Elle » de Google est également ici

Selon Google, Gemini Live est une nouvelle expérience de conversation mobile.

Si nous voulons réfléchir au type d'emplois que nous pouvons trouver en fonction de nos compétences et de notre éducation, Gemini peut immédiatement nous parler en temps réel.

Ce sentiment, c'est comme avoir un assistant attentionné dans votre poche qui peut discuter à tout moment.

Et comme OpenAI, la fonction vocale de Google permet également aux utilisateurs de communiquer avec lui dans un langage conversationnel naturel, et ses réponses utilisent également une voix et un rythme humains.

Veuillez écouter l'audio ci-dessous. Plusieurs voix masculines et féminines ont des timbres très naturels.

Afin de nous offrir l'expérience la plus naturelle possible, Google a lancé 10 voix d'un seul coup, et nous pouvons choisir à volonté notre ton et notre style préférés.

De plus, Gemini Live prend également en charge la fonction mains libres. Même si l'application Gemini est en arrière-plan ou si le téléphone est verrouillé, nous pouvons toujours lui parler comme lors d'un appel téléphonique normal.

De plus, nous pouvons l'interrompre et changer de sujet à tout moment - cela semble familier, n'est-ce pas ? C'est vrai, il peut faire tout ce que la voix d'OpenAI peut faire.

La fonction vocale avancée « Her » d'OpenAI, qui a stupéfié tout le monde en mai, est toujours en préparation à la fin du mois dernier, elle n'a été ouverte que de manière sélective à un petit nombre de participants au test Alpha.

En termes de vitesse, Google bat clairement OpenAI.

Gemini Live est désormais disponible sur les appareils Android au prix de 19,99 $ par mois via l'application Google Gemini.

La version anglaise est actuellement ouverte, et la version iOS et la prise en charge d'autres langues seront lancées dans les prochaines semaines.

D'un autre côté, en termes d'échelle d'utilisateurs, le mode vocal avancé de Google atteindra également un plus large éventail d'utilisateurs potentiels qu'OpenAI.

Vous savez, il y a désormais plus de 3 milliards d’utilisateurs Android et 2,2 milliards d’utilisateurs iOS dans le monde.

Une partie de la raison pour laquelle la fonction vocale d’OpenAI a échoué peut être liée aux performances anormales de l’IA lors du test de l’équipe rouge.

Google a-t-il complètement résolu ces problèmes de sécurité ? Personne ne le sait encore, mais il est évident que Google, qui ne veut pas être à la traîne des autres, a décidé de mettre le paquet cette fois-ci.

Mais ça s'est retourné deux fois

Le seul inconvénient est qu'il y a eu quelques ratés lors de la démonstration en direct de Gemini Live.

Lorsque Dave Citron, directeur de Google, a présenté les nouvelles fonctionnalités de Gemini pour connecter Google Calendar, Tasks et Keep sur les nouveaux téléphones Android, il ne s'attendait pas à renverser deux fois de suite.

Il a d'abord utilisé son téléphone portable pour prendre une photo d'une affiche promotionnelle pour le défilé de mode de Sabrina Carpenter à San Francisco, puis a demandé à Gemini : "Vérifiez mon emploi du temps pour voir si je suis libre d'assister au défilé de mode de Sabrina Carpenter."

Dans la première réponse de Gemini, elle a dit que quelque chose n'allait pas et qu'elle devait réessayer.

Lorsque j'ai essayé les étapes tout à l'heure pour la deuxième fois, Gemini n'avait toujours pas de réponse.

Ce n'est qu'à la troisième fois (un autre appareil a été changé) que les résultats ont finalement été annoncés et que le public a applaudi.

Redéfinir l'assistant IA

Dans ce discours, Google a déclaré : Avec Gemini, ils ont réinventé ce que signifie pour un assistant personnel d'être véritablement utile aux humains : plus naturel, conversationnel et intuitif.

Connectez plus d'applications

Quels sont les mots-clés les plus importants pour un bon assistant IA ?

connecter.

Gemini est comme ça, il s'intégrera à toutes les applications et outils Google que nous utilisons pour effectuer des tâches grandes et petites.

Et contrairement aux autres assistants, nous n'avons pas besoin de passer du temps à basculer entre les applications et les services.

Dans les semaines à venir, Google lancera également de nouvelles extensions, notamment Keep, Tasks, Utilities et YouTube Music.

Quelle nourriture est sur la photo ? Demandez à Gemini et il vous énumérera tout.

Supposons maintenant que nous voulions organiser un dîner, les Gémeaux peuvent utiliser leurs différents arts martiaux——

Depuis Gmail, il peut trouver une recette de lasagne que quelqu'un nous a envoyée, puis ajouter les ingrédients à la liste de courses de Keep ; puis, il peut demander à Gemini de nous compiler une playlist qui « me rappelle la fin des années 90 ».

Dans la prochaine extension de calendrier de Google, nous pourrons directement prendre une photo d’une affiche de concert et demander aux Gémeaux : suis-je libre ce jour-là ? Si la réponse est oui, nous pouvons également demander à Gemini de nous aider à définir des rappels et à préparer la récupération des billets.

Demandez aux Gémeaux d'écrire un e-mail au professeur pour lui demander un congé et de demander une prolongation du délai de quelques jours supplémentaires, simplement en parlant.

Invoquez les Gémeaux en un seul clic

Désormais, Gemini est entièrement intégré à l’expérience utilisateur Android.

Ce n'est que sous Android que nous pouvons bénéficier d'une telle prise en compte du contexte.

Tant que nous possédons un téléphone Android, peu importe ce que nous voulons faire, Gemini peut apparaître en cas de besoin.

Appuyez et maintenez le bouton d'alimentation enfoncé, ou dites « Hey Google » pour invoquer Gemini !

Si vous utilisez YouTube, vous pouvez poser des questions à Gemini sur les vidéos.

Par exemple, supposons que nous créons un guide pour voyager à l'étranger et que nous venons de regarder un blog vidéo de voyage. Cliquez sur « Renseignez-vous sur cette vidéo » pour qu'il répertorie tous les restaurants qui apparaissent dans la vidéo et les ajoute à Google Maps. un par un.

En regardant l'image ci-dessous, les images générées par Gemini peuvent être directement glissées et déposées dans Gmail et Google Messages.

Je crois que vous avez réalisé la beauté de cette opération——

Étant donné que Gemini a construit une intégration approfondie pour Android, l'IA peut faire plus que simplement lire le contenu de l'écran et interagir avec de nombreuses applications que nous utilisons déjà.

Gemini 1.5 Flash, équipé d'un assistant AI

Cependant, il existe deux problèmes : les LLM qui peuvent mieux interpréter le langage naturel et traiter les tâches signifient souvent que même les tâches les plus simples nécessitent plus de temps.

Et si l’IA présente un comportement inattendu ou fournit des informations inexactes, ce sera également un casse-tête.

À cette fin, Google a spécialement introduit un nouveau modèle : Gemini 1.5 Flash.

Il répond plus rapidement et la qualité de ses réponses est meilleure.

Dans les mois à venir, Google intégrera également plus profondément le modèle avec Google Home, Phone et Messages.

Google affirme aujourd'hui que nous avons officiellement atteint un point d'inflexion où l'utilité des assistants IA dépasse de loin leurs défis.

Basé sur Imagen 3, générez des images en 2 secondes

Lors de la réunion, Google a également lancé une nouvelle application de génération de photos IA, Pixel Studio.

Il suffit de quelques mots rapides pour générer une belle image.

La chose la plus importante est qu'il s'agit d'une application de génération d'images locale, construite sur Imagen 3, qui peut générer diverses images en 2 secondes.

Aujourd'hui également, le rapport technique d'Imagen 3 a également été publié. Les détails techniques peuvent être trouvés dans le document de 32 pages.

Adresse papier : https://arxiv.org/pdf/2408.07009

Le premier téléphone AI coûte 20 dollars krypton par mois

Toutes ces capacités d'IA ont été intégrées au dernier matériel de téléphonie mobile de Google.

Lors de l'événement, Google a lancé un total de quatre téléphones IA : Pixel 9, Pixel9 Pro, Pixel9 Pro XL et l'écran pliable de deuxième génération Pixel 9 Pro Fold.

Ce que vous ne devez pas manquer sur la nouvelle série Pixel 9, ce sont les capacités de l’appareil photo alimentées par l’IA.

Google a déclaré que l'algorithme de traitement d'image - HDR+pipeline, a été entièrement reconstruit, permettant aux photos prises d'avoir un meilleur contraste, des ombres, une exposition, une netteté, une couleur, etc.

Voici les nouvelles capacités d’édition d’images IA des téléphones de la série Pixel 9 :

Ajoutez-moi

Rencontrez-vous souvent que lors de réunions de famille, de team building et de voyages en famille, vous assumez la responsabilité de prendre des photos, mais vous êtes le seul qui manque sur les photos ?

Cependant, vous n’aurez pas à vous en soucier à l’avenir.

La fonction « Ajoutez-moi » de Google peut compenser vos regrets.

Tout d'abord, une photo de groupe doit être prise. Ensuite, la personne chargée de prendre la photo interagit avec la personne sur la photo et prend une photo incluant le « photographe ».

À l'heure actuelle, Pixel utilise la technologie AR en temps réel pour guider la deuxième personne dans la composition de la photo afin qu'elle corresponde à la composition de la première photo.

Enfin, Pixel fusionne ensuite les deux images pour garantir que tout le monde apparaisse sur la même photo, y compris le « photographe ».

Réimaginer

Une autre fonction Reimagine est facile à comprendre.

À l'heure actuelle, une fonctionnalité de Magic Editor vous permet de décrire l'effet souhaité directement dans la zone de texte.

L'IA peut transformer vos idées en réalité.

Par exemple, vous pouvez modifier l'arrière-plan de la photo, les volcans, les couchers de soleil, les aurores boréales et d'autres scènes, et jouer avec eux à votre guise.

Cadre automatique

La composition automatique est une nouvelle fonctionnalité de Magic Editor qui permet de recomposer des photos déjà prises.

Il peut même agrandir vos photos et générer des arrière-plans vides grâce à l’IA.

Zoom amélioré

Zoom Enhance peut automatiquement combler les espaces entre les pixels et prédire avec précision les détails pour obtenir des effets de grossissement de prise de vue de haute qualité.

La réalisation des capacités d’IA est indissociable des puissantes puces derrière la série Pixel 9.

Le processeur IA le plus puissant : Google Tensor G4

Le nouveau téléphone mobile utilise le nouveau processeur de Google, Google Tensor G4.

Google a déclaré : « La puce Tensor G4 est notre puce la plus rapide et la plus puissante à ce jour. »

Sur la base du Tensor G3 de l'année dernière, Google s'est associé à Samsung pour créer un processeur semi-personnalisé Tensor G4 basé sur le processus 4 nm, utilisant les cœurs CPU et GPU fournis par Arm.

Dans le même temps, il utilise également les propres modules de Google pour améliorer les fonctions d’IA, de photographie et de sécurité.

Il est rapporté que par rapport aux deux générations précédentes, le G4 a augmenté la vitesse de navigation sur le Web de 20 %, la vitesse de démarrage des applications de 17 % et la consommation quotidienne d'énergie de la batterie des applications a augmenté jusqu'à 20 %.

En termes de processeur, le G4 est équipé de 1 cœur Cortex-X4 fonctionnant à 3,1 GHz, de 3 cœurs Cortex-A720 fonctionnant à 2,6 GHz et de 4 cœurs Cortex-A520 fonctionnant à 1,95 GHz.

En comparaison, le Tensor G3 possède un cœur Cortex-X3 à 2,91 GHz, quatre cœurs Cortex-A715 à 2,37 GHz et quatre cœurs Cortex-A510 à 1,70 GHz.

Bien que le Tensor G4 ait un cœur de moins, tous les cœurs sont cadencés de 200 MHz à 300 MHz plus haut.

Selon les résultats divulgués de Geekbench, le Tensor G4 a obtenu un score de 2 005 au test monocœur et de 4 835 au test multicœur. À titre de comparaison, le Tensor G3 a obtenu un score de 1 751 au test monocœur et de 4 208 au test multicœur. Il y a une différence de performances de 14 %.

En ce qui concerne le GPU, le Tensor G4 utilise le même GPU ARM Mali-G715 que le Tensor G3 de l'année dernière, mais la fréquence a été augmentée de 890 MHz à 940 MHz. Cela signifie que les performances GPU du Tensor G4 devraient être légèrement meilleures que celles du Tensor G3.

Prise en charge de nouvelles fonctions d'IA

L’IA est bien entendu l’un des principaux moteurs du projet Tensor.

Le Tensor G4 repensé doit activer les dernières fonctions Gemini et de photographie informatique.

Les modèles Gemini Nano pouvant être exécutés localement (la plus grande version comporte 3,5 milliards de paramètres) peuvent produire du contenu à une vitesse de 45 jetons/s.

Bien que le TPU de Google soit déjà rapide, il n'est pas en avance sur ses concurrents en termes de traitement des jetons.

En comparaison, Qualcomm Snapdragon 8 Gen 3 peut générer 15 jetons par seconde lors de l'exécution de 10 milliards de paramètres ; MediaTek Dimensity 9300 peut exécuter 7 milliards de paramètres à 20 jetons par seconde.

Cependant, les capacités d'IA uniques de la série Pixel 9 ne dépendent peut-être pas entièrement de la nouvelle puce, mais sont le résultat d'autres facteurs.

L’IA nécessite également de grandes quantités de mémoire et nécessite l’accès à des pools de mémoire rapides et volumineux pour exécuter des modèles plus complexes.

Le Pixel 9 est livré avec 12 Go de RAM et la série Pro passe à 16 Go.

Google a déclaré que afin d'obtenir une expérience d'IA plus fluide, c'est la première fois qu'il réserve « une partie dédiée de la RAM pour exécuter Gemini sur l'appareil » afin d'empêcher d'autres applications d'utiliser la mémoire.

Cependant, Google n’a pas révélé quelle part était allouée aux tâches d’IA.

Bien que la puce elle-même ne bénéficie pas d'une mise à niveau majeure en termes d'IA, elle peut néanmoins apporter une meilleure expérience d'IA et de nouvelles fonctionnalités grâce à l'optimisation de la gestion de la RAM.

Références :

https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

https://x.com/TechCrunch/status/1823410187404743131

https://venturebeat.com/ai/googles-ai-surprise-gemini-live-speaks-like-a-human-taking-on-chatgpt-advanced-voice-mode/

https://www.androidauthority.com/google-tensor-g4-explained-3466184/

nouvelles

La version Google de Her est en avance sur le jeu ! Invoquez Gemini en un seul clic, renversant 5,2 milliards de terminaux dans le monde

Introduction

Mes coordonnées