nouvelles

Plus consciencieux qu’OpenAI, cet article résume 11 temps forts de la conférence de presse de Google

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Juste sur X, un groupe de personnes s'est fait baiser par Brother StrawberryOpenAIAperçu, quand on a une mentalité de fou.

Google porteCréé par Google24La conférence de presse est ici.

OpenAI a même publié un blog quelques minutes après la conférence de presse afin de sniper Google. C'était un très mauvais blog, et ils ont même laissé leur AI Strawberry jouer le rôle de Riddler pendant deux jours.

L’OpenAI actuel est vraiment comme un loup qui crie. Je n’ai plus aucune attente ni confiance en lui. Les deux seuls mots maudits qui sortaient à chaque fois étaient XXX, XX !

Et Google nous réserve encore quelques surprises supplémentaires sans aucune attente.

J'ai résumé 11 faits marquants. Après avoir lu cet article, vous avez fini de regarder la conférence de presse.

1. Google veut reconstruire Android sur la base de Gemini.

Ils ont défini un mot appelé AI OS. Google veut proposer AI OS à tout le monde.

Actuellement, ils prennent en charge 45 langues dans plus de 200 pays et régions, peuvent être utilisés sur des centaines de modèles de téléphones mobiles provenant de dizaines de fabricants d'appareils et sont pris en charge sur des milliards d'appareils dans le monde.

2. La reconnaissance d'image de Gemini sur le téléphone mobile est annulée.

La première chose qu’ils ont démontrée, ce sont les capacités de reconnaissance d’images de Gemini.

En tant qu’IA multimodale, la reconnaissance de capture d’image semble être devenue une fonction incontournable. Le meilleur test de la capacité de reconnaissance des photos concerne les contenus à forte intensité d'informations tels que les instructions et les calendriers de prise de vue. Il est nécessaire non seulement de reconnaître l'image, mais également de comprendre le contenu du texte et de donner la réponse.

Le gars qui faisait la démo a pris une photoaffiche de concert en papier, horaire de la tournée ci-dessus. Le présentateur a demandé à Gemini de vérifier son emploi du temps et de choisir une heure à laquelle il pourrait se rendre au spectacle de Sabrina Carpenter.

Cependant, il y aura forcément des faux pas dans les démos live, et voilà.

Les deux premières fois que Gemini a pris des photos, la démonstration en direct a échoué de manière embarrassante. De l'autre côté de l'océan Pacifique, je me suis senti mal à l'aise sur les lieux, à deux reprises. . . = =

Cette démonstration mentionnait également spécifiquement que le téléphone mobile Samsung Galaxy S24 Ultra avait été utilisé. Se pourrait-il que Samsung ait exercé sa force ?

La scène a été modifiée sur un autre appareil et réessayée. Heureusement, le contenu de l'image a été reconnu avec succès pour la troisième fois.

Les Gémeaux ont directement donné une date bien précise : Sabrina sera là9 novembre 2024Arrivez à San Francisco et allez à un spectacle si le présentateur n'a pas d'autres projets pour la journée.

Les applaudissements ont finalement commencé, et les gars ont poussé un soupir de soulagement visible.

3. L'interaction entre logiciels est très pratique.

Gemini peut désormais comprendre et analyser le contenu vidéo directement sur votre téléphone.

Tout en regardant la vidéo, vous pouvez appeler Gemini pour résumer les points clés pour vous ou répondre à vos questions sur le contenu de la vidéo.

Par exemple, après avoir regardé une vidéo culinaire sur YouTube la nuit, vous n'avez pas besoin de lire les images une par une. Une liste d'aliments qui apparaissent dans la vidéo est automatiquement générée et ajoutée à la liste personnelle « à essayer » de l'utilisateur. .

Bonne nouvelle pour les gourmands.

Et vous pouvez créer des listes d'attractions ou des suggestions d'itinéraires pour certaines vidéos de voyage sur YouTube.

En tant que personne qui a besoin d'apparaître dans BGM même lors d'une promenade,

Vous pouvez également demander à Gemini de créer une « playlist K-pop adaptée à la promenade à Séoul », qui recommande une musique appropriée en fonction de la scène, de l'ambiance ou du type d'activité décrit par l'utilisateur.

Rend la recherche de musique plus intuitive et personnelle.

4. La vitesse d'écriture est très rapide et l'effet est bon.

Gemini peut également vous aider à rédiger des e-mails sur votre téléphone mobile en quelques secondes seulement.

Le petit frère a démontré deux scénarios : le premier consistait à écrire une lettre de rappel polie au propriétaire, l'informant de réparer le module d'alimentation électrique de la maison.

La deuxième consiste à écrire une lettre d'excuses au professeur pour son absence du travail pour cause de maladie (il semble que j'ai déjà fait ce genre de chose).

De plus, Gemini propose également des conceptions interactives qui permettent aux utilisateurs de peaufiner leur texte et d'envoyer des e-mails.

Voyant que Gemini avait rempli la lettre d'excuses en quelques secondes seulement, je n'ai presque pas pu retenir mon rire.

5. L'effet de conversation en temps réel de Gemini Live n'est pas mauvais, mais il ne s'agit que d'un TTS à faible latence.

Google a lancé une fonctionnalité de conversation en temps réel similaire à GPT4o qui peut être interrompue à tout moment. Ils l'appellent Gemini Live.

Il y a 10 tons à choisir.

La démo girl a longuement discuté avec Gemini Live. La qualité sonore est bonne et le retard est suffisamment faible, mais en fait cela ressemble à un TTS à faible latence, pas au grand modèle multimodal natif de GPT4o.

Parce qu'il n'y a aucune démonstration de compréhension et d'expression émotionnelle, selon l'urine de Google, s'il y en a une, ils le montreront certainement de manière folle. De plus, dans certaines réponses plus longues, le retard peut encore être clairement ressenti.

Il s’agit donc en fait d’une conversation TTS à faible latence.

Il n'est actuellement disponible que pour les abonnés Gemini Advanced. Il coûte 20 $ par mois et est disponible immédiatement.

6.Pixel 9 est le premier téléphone mobile équipé du Gemini Nano multimodal.

Il s’agit du modèle d’IA intégré le plus puissant jamais sorti sur un téléphone, trois fois plus puissant que la précédente IA utilisée sur le Pixel 8 Pro.

Le processeur du Pixel 9 (TPU et Tensor G4) peut générer jusqu'à 45 mots en une seconde, deux fois plus vite qu'auparavant.

La version standard du Pixel 9 dispose de 12 Go de mémoire, tandis que la version Pro a plus de mémoire, atteignant 16 Go. Et ce qui est le plus excitant à leur sujet, c'est qu'ils disposent enfin d'une fonction d'appel par satellite. . .

Tout ce que je peux dire ici, c'est que nous sommes loin devant !

Les produits lancés cette fois comprennent trois téléphones candy bar et un téléphone pliable. La gamme régulière comprend un Pixel 9 de base avec un écran de 6,3 pouces, un Pixel 9 Pro XL avec un écran de 6,8 pouces et un nouveau Pixel 9 Pro plus petit de 6,3 pouces.

Pour être honnête, je pense que c'est un peu moche. . .

Il y a aussi un nouveau paraventPixel 9 Pro Fold.

Encore plus laid. . .

7.Call Notes peut vous aider à enregistrer des informations clés pendant l'appel téléphonique.

Désormais, « l'assistant d'appel » de Pixel est devenu plus puissant, en ajoutant une fonction « Notes d'appel ».

Une fois votre appel terminé, il vous donne un résumé entièrement privé de l'appel. Cela facilite l'accès aux numéros de téléphone, aux heures, aux détails et à d'autres informations que vous ne voulez pas oublier, même si vous n'avez ni stylo ni papier pendant l'appel.

De plus, ce processus est entièrement exécuté localement et il n’y a pratiquement aucun problème de confidentialité.

Le garçon a donné un exemple. Il pensait récemment changer de coiffure, mais son coiffeur ne pouvait pas faire la coiffure qu'il voulait, alors il m'a recommandé à un autre salon de coiffure.

Mais le problème c’est qu’il a oublié de noter le numéro de téléphone du magasin. Avec Call Notes, vous pouvez facilement retracer.

7. La fonction de capture d'écran similaire à Recall est un peu bizarre.

Il y a une scène que tout le monde connaît : vous voyez quelque chose sur votre téléphone dont vous voulez vous souvenir. Peut-être que vous l'écrivez dans votre esprit, ou que vous prenez une capture d'écran et que vous l'enregistrez.

Mais souvent, soit vous oubliez ce dont vous voulez vous souvenir, soit vous ne parvenez pas à le retrouver lorsque vous en avez besoin.

Ensuite, ils ont créé un nouveau produit.

Vous pouvez utiliser l'IA pour rechercher rapidement toutes les images enregistrées. Par exemple, si vous avez des dizaines de photos de vélos sur votre téléphone, si vous recherchez des vélos, elles apparaîtront toutes.

Vous pouvez également poser des questions plus complexes, comme le prix d'un T-shirt, et vous pouvez voir que Pixel Screenshot a non seulement trouvé l'image originale, mais m'a également fourni une réponse en langage naturel basée sur les informations contenues dans l'image.

8. Un Pixel Studio de dessin d'IA local ordinaire.

Chaque téléphone Pixel 9 est livré avec le nouveau Pixel Studio, leur premier générateur d'images sur un téléphone.

Je pense que l'effet est juste moyen et utilisable.

Par exemple, le feu de joie sur la plage au coucher du soleil semble très ordinaire.

9. La caméra AI est idéale pour prendre des photos de groupe.

La caméra Pixel serait la première caméra AI.

Je ne comprends pas la plupart des paramètres, mais cette scène photo est très intéressante.

Souvent, nous ne pouvons pas prendre de photo de groupe et il y a toujours un ami qui veut être le photographe.

Il utilise une interface simple à l'écran pour vous guider dans la prise de photos, par exemple en vous permettant de confier votre appareil photo à quelqu'un d'autre afin que vous puissiez échanger vos places. Ensuite, vous pouvez aligner les personnes sur la nouvelle photo en fonction de leurs contours sur la première photo et prendre une autre photo. L’image résultante combine les deux photos, donnant l’impression que tout le monde est sur la même photo en même temps.

C’est très cool et résout un problème majeur lors de la prise de photos.

10. Nouvelles montres et écouteurs.

J'ai envoyé une Pixel Watch 3.

Un casque Pixelbuds Pro 2.

Le casque peut réveiller Gemini et lui parler à tout moment.

11. Comparez le projet Aster de GPT4o.

Le projet Aster a été dévoilé lors de la conférence Google il y a quelques mois, comparant directement le grand modèle multimodal natif de GPT4o.

Désormais, dans Gemin Live, vous pourrez également l'utiliser à l'avenirAster.

Par exemple, vous pouvez partager votre appareil photo tout en parlant avec Gemini, afin de pouvoir montrer directement un problème que vous avez rencontré lors d'un devoir de calcul, ou demander de l'aide pour la prochaine étape de l'assemblage de meubles.

Et les applications que vous utilisez le plus sont intégrées à Gemini Live, ce qui peut vous aider à agir dans les conversations et les messages, et à extraire des informations d'applications comme Google Agenda.

Vous pouvez ainsi envoyer des SMS à vos voisins, partager des détails sur une entreprise et consulter votre calendrier en même temps directement depuis Gemini Live, sans avoir à ouvrir une autre application.

C'est un peu cool, une combinaison de GPT4o + Apple.

C'est dommage, c'est toujours un gâteau.

En termes d'IA, la combinaison avec le matériel est assez intéressante, du moins Gemini Live n'est pas un avenir et peut être utilisé aujourd'hui.

C'est quand même bien mieux qu'OpenAI, qui ne peut dessiner que des gâteaux.

J'espère que Google s'améliorera de plus en plus et tuera OpenAI.

Maintenant que vous avez lu ceci, si vous pensez que c'est bien, n'hésitez pas à le liker, à le regarder et à le retweeter trois fois. Si vous souhaitez recevoir des notifications au plus vite, vous pouvez également me donner une étoile⭐. ~Merci d'avoir lu mon article, à la prochaine fois.

>/ Auteur : Kazik, Wenwen, Xiaorui, Dawn_E