nouvelles

Version Google de Her renversée : il a fallu 3 essais et changer de téléphone avant de réussir... Internaute : cela ne me prend que 10 secondes pour le faire manuellement

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei vient du temple Aofei
Qubits | Compte public QbitAI

Roulement, gros retournement.

Tôt ce matin, la version Google d'Her...Gémeaux en directOfficiellement publié.

Après tout, il s’agit évidemment d’une référence pour le GPT-4o d’OpenAI, dont on peut dire qu’il a attiré l’attention du cercle technologique.

Dans la démo publiée sur le site officiel,Questions et réponses sur les photosL'effet de la fonction est le suivant :



La fonction générale qu'il implémente est d'utiliser votre téléphone mobile pour prendre des photos d'affiches de concerts et de laisser Gemini vérifier le calendrier de l'utilisateur pour voir si le calendrier est adapté à la participation.

Et vous pouvez également effectuer une série d'opérations ultérieures sur cette base, notamment la vérification des tarifs à une heure fixe, etc.

Cependant... lors de la séance de démonstration sur place de la conférence de presse, le style du tableau a complètement changé.

Veuillez regarder le magnétoscope :



Adresse vidéo : https://mp.weixin.qq.com/s/90pixdMaLew4lUjzjeA6jA

  • Première fois : échec.
  • Deuxième fois : échec.
  • La troisième fois : j'ai changé de téléphone et c'était réussi.

Hmm... L'expression du petit frère est un peu paniquée à l'œil nu.



Même le média technologique bien connu TechCrunch a inclus de tels emoji :



Certains internautes ont même activé le mode commentaires chauds :

Je peux rechercher mon calendrier en 10 secondes.



Bien sûr, ce n’est qu’un petit épisode de Made by Google aujourd’hui.

Pour plus d’informations sur Gemini Live, continuons à lire ci-dessous.

L'image complète de la version Google d'Her

Comme nous venons de le mentionner, les fonctions de Gemini Live et de GPT-4o sont très similaires.

En plus des « questions-réponses photo », il peut également mener des conversations en temps réel et même interrompre Gemini pendant le processus de réponse.

Il est entendu que les fonctions de Gemini Live sont actuellement ouvertes aux abonnés Advanced sur le système Android (en anglais uniquement).

Dans les semaines à venir, cette fonctionnalité sera étendue à davantage de langues et rendue disponible sur iOS.

existerson des dialoguesD'autre part, Gemini Live a lancé10 sortesDe nouveaux sons sont disponibles pour la sélection et l'effet est le suivant :



Adresse vidéo : https://mp.weixin.qq.com/s/90pixdMaLew4lUjzjeA6jA

existerfonctionnerD'un autre côté, puisque Gemini est entièrement intégré au système, il peut être invoqué en appuyant simplement sur le bouton d'alimentation et en le maintenant enfoncé ou en disant "Hey Google".

Par exemple, lorsque vous rédigez un e-mail, laissez Gemini vous aider à générer une image correspondante. L'effet est le suivant :



Cependant, les médias étrangers ont des critiques mitigées sur cette fonctionnalité.

Par exemple, un écrivain de The Verge a écrit dansTest personnelLe titre donné plus tard est——

Gemini Live est plus rapide que Google, mais plus gênant.



La raison spécifique était que le système audio de la voiture de l'auteur était soudainement tombé en panne au cours d'un voyage en voiture de trois jours.

Trouver une solution à l'aide de l'Assistant Google d'origine a pris au moins cinq minutes, mais Gemini Live n'a pris que 15 secondes.

Cependant, le discours continu de Gemini Live pendant la conversation et la méthode d'interaction qui oblige les utilisateurs à interrompre activement ont embarrassé l'auteur.

Il croit :

La voix et la manière de parler sont si humaines que je me sens mal à l'aise de l'interrompre.
L'interaction avec Gemini Live demande plus d'émotion que son utilisation comme outil de résolution de problèmes.

Par coïncidence, pour Gemini Live inExécutez dans le cloudLe Wall Street Journal a également donné une évaluation précise sur ce point——

Progrès dans le dialogue, régression dans la fonctionnalité.



Spécifique au niveau technique, GPT-4o est un système de bout en bout, mais à en juger par le contenu publié par Google, Gemini Live n'est pas le cas.

Au lieu de cela, les systèmes STT, VAD, LLM et TTS sont intégrés :



De plus, Gemini Live apparaît également dans la nouvelle série de téléphones mobiles Pixel lancée par Google.

Y compris Pixel 9 Pro Fold, Pixel 9, Pixel 9 Pro et Pixel 9 Pro XL.



En termes de fonctions d'IA, les téléphones Pixel de Google ont ajouté une fonctionnalité appelée"Ajoutez-moi"fonction.

La réalité augmentée (RA) et la technologie de l'IA peuvent être utilisées pour « remplir » les personnages de deux photos différentes ensemble.



Pourquoi Google ne parvient-il pas à rattraper OpenAI ?

Bien que la sortie de Gemini Live par Google soit cette fois une réponse à OpenAI GPT-4o, depuis le début de l'ère des grands modèles, nous pouvons observer une tendance très évidente——

Google ne peut pas suivre OpenAI.

Tout d'abord, OpenAI est devenu un pionnier au moment le plus critique de la sortie de ChatGPT, mais Google a ensuite publié Bard, qui était cette fois très similaire à Gemini Live, puis annulé.

Au cours de la dernière année et demie, il semble qu'OpenAI soit en tête de la publication de tous les principaux modèles et applications.

D'un autre côté, chez Google, non seulement la technologie montre un rythme lent, mais même en termes d'opinion publique, OpenAI a éclipsé le plus grand événement annuel de Google (conférence I/O) avec l'annonce d'un changement de personnel (démission d'Ilya).

Alors pourquoi Google échoue-t-il à l’ère des grands modèles ?

À cet égard,Ancien PDG de GoogleEric Schmidt (qui a servi de 2001 à 2011) a exprimé son point de vue dans son dernier discours à Stanford :

Google attache une grande importance à l'équilibre entre vie professionnelle et vie privée, en permettant par exemple à ses employés de travailler à domicile.
Mais dans les startups, ils travaillent très dur.



Adresse vidéo : https://mp.weixin.qq.com/s/90pixdMaLew4lUjzjeA6jA

Certains internautes ont même annoncé la nouvelle :

Mon frère est l'un des meilleurs programmeurs d'IA chez Google. Il occupe 3 emplois à temps plein et ne passe que 2 heures par jour chez Google.



Alors qu'en pensez-vous, veuillez laisser un message dans la zone de commentaires pour en discuter.

Liens de référence :
[1]https://x.com/techcrunch/status/1823410187404743131?s=46&t=6eepxw1G6XRQ7VO0ANjJWg
[2]https://x.com/GoogleDeepMind/status/1823409674739437915
[3]https://blog.google/products/gemini/made-by-google-gemini-ai-updates/
[4]https://x.com/alexkehr/status/1823480786349383879?s=46&t=6eepxw1G6XRQ7VO0ANjJWg
[5]https://www.theverge.com/2024/8/13/24219736/gemini-live-hands-on-pixel-event
[6]https://blog.google/products/pixel/google-pixel-9-new-ai-features/#pixel9phones