noticias

La versión de Google de Her anulada: Me tomó 3 intentos y cambiar de teléfono antes de lograrlo... Internauta: Solo me toma 10 segundos hacerlo manualmente

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Jin Lei viene del templo de Aofei
Qubits | Cuenta pública QbitAI

Rollover, gran vuelco.

Esta mañana temprano, la versión de Google de Her...Géminis en vivoPublicado oficialmente.

Después de todo, es obviamente un punto de referencia para el GPT-4o de OpenAI, que se puede decir que ha atraído la atención del círculo tecnológico.

En la demostración publicada en el sitio web oficial,Preguntas y respuestas sobre fotosEl efecto de la función es este:



La función general que implementa es utilizar su teléfono móvil para tomar fotografías de los carteles de los conciertos y dejar que Gemini consulte el calendario del usuario para ver si el horario es adecuado para la participación.

Y también podrás realizar una serie de operaciones posteriores en función de esto, como consultar tarifas a una hora fija, etc.

Sin embargo... cuando llegó la sesión de demostración in situ de la conferencia de prensa, el estilo de la pintura cambió por completo.

Por favor mire la videograbadora:



Dirección del vídeo: https://mp.weixin.qq.com/s/90pixdMaLew4lUjzjeA6jA

  • Primera vez: falló.
  • Segunda vez: falló.
  • La tercera vez: cambié mi teléfono y fue exitoso.

Hmm… La expresión del hermano pequeño es un poco de pánico a simple vista.



Incluso el conocido medio tecnológico TechCrunch ha incluido este tipo de emoji:



Algunos internautas incluso activaron el modo de comentarios candentes:

Puedo buscar en mi calendario en 10 segundos.



Por supuesto, este es solo un pequeño episodio de Made by Google de hoy.

Para obtener más información sobre Gemini Live, sigamos leyendo a continuación.

La imagen completa de la versión de Google de Her.

Como acabamos de mencionar, las funciones de Gemini Live y GPT-4o son muy similares.

Además de las "Preguntas y respuestas sobre fotografías", también puede realizar conversaciones en tiempo real e incluso interrumpir a Gemini durante el proceso de respuesta.

Se entiende que las funciones de Gemini Live están actualmente abiertas para suscriptores avanzados en el sistema Android (solo en inglés).

En las próximas semanas, esta función se ampliará a más idiomas y estará disponible para iOS.

existirsonido del dialogoPor otro lado, Gemini Live ha lanzado10 tiposHay nuevos sonidos disponibles para seleccionar y el efecto es el siguiente:



Dirección del vídeo: https://mp.weixin.qq.com/s/90pixdMaLew4lUjzjeA6jA

existirfuncionarPor otro lado, dado que Gemini está completamente integrado en el sistema, se puede invocar simplemente presionando y manteniendo presionado el botón de encendido o diciendo "Hola Google".

Por ejemplo, al escribir un correo electrónico, deja que Gemini te ayude a generar una imagen coincidente. El efecto es el siguiente:



Sin embargo, los medios extranjeros tienen críticas mixtas sobre esta característica.

Por ejemplo, un escritor de The Verge escribió enprueba personalEl título que se da más adelante es——

Gemini Live es más rápido que Google, pero más incómodo.



La razón específica fue que el sistema de audio del automóvil del autor falló repentinamente durante un viaje por carretera de tres días.

Encontrar una solución utilizando el Asistente de Google original tomó al menos cinco minutos, pero Gemini Live solo tomó 15 segundos.

Sin embargo, el discurso continuo de Gemini Live durante la conversación y el método de interacción que requiere que los usuarios interrumpan activamente hicieron que el autor se sintiera avergonzado.

Él cree:

La voz y la manera de hablar son tan humanas que me siento incómodo interrumpiéndolas.
Se invierte más emoción en interactuar con Gemini Live que en usarlo como herramienta de resolución de problemas.

Casualmente, para Gemini Live inCorre en la nubeEl Wall Street Journal también hizo una dura evaluación sobre este punto——

Progreso en el diálogo, regresión en la funcionalidad.



Específicamente a nivel técnico, GPT-4o es un sistema de extremo a extremo, pero a juzgar por el contenido publicado por Google, Gemini Live no lo es.

En cambio, se integran los sistemas STT, VAD, LLM y TTS:



Además, Gemini Live también aparece en la nueva serie de teléfonos móviles Pixel lanzada por Google.

Incluyendo Pixel 9 Pro Fold, Pixel 9, Pixel 9 Pro y Pixel 9 Pro XL.



En términos de funciones de inteligencia artificial, los teléfonos Pixel de Google han agregado una función llamada"Agrégame"función.

La realidad aumentada (AR) y la tecnología de IA se pueden utilizar para "reunir" personajes en dos fotografías diferentes.



¿Por qué Google no puede ponerse al día con OpenAI?

Aunque el lanzamiento de Gemini Live por parte de Google esta vez es una respuesta a OpenAI GPT-4o, desde que comenzó la era de los modelos grandes, podemos ver una tendencia muy obvia:

Google no puede seguir el ritmo de OpenAI.

Primero, OpenAI se convirtió en pionero en el punto más crítico del lanzamiento de ChatGPT, pero posteriormente Google lanzó Bard, que esta vez era muy similar a Gemini Live, y posteriormente lo anuló.

En el último año y medio, parece que OpenAI lidera el lanzamiento de todos los modelos y aplicaciones principales.

Por otro lado, en Google no sólo la tecnología muestra un ritmo lento, sino que también en términos de opinión pública, OpenAI ha eclipsado el mayor evento anual de Google (la conferencia I/O) con la noticia de un cambio de personal (la dimisión de Ilya).

Entonces, ¿por qué está fracasando Google en la era de los modelos grandes?

A este respecto,Ex director ejecutivo de GoogleEric Schmidt (que sirvió de 2001 a 2011) expresó sus puntos de vista en su último discurso en Stanford:

Google concede gran importancia al equilibrio entre la vida laboral y personal, como permitir a los empleados trabajar desde casa.
Pero en las startups trabajan muy duro.



Dirección del vídeo: https://mp.weixin.qq.com/s/90pixdMaLew4lUjzjeA6jA

Algunos internautas incluso dieron la noticia:

Mi hermano es uno de los principales programadores de inteligencia artificial de Google. Tiene 3 trabajos de tiempo completo y solo pasa 2 horas al día en Google.



Entonces, ¿qué opinas sobre esto? Deje un mensaje en el área de comentarios para discutirlo.

Enlaces de referencia:
[1]https://x.com/techcrunch/status/1823410187404743131?s=46&t=6eepxw1G6XRQ7VO0ANjJWg
[2]https://x.com/GoogleDeepMind/status/1823409674739437915
[3]https://blog.google/products/gemini/made-by-google-gemini-ai-updates/
[4]https://x.com/alexkehr/status/1823480786349383879?s=46&t=6eepxw1G6XRQ7VO0ANjJWg
[5]https://www.theverge.com/2024/8/13/24219736/gemini-live-hands-on-pixel-event
[6]https://blog.google/products/pixel/google-pixel-9-new-ai-features/#pixel9phones