¡La versión de Google de Her está por delante del juego! Invoca a Gemini con un clic y subvierte 5.200 millones de terminales en todo el mundo

¡La versión de Google de Her está por delante del juego! Invoca a Gemini con un clic y subvierte 5.200 millones de terminales en todo el mundo.

2024-08-14

Nuevo informe de sabiduría

Editor: Departamento Editorial

[Introducción a la Nueva Sabiduría]¿La versión de Google de Her debuta antes que OpenAI? El modelo de voz de Google, Gemini Live, pronto estará disponible en 3.000 millones de dispositivos Android y 2.200 millones de iOS en todo el mundo. Aunque la demostración en vivo todavía estaba un poco anulada, Google estaba decidido a no esperar más y estaba decidido a derrotar a OpenAI y luchar contra Apple.

OpenAI, ¿simplemente fue bloqueado?

Pisándole los talones a “Her” de OpenAI, Google también anunció oficialmente: ¡lanzamiento de la función de voz AI!

Justo en el discurso de apertura "Made by Google" de hace un momento, Google anunció el lanzamiento de Gemini Live, un modo de voz. Gemini Live estará disponible pronto en la aplicación móvil Gemini.

La carrera armamentista entre Google y OpenAI ha comenzado de nuevo.

Eche un vistazo a OpenAI. La "Ella" que fue pionera hace tres meses todavía guarda silencio. Este es un ritmo que seguramente será censurado por Google.

Rick Osterloh, el líder de Google presente, también dijo significativamente: "Hemos escuchado demasiadas promesas sobre la IA y lemas sobre su próximo lanzamiento. ¡Hoy lo que queremos mostrar es un progreso real!"

Además, durante esta presentación, Google también demostró en detalle cómo Gemini se integrará más profundamente en Android, las aplicaciones y los nuevos dispositivos Pixel.

En la serie de teléfonos móviles Pixel 9 lanzada de una sola vez, Google también exploró la nueva forma de "teléfonos móviles AI +": qué tipo de producto de IA del lado del dispositivo surgirá de la integración de Gemini, Android y Pixel.

Ahora, con Android impulsado por IA, ¿puede Google vencer a Apple?

La “Ella” de Google también está aquí

Según Google, Gemini Live es una nueva experiencia de conversación móvil.

Si queremos hacer una lluvia de ideas sobre qué tipo de trabajos podemos encontrar en función de nuestras habilidades y educación, Gemini puede hablar con nosotros inmediatamente en tiempo real.

Esta sensación es como tener un asistente atento en el bolsillo que puede charlar en cualquier momento.

Y al igual que OpenAI, la función de voz de Google también permite a los usuarios comunicarse con él en un lenguaje conversacional natural, y sus respuestas también utilizan una voz y un ritmo humanos.

Escuche el audio a continuación. Varias voces masculinas y femeninas tienen timbres muy naturales.

Para brindarnos la experiencia más natural, Google ha lanzado 10 voces a la vez, y podemos elegir nuestro tono y estilo favorito a nuestro antojo.

Además, Gemini Live también admite la función manos libres. Incluso si la aplicación Gemini está en segundo plano o el teléfono está bloqueado, aún podemos hablar con ella como en una llamada telefónica normal.

Además, podemos interrumpirlo y cambiar de tema en cualquier momento. Parece familiar, ¿verdad? Así es, puede hacer todo lo que puede hacer la voz de OpenAI.

La función de voz avanzada "Her" de OpenAI, que sorprendió a todos en mayo, todavía está en proceso. A finales del mes pasado, solo se abrió de forma selectiva a un pequeño número de participantes de la prueba Alpha.

En términos de velocidad, Google supera claramente a OpenAI.

Gemini Live ahora está disponible en dispositivos Android por $19,99 al mes a través de la aplicación Google Gemini.

La versión en inglés está actualmente abierta y en las próximas semanas se lanzará la versión para iOS y la compatibilidad con más idiomas.

Por otro lado, en términos de escala de usuarios, el modo de voz avanzado de Google también llegará a una gama más amplia de usuarios potenciales que OpenAI.

Ya sabes, ahora hay más de 3 mil millones de usuarios de Android y 2,2 mil millones de usuarios de iOS en el mundo.

Parte de la razón por la que falló la función de voz de OpenAI puede estar relacionada con el desempeño anormal de la IA en la prueba del equipo rojo.

¿Google ha solucionado por completo estos problemas de seguridad? Nadie lo sabe todavía, pero es obvio que Google, que no quiere sucumbir ante los demás, decidió hacer todo lo posible esta vez.

Pero volteó dos veces

El único inconveniente es que hubo algunos contratiempos durante la demostración en vivo de Gemini Live.

Cuando el ejecutivo de Google, Dave Citron, mostró las nuevas funciones de Gemini para conectar Google Calendar, Tasks y Keep en nuevos teléfonos Android, no esperaba volcar dos veces seguidas.

Primero usó su teléfono móvil para tomar un cartel promocional del desfile de modas de Sabrina Carpenter en San Francisco y luego le preguntó a Gemini: "Consulta mi agenda para ver si puedo asistir al desfile de modas de Sabrina Carpenter".

En la primera respuesta de Géminis, dijo que algo salió mal y que tenía que intentarlo de nuevo.

Cuando probé los pasos por segunda vez, Géminis todavía no obtuvo respuesta.

No fue hasta la tercera vez (se cambió un dispositivo diferente) que finalmente se dieron los resultados y hubo una explosión de aplausos por parte del público.

Redefiniendo el asistente de IA

En este discurso, Google dijo: Con Gemini, han reimaginado lo que significa que un asistente personal sea verdaderamente útil para los humanos: más natural, conversacional e intuitivo.

Conecta más aplicaciones

¿Cuáles son las palabras clave más importantes para un buen asistente de IA?

conectar.

Gemini es así, se integrará con todas las aplicaciones y herramientas de Google que utilizamos para completar tareas grandes y pequeñas.

Y a diferencia de otros asistentes, no tenemos que perder tiempo cambiando entre aplicaciones y servicios.

En las próximas semanas, Google también lanzará nuevas extensiones, incluidas Keep, Tasks, Utilities y YouTube Music.

¿Qué comida hay en la imagen? Pregúntale a Gemini y te lo enumerará todo.

Supongamos que ahora queremos celebrar una cena, Géminis puede usar sus diversas artes marciales——

Desde Gmail, puede encontrar una receta de lasaña que alguien nos envió, luego agregar los ingredientes a la lista de compras de Keep; luego, puede pedirle a Gemini que compile una lista de reproducción para nosotros, pidiéndole que "me recuerde el final de los 90".

En la próxima extensión de calendario de Google, podremos tomar directamente una foto del cartel de un concierto y preguntarle a Géminis: ¿Estoy libre ese día? Si la respuesta es sí, también podemos pedirle a Gemini que nos ayude a configurar recordatorios y prepararnos para conseguir entradas.

Pídele a Géminis que le escriba un correo electrónico al profesor pidiéndole permiso, y pídele una extensión de plazo por unos días más, con solo hablar.

Invoca a Géminis con un clic

Ahora, Gemini se ha integrado completamente en la experiencia del usuario de Android.

Sólo en Android podemos experimentar una conciencia del contexto tan fluida como la seda.

Mientras tengamos un teléfono Android en la mano, no importa lo que queramos hacer, Gemini puede aparecer cuando sea necesario.

¡Mantén presionado el botón de encendido o di "Hola Google" para convocar a Géminis!

Si estás usando YouTube, puedes hacerle preguntas a Gemini sobre videos.

Por ejemplo, supongamos que estamos haciendo una guía para viajar al extranjero y acabamos de ver un blog de videos de viajes. Haga clic en "Preguntar sobre este video" y deje que se enumeren todos los restaurantes que aparecen en el video y los agregue a Google Maps. lo haremos uno por uno.

Mirando la imagen a continuación, las imágenes generadas por Gemini se pueden arrastrar y soltar directamente en Gmail y Google Messages.

Creo que te has dado cuenta de la belleza de esta operación——

Debido a que Gemini ha creado una integración profunda para Android, la IA puede hacer más que simplemente leer el contenido de la pantalla e interactuar con muchas de las aplicaciones que ya usamos.

Gemini 1.5 Flash, equipado con asistente AI

Sin embargo, hay dos problemas: LLM que puede interpretar mejor el lenguaje natural y procesar tareas a menudo significa que lleva más tiempo completar incluso tareas simples.

Y si la IA muestra un comportamiento inesperado o proporciona información inexacta, también será un dolor de cabeza.

Con este fin, Google ha presentado especialmente un nuevo modelo: Gemini 1.5 Flash.

Responde más rápido y la calidad de sus respuestas es mayor.

En los próximos meses, Google también integrará más profundamente el modelo con Google Home, Phone y Messages.

Google dice hoy que hemos llegado oficialmente a un punto de inflexión en el que la utilidad de los asistentes de inteligencia artificial supera con creces sus desafíos.

Basado en Imagen 3, genera imágenes en 2 segundos

En la reunión, Google también lanzó una nueva aplicación de generación de fotografías con IA: Pixel Studio.

Sólo se necesitan unas pocas palabras para generar una imagen hermosa.

Lo más importante es que es una aplicación de generación de imágenes local, construida sobre Imagen 3, que puede generar varias imágenes en 2 segundos.

También hoy se publicó el informe técnico de Imagen 3. Los detalles técnicos se pueden encontrar en el documento de 32 páginas.

Dirección del artículo: https://arxiv.org/pdf/2408.07009

El primer teléfono con IA cuesta 20 dólares criptónicos al mes

Todas estas capacidades de IA han sido integradas en el último hardware de telefonía móvil de Google.

En el evento, Google lanzó un total de cuatro teléfonos con inteligencia artificial: Pixel 9, Pixel9 Pro, Pixel9 Pro XL y el Pixel 9 Pro Fold con pantalla plegable de segunda generación.

Lo que no debes perderte en la nueva serie Pixel 9 son las capacidades de la cámara con tecnología de inteligencia artificial.

Google dijo que el algoritmo de procesamiento de imágenes, HDR+pipeline, ha sido completamente reconstruido, lo que permite que las fotos tomadas tengan mejor contraste, sombras, exposición, nitidez, color, etc.

Las siguientes son las nuevas capacidades de edición de imágenes con IA de los teléfonos de la serie Pixel 9:

Agrégame

¿Te encuentras a menudo con que durante las reuniones familiares, la formación de equipos y los viajes familiares, asumes la responsabilidad de tomar fotografías, pero eres el único que falta en las fotografías?

Sin embargo, no tienes que preocuparte por eso en el futuro.

La función "Agregarme" de Google puede compensar sus arrepentimientos.

Primero, es necesario tomar una foto grupal. Luego, el responsable de tomar la foto interactúa con la persona de la foto y toma una foto incluyendo al "fotógrafo".

En este momento, Pixel utiliza tecnología AR en tiempo real para guiar a la segunda persona a componer la foto para que coincida con la composición de la primera foto.

Finalmente, Pixel fusiona las dos imágenes para garantizar que todos aparezcan en la misma foto, incluido el "fotógrafo".

Reimaginar

Otra función de Reimagine es fácil de entender.

En este momento, una capacidad en Magic Editor le permite describir el efecto que desea directamente en el cuadro de texto.

La IA puede convertir tus ideas en realidad.

Por ejemplo, podrás modificar el fondo de la foto, volcanes, atardeceres, auroras y otras escenas, y jugar con ellos como quieras.

Marco automático

La composición automática es una nueva característica de Magic Editor que puede recomponer fotografías que ya se han tomado.

Incluso puede ampliar tus fotos y generar fondos de áreas en blanco a través de IA.

Mejora de zoom

Zoom Enhance puede llenar automáticamente los espacios entre píxeles y predecir con precisión los detalles para lograr efectos de ampliación de disparo de alta calidad.

La realización de capacidades de IA es inseparable de los potentes chips detrás de la serie Pixel 9.

El procesador de IA más potente: Google Tensor G4

El nuevo teléfono móvil utiliza el procesador de nuevo diseño de Google: Google Tensor G4.

Google dijo: "El chip Tensor G4 es nuestro chip más rápido y potente hasta el momento".

Basado en el Tensor G3 del año pasado, Google se asoció con Samsung para crear un procesador semipersonalizado Tensor G4 basado en el proceso de 4 nm, utilizando los núcleos de CPU y GPU proporcionados por Arm.

Al mismo tiempo, también utiliza módulos propios de Google para mejorar las funciones de IA, fotografía y seguridad.

Se informa que, en comparación con las dos generaciones anteriores, G4 aumentó la velocidad de navegación web en un 20 %, la velocidad de inicio de la aplicación en un 17 % y el consumo diario de energía de la batería de la aplicación aumentó hasta en un 20 %.

En términos de CPU, el G4 está equipado con 1 núcleo Cortex-X4 que funciona a 3,1 GHz, 3 núcleos Cortex-A720 que funcionan a 2,6 GHz y 4 núcleos Cortex-A520 que funcionan a 1,95 GHz.

En comparación, el Tensor G3 tiene un núcleo Cortex-X3 a 2,91 GHz, cuatro núcleos Cortex-A715 a 2,37 GHz y cuatro núcleos Cortex-A510 a 1,70 GHz.

Aunque el Tensor G4 tiene un núcleo menos, todos los núcleos tienen una frecuencia de 200 MHz a 300 MHz más alta.

Según las puntuaciones filtradas de Geekbench, el Tensor G4 obtuvo una puntuación de 2005 en la prueba de un solo núcleo y 4835 en la prueba de múltiples núcleos. En comparación, el Tensor G3 obtuvo una puntuación de 1751 en la prueba de un solo núcleo y 4208 en la prueba de múltiples núcleos. Hay una diferencia de rendimiento del 14%.

En cuanto a la GPU, Tensor G4 utiliza la misma GPU ARM Mali-G715 que el Tensor G3 del año pasado, pero la frecuencia se ha incrementado de 890MHz a 940MHz. Esto significa que el rendimiento de la GPU de Tensor G4 debería ser ligeramente mejor que el de Tensor G3.

Admite nuevas funciones de IA

Por supuesto, la IA es una de las principales fuerzas impulsoras del proyecto Tensor.

El Tensor G4 rediseñado está diseñado para potenciar las últimas funciones de fotografía computacional y Gemini.

Los modelos Gemini Nano que se pueden ejecutar localmente (la versión más grande tiene 3,5 mil millones de parámetros) pueden generar contenido a una velocidad de 45 tokens/s.

Aunque la TPU de Google ya es rápida, no está por delante de sus competidores en términos de procesamiento de tokens.

En comparación, Qualcomm Snapdragon 8 Gen 3 puede generar 15 tokens por segundo cuando ejecuta 10 mil millones de parámetros. MediaTek Dimensity 9300 puede ejecutar 7 mil millones de parámetros a 20 tokens por segundo.

Sin embargo, es posible que las capacidades de inteligencia artificial únicas de la serie Pixel 9 no dependan completamente del nuevo chip, sino más bien el resultado de otros factores.

La IA también requiere grandes cantidades de memoria y requiere acceso a grupos de memoria grandes y rápidos para ejecutar modelos más complejos.

El Pixel 9 viene con 12 GB de RAM y la serie Pro se actualiza a 16 GB.

Google dijo que para lograr una experiencia de IA más fluida, esta es la primera vez que reserva "una porción dedicada de RAM para ejecutar Gemini en el dispositivo" para evitar que otras aplicaciones usen la memoria.

Sin embargo, Google no reveló cuánto se destinó a tareas de inteligencia artificial.

Aunque el chip en sí no tiene una actualización importante en términos de IA, aún puede brindar una mejor experiencia de IA y nuevas funciones mediante la optimización de la gestión de RAM.

Referencias:

https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

https://x.com/TechCrunch/status/1823410187404743131

https://venturebeat.com/ai/googles-ai-surprise-gemini-live-speaks-like-a-human- Taking-on-chatgpt-advanced-voice-mode/

https://www.androidauthority.com/google-tensor-g4-explained-3466184/

noticias

¡La versión de Google de Her está por delante del juego! Invoca a Gemini con un clic y subvierte 5.200 millones de terminales en todo el mundo.

Introducción

Mi información de contacto