Google: teléfonos Android, escúchenme, la IA tiene que hacer esto

2024-08-14

Autor |
editar |

Un mes antes que Apple, Google ha demostrado todas las posibilidades de los teléfonos AI+ en su nuevo teléfono Pixel.

El 13 de agosto, hora local, Google lanzó nuevos productos de hardware como Pixel 9, Pixel 9 Pro y la pantalla plegable de segunda generación Pixel 9 Fold, relojes inteligentes y auriculares. En comparación con el hardware, la gente está más preocupada por cómo Google, como administrador del sistema Android, utilizará la IA en el dispositivo para teléfonos Android cuando los teléfonos móviles con IA+ son tan populares.

Hace casi 10 meses, Google lanzó la primera generación de teléfonos móviles con IA. Ahora, hace menos de un año, el gigante volvió a actualizar su cartera de productos Gemini, Android y Pixel. Esta vez, el foco principal es "tengo lo que mis competidores". tener." "modelo.

Desde que OpenAI lanzó el modo de voz ChatGPT y las funciones de IA del iPhone de próxima generación de Apple quedaron expuestas, Google no está dispuesto a quedarse atrás en lo que sus pares pueden hacer, incluidas conversaciones de voz con IA, búsqueda de información en capturas de pantalla, etc. Al mismo tiempo, Google también está integrando aún más la IA en su propio ecosistema de aplicaciones.

¿Quién es el líder en teléfonos móviles con IA? Google debe competir con Apple.

En respuesta a OpenAI,

Géminis Live está en línea

Gemini es la piedra angular de los diversos productos de inteligencia artificial de Google y el asistente predeterminado en los teléfonos móviles de la serie Pixel 9 de Google. Las actualizaciones que tiene Gemini cuando se integra en los teléfonos móviles fueron un tema importante en la conferencia.

Se puede invocar a Gemini en los teléfonos Google Pixel presionando el botón de encendido. A partir de hoy, los usuarios pueden abrir las superposiciones de Gemini sobre las aplicaciones que utilizan para hacer preguntas sobre lo que hay en la pantalla, según los ejecutivos de Google. Por ejemplo, los usuarios pueden hacer preguntas sobre un vídeo de YouTube que están viendo o pueden generar imágenes directamente a partir de las superposiciones de Gemini y arrastrarlas y soltarlas en aplicaciones como Gmail y Google Messages.

Google también planea conectar Gemini a más aplicaciones "en las próximas semanas", incluidas Calendar, Keep y YouTube Music. Las características específicas incluyen pedirle a Gemini que "haga una lista de reproducción de canciones que me recuerden a finales de los 90". "Tome una foto del volante de un concierto y pídale a Gemini que verifique la disponibilidad ese día; incluso establezca recordatorios para comprar boletos". Encuentra una receta en tu Gmail y pídele que agregue los ingredientes a tu lista de compras en Keep".

Gemini usa capturas de pantalla para extraer información e interactuar con más aplicaciones Fuente de la imagen: Google

Además de estas experiencias integradas, Google también lanzó oficialmente Gemini Live. Se puede decir que esta función es la respuesta de Google al modo de voz avanzado GPT-4o lanzado por OpenAI. Esta función se expuso anteriormente en la Conferencia de desarrolladores de E/S 2024 de Google y se lanzará oficialmente hoy.

Los usuarios pueden usar sus teléfonos móviles para mantener conversaciones de voz con Gemini, el chatbot generativo de IA de Google. Pueden interrumpir a mitad de camino y hacer preguntas de seguimiento, y la conversación se puede pausar y reanudar en cualquier momento. Algunos ejemplos de usos específicos incluyen dejar que Gemini Live lo acompañe a prepararse para entrevistas de trabajo, practicar discursos y conversar informalmente sobre temas que le interesan.

Gemini Live obviamente tiene como objetivo comparar la interacción de voz de GPT-4o ｜ Fuente de la imagen: Google

Entonces, ¿Gemini Live tiene alguna ventaja sobre el modo de voz de ChatGPT?

Se dice que la arquitectura del modelo de IA generativa que admite Live - Gemini 1.5 Pro y Gemini 1.5 Flash tiene una "ventana de contexto" más larga que el promedio, lo que significa que pueden procesar y razonar sobre grandes cantidades de datos antes de generar una respuesta. teoría Las conversaciones pueden durar horas.

Gemini Live también funciona con manos libres, lo que permite a los usuarios continuar conversaciones de voz en segundo plano de la aplicación o cuando el teléfono está bloqueado, con 10 nuevas voces para elegir.

Sin embargo, vale la pena señalar que Gemini Live aún no ha lanzado la función de "entrada multimodal", que se dice que se lanzará "más adelante este año".

Hace unos meses, Google lanzó un vídeo pregrabado que mostraba cómo Gemini Live podía reconocer el entorno del usuario a través de fotografías y vídeos captados por la cámara del teléfono y responder, como señalar una pieza rota de una bicicleta o explicar lo que estaba pasando en la pantalla de un ordenador. La funcionalidad de un fragmento de código, ninguno de los cuales se ha demostrado en vivo.

Además, Gemini Live está disponible para suscriptores de Gemini Advanced en teléfonos Android y no es gratuito. Actualmente sólo está disponible en inglés, pero Google dice que se expandirá a más idiomas "en las próximas semanas" y a iOS a través de una aplicación.

Demostración de transmisión en vivo de ejecutivos de Google Gemini Live ｜ Fuente de imagen: Google

Un ejecutivo de Google Gemini Experience y Google Assistant dijo: "Google se encuentra en las primeras etapas de exploración de formas en que los asistentes con tecnología de inteligencia artificial pueden ser útiles y, al igual que los teléfonos Pixel, Gemini mejorará cada vez más".

Además, en términos de privacidad, los ejecutivos del ecosistema Android de Google dijeron que Gemini admite cientos de modelos de teléfonos móviles de docenas de fabricantes de dispositivos y que, al procesar los datos del usuario, los datos no saldrán del teléfono.

"Gemini puede ayudarle a crear un plan de entrenamiento diario basado en un correo electrónico de su entrenador personal, o escribir un perfil de trabajo utilizando su currículum en Google Drive. Sólo Gemini puede hacerlo todo de esta forma segura y todo en uno sin necesidad de Los datos se entregan a un proveedor externo de IA que quizás no conozcas o en el que no confíes", dijo Sameer Samat, presidente del ecosistema Android de Google.

"Debido a que Android es el primer sistema operativo móvil que tiene un gran modelo de IA multimodal en el dispositivo, llamado Gemini Nano, sus datos nunca salen de su teléfono mientras se manejan algunos de los casos de uso más sensibles".

La IA se integra aún más en Android

La mayor ventaja de Google en la promoción de teléfonos con IA son, sin duda, sus múltiples herramientas de aplicaciones y el ecosistema de Android ahora tiene miles de millones de usuarios de Android, y obviamente hay más espacio para ello que una aplicación de chatbot.

El año pasado, como primer teléfono inteligente centrado en IA, la serie Pixel 8 de Google trajo varias funciones de IA. Por ejemplo, los usuarios pueden eliminar, mover o editar elementos individuales en una foto, mover expresiones entre fotos para obtener la mejor foto compuesta, realizar búsquedas basadas en capturas de pantalla o en una "parte circular" de la pantalla, y más.

Todas estas funciones aparecieron por primera vez en la serie Pixel 8 y desde entonces se han extendido por todo el ecosistema de Android.

La función de “búsqueda circular” de Google apareció por primera vez en el teléfono Galaxy AI de Samsung. Como socio del ecosistema Android de Google, los teléfonos Samsung también han agregado muchas funciones de inteligencia artificial similares. El asistente de inteligencia artificial Gemini antes mencionado también aparece en el Galaxy Z Fold6, Motorola Razr+ y otros teléfonos móviles de Samsung.

Al mismo tiempo, otros fabricantes también han anunciado que lanzarán su propia IA para teléfonos móviles. El que más atención ha atraído en los últimos meses es Apple. La misma dirección y concepto es integrar su propio ecosistema de aplicaciones.

En casi un año, se puede decir que los "teléfonos móviles con IA" se han convertido en la perspectiva central de la visión del mercado sobre los teléfonos móviles, no solo los teléfonos móviles de Google. Cómo utilizar la IA para hacer brillar a las personas es un desafío para Google. En la actualidad, al igual que cuando lanzó el teléfono con inteligencia artificial Pixel 8 de primera generación, la mayor producción de Google sigue siendo una variedad de dispositivos con función de inteligencia artificial.

En el evento Made By Google de este año, las nuevas funciones clave de IA de Google incluyen:

"Agregarme" permite que incluso la persona que toma la foto se incluya en la foto del grupo;
"Pixel Studio", un generador de imágenes de IA muy similar a la próxima aplicación Image Playground de Apple;
“Pixel Screenshots”, que escanea la galería de un usuario en busca de capturas de pantalla y las convierte en una base de datos de fácil búsqueda;
"Notas de llamada" puede guardar un resumen de la información en el historial de llamadas. Después de activar esta función, todos los participantes en la llamada recibirán una notificación.

Entre ellos, si desea implementar la función "Agregarme", el fotógrafo primero toma una foto sin él mismo, y luego otra persona se convierte en fotógrafo y toma otra foto. Pixel fusionará las dos fotos para garantizar que todos estén en una sola, por lo que no es necesario pedirle a un extraño que tome la foto.

Función de foto grupal ｜ Fuente de la imagen: Google

Un importante punto de venta del posicionamiento de Google en la serie Pixel 9 es también la cámara con IA, que se autodenomina "la primera cámara impulsada por IA del mundo". Los ejecutivos de Google también dijeron que "Pixel fue el primer teléfono en usar Night Sight en fotos y videos, y ahora también es el primer teléfono en capturar impresionantes paisajes panorámicos y paisajes urbanos en entornos con poca luz". comparó fotos tomadas por el Pixel 9 Pro XL con el iPhone 15 Pro Max de Apple.

Efecto de fotografía nocturna del teléfono móvil de Google frente al teléfono móvil de Apple ｜ Fuente: Google

El Pixel 9 Pro Fold plegable con pantalla ultragrande también tiene una función "Made You Look" que se puede utilizar para atraer la atención de los usuarios y hacerlos sonreír a la cámara. Al utilizar esta función, despliegue el teléfono y se reproducirá una sorprendente animación visual en un lado de la pantalla externa, como un pollo de color amarillo brillante u otras animaciones divertidas.

Funciones de pantalla que atraen la atención de los usuarios ｜ Fuente de la imagen: Google

Después de tomar una foto, también hay herramientas de edición de fotografías y el Magic Editor de Google Photos ha lanzado algunas funciones nuevas este año. Por ejemplo, la función "Encuadre automático" se utiliza para corregir el ángulo de las fotografías inclinadas, mientras se utiliza IA generativa para rellenar los espacios alrededor del sujeto y crear un campo de visión más amplio. También hay una función "Reimaginar" Después de describir el efecto deseado en el cuadro de texto, puede usar IA generativa para crear imágenes P, como convertir la hierba del suelo en flores silvestres o agregar un globo aerostático a una determinada parte de la imagen. cielo, etc

Además, Google siguió los pasos de Apple y lanzó una función "Satellite SOS" para usar en emergencias. Esta función permite a los usuarios comunicarse con los servicios de emergencia y compartir información de ubicación cuando no hay servicio celular. Según los ejecutivos de Google, la serie Pixel 9 serán "los primeros teléfonos Android que podrán utilizar SOS por satélite".

Función SOS por satélite｜Fuente de la imagen: Google

Desde un punto de vista funcional, la combinación de Pixel 9+ Gemini no lidera mucho a los actuales fabricantes nacionales de Android en términos de IA. Pero cabe destacar que, a diferencia de Apple, Google cuenta con sistemas y terminales propios, además de modelos de gran tamaño y computación en la nube. Es la compañía que realmente ha cerrado un circuito cerrado en la "nube blanda, dura y central" entre todas. empresas actualmente.

Una vez que se produzca un gran avance en la IA terminal, Google, que está preparado para todo, tendrá muchas más posibilidades de "volver a ser grande" que sus competidores.

Quizás lo que le falta a Google es simplemente una mayor ambición.

*Fuente de la imagen del encabezado: Google

Este artículo es un artículo original de Geek Park. Para reimprimirlo, comuníquese con Geek Jun en WeChat geekparkGO.

noticias

Google: teléfonos Android, escúchenme, la IA tiene que hacer esto

Introducción

Mi información de contacto