noticias

Más concienzudo que OpenAI, este artículo resume 11 aspectos destacados de la rueda de prensa de Google

2024-08-14

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Justo en X, el hermano Strawberry folló a un grupo de personas.IA abiertaVista previa, cuando tienes una mentalidad loca.

Google llevaHecho por Google24La conferencia de prensa está aquí.

OpenAI incluso publicó un blog unos minutos después de la conferencia de prensa para criticar a Google. Era un blog tan malo, e incluso dejaron que su AI Strawberry actuara como Riddler durante dos días.

El OpenAI actual es realmente como el grito de un lobo. Ya no tengo expectativas ni confianza en él. Las únicas dos malas palabras que salían cada vez eran ¡XXX, XX!

Y Google todavía tiene algunas sorpresas extra sin expectativas.

He resumido 11 aspectos destacados. Después de leer este artículo, terminaste de ver la conferencia de prensa.

1. Google quiere reconstruir Android basado en Gemini.

Definieron una palabra llamada AI OS. Google quiere llevar AI OS a todos.

Actualmente admiten 45 idiomas en más de 200 países y regiones, se puede utilizar en cientos de modelos de teléfonos móviles de decenas de fabricantes de dispositivos y es compatible con miles de millones de dispositivos en todo el mundo.

2. Se anula el reconocimiento de imágenes de Géminis en el teléfono móvil.

Lo primero que demostraron fueron las capacidades de reconocimiento de imágenes de Gemini.

Como IA multimodal, el reconocimiento de captura de imágenes parece convertirse en una función imprescindible. La mejor prueba de la capacidad de reconocimiento de fotografías es el contenido con mucha información, como instrucciones y horarios de toma de fotografías. Es necesario no solo reconocer la imagen, sino también comprender el contenido del texto y dar la respuesta.

El chico que hacía la demostración tomó una foto.cartel de concierto de papel, programa de gira arriba. El presentador le pidió a Géminis que revisara su agenda y eligiera un horario en el que podría ir al show de Sabrina Carpenter.

Sin embargo, es probable que haya errores en las demostraciones en vivo, y aquí viene.

Las dos primeras veces que Gemini tomó fotografías, la demostración en vivo fracasó vergonzosamente. Al otro lado del Océano Pacífico, me sentí incómodo en la escena, dos veces. . . = =

Esta demostración también mencionó específicamente que se utilizó el teléfono móvil Samsung Galaxy S24 Ultra. ¿Podría ser que Samsung estuviera ejerciendo su fuerza?

La escena se cambió a otro dispositivo y se intentó nuevamente. Afortunadamente, el contenido de la imagen se reconoció con éxito por tercera vez.

Géminis directamente dio una fecha muy concreta: Sabrina estará allí9 de noviembre de 2024Llegar a San Francisco y acudir a algún espectáculo si el presentador no tiene otros planes para el día.

Los aplausos finalmente comenzaron y los chicos dieron un visible suspiro de alivio.

3. La interacción entre software es muy conveniente.

Gemini ahora puede comprender y analizar contenido de video directamente en su teléfono.

Mientras mira el video, puede llamar a Gemini para resumirle los puntos clave o responder sus preguntas sobre el contenido del video.

Por ejemplo, después de ver un vídeo de comida en YouTube por la noche, no es necesario leer las imágenes una por una. Se genera automáticamente una lista de alimentos que aparecen en el vídeo y se agrega a la lista personal de "probar" del usuario. .

Buenas noticias para los amantes de la gastronomía.

Y puedes crear listas de atracciones o sugerencias de itinerarios para algunos videos de viajes en YouTube.

Como alguien que necesita aparecer en BGM incluso cuando sale a caminar,

También puedes pedirle a Gemini que cree una "lista de reproducción de K-pop adecuada para caminar en Seúl", que recomiende música apropiada según la escena, el estado de ánimo o el tipo de actividad descrita por el usuario.

Hace que encontrar música sea más intuitivo y personal.

4La velocidad de escritura es muy rápida y el efecto es bueno.

Gemini también puede ayudarte a escribir correos electrónicos en tu teléfono móvil en tan solo unos segundos.

El hermano pequeño demostró dos escenarios: el primero era escribir una cortés carta recordatoria al propietario, informándole que reparara el módulo de suministro de energía en casa.

La segunda es escribir una carta de disculpa al profesor por ausentarse del trabajo por enfermedad (parece que ya he hecho este tipo de cosas antes).

Además, Gemini también tiene diseños interactivos que facilitan a los usuarios pulir texto y enviar correos electrónicos.

Al ver que Gemini completó la carta de disculpa en solo unos segundos, casi no pude contener la risa.

5. El efecto de conversación en tiempo real de Gemini Live no es malo, pero es solo TTS de baja latencia.

Google ha lanzado una función de conversación en tiempo real similar a GPT4o que se puede interrumpir en cualquier momento. La llaman Gemini Live.

Hay 10 tonos para elegir.

La chica de demostración charló con Gemini Live durante mucho tiempo. La calidad del sonido es buena y el retraso es bastante bajo, pero en realidad parece un TTS de baja latencia, no el modelo grande multimodal nativo de GPT4o.

Debido a que no hay demostración de comprensión y expresión emocional, según la orina de Google, si la hay, definitivamente la mostrarán locamente. Además, en algunas respuestas más largas, el retraso aún se puede sentir claramente.

Entonces, en realidad es una conversación TTS de baja latencia.

Actualmente sólo está disponible para suscriptores de Gemini Advanced. Cuesta $20 al mes y está disponible de inmediato.

6.Pixel 9 es el primer teléfono móvil equipado con Gemini Nano multimodal.

Este es el modelo de IA en dispositivo más potente jamás lanzado en un teléfono, tres veces más potente que la IA anterior utilizada en Pixel 8 Pro.

El procesador del Pixel 9 (TPU y Tensor G4) puede generar hasta 45 palabras en un segundo, el doble de rápido que antes.

La versión normal del Pixel 9 tiene 12 GB de memoria, mientras que la versión Pro tiene más memoria, llegando a los 16 GB. Y lo más interesante de ellos es que por fin cuentan con función de llamada por satélite. . .

¡Todo lo que puedo decir aquí es que estamos muy por delante!

Los productos lanzados esta vez incluyen tres teléfonos tipo barra de caramelo y un teléfono plegable. La línea regular incluye un Pixel 9 básico con una pantalla de 6,3 pulgadas, un Pixel 9 Pro XL con una pantalla de 6,8 pulgadas y un nuevo Pixel 9 Pro más pequeño de 6,3 pulgadas.

Para ser honesto, creo que es un poco feo. . .

También hay una nueva mampara plegable.Pixel 9 Pro Fold。

Aún más feo. . .

7.Call Notes puede ayudarle a registrar información clave durante la llamada telefónica.

Ahora, el "asistente de llamadas" de Pixel se ha vuelto más poderoso y agregó una función de "Notas de llamada".

Una vez que finalice su llamada, le brindará un resumen completamente privado de la llamada. Esto facilita el acceso a números de teléfono, horarios, detalles y otra información que no desea olvidar, incluso si no tiene lápiz y papel durante la llamada.

Además, todo este proceso se ejecuta localmente y básicamente no hay problemas de privacidad.

El chico dio un ejemplo. Estaba pensando en cambiar su peinado recientemente, pero su barbero no podía hacer el peinado que quería, así que me recomendó otra barbería.

Pero el problema es que se olvidó de anotar el número de teléfono de la tienda. Con Call Notes, puedes rastrear fácilmente.

7. La función de captura de pantalla similar a Recall es un poco extraña.

Hay una escena que todo el mundo conoce: ves algo en tu teléfono que quieres recordar. Tal vez lo escribas en tu mente o tomes una captura de pantalla y lo guardes.

Pero a menudo olvidas lo que quieres recordar o no puedes encontrarlo cuando lo necesitas.

Luego hicieron un nuevo producto.

Puede utilizar AI para buscar rápidamente todas las imágenes guardadas. Por ejemplo, si tienes docenas de imágenes de bicicletas en tu teléfono, si buscas bicicletas, aparecerán todas.

También puedes hacer preguntas más complejas, como el precio de una camiseta, y puedes ver que Pixel Screenshot no solo encontró la imagen original, sino que también me proporcionó una respuesta en lenguaje natural basada en la información de la imagen.

8. Una IA local ordinaria que dibuja Pixel Studio.

Cada teléfono Pixel 9 viene con el nuevo Pixel Studio, su primer generador de imágenes en un teléfono.

Creo que el efecto es mediocre y utilizable.

Por ejemplo, la fogata en la playa al atardecer parece muy normal.

9. La cámara con IA es ideal para tomar fotografías grupales.

Se dice que la cámara Pixel es la primera cámara con IA.

No entiendo la mayoría de los parámetros, pero esta escena fotográfica es muy interesante.

Muchas veces no podemos hacer una foto de grupo y siempre hay algún amigo que quiere ser el fotógrafo.

Utiliza una interfaz simple en pantalla para guiarlo a través de la toma de fotografías, como permitirle entregarle su cámara a otra persona para que pueda intercambiar lugares. Luego, puedes alinear a las personas en la nueva foto según sus contornos en la primera foto y tomar otra foto. La imagen resultante combina las dos fotos, haciendo que parezca que todos están en la misma foto al mismo tiempo.

Es genial y resuelve un problema importante al tomar fotografías.

10. Relojes y auriculares nuevos.

Envió un Pixel Watch 3.

Un auricular Pixelbuds Pro 2.

Los auriculares pueden despertar a Gemini y hablar con él en cualquier momento.

11. Compare el Proyecto Aster de GPT4o.

El Proyecto Aster se presentó en la conferencia de Google hace unos meses y compara directamente el gran modelo multimodal nativo de GPT4o.

Ahora, en Gemin Live, también podrás usarlo en el futuro.Aster.

Por ejemplo, puedes compartir tu cámara mientras hablas con Gemini, para poder mostrar directamente un problema que encontraste en una tarea de cálculo o pedir ayuda con el siguiente paso del montaje de muebles.

Y las aplicaciones que más usas están integradas en Gemini Live, por lo que puede ayudarte a tomar medidas en conversaciones y mensajes, y extraer información de aplicaciones como Google Calendar.

Para que pueda enviar mensajes de texto a sus vecinos, compartir detalles sobre una empresa y consultar su calendario al mismo tiempo directamente desde Gemini Live, sin tener que abrir otra aplicación.

Es un poco genial, una combinación de GPT4o + Apple.

Es una pena, sigue siendo un pastel.

En términos de IA, la combinación con hardware es bastante interesante. Al menos Gemini Live no es un futuro y se puede utilizar hoy.

Sigue siendo mucho mejor que OpenAI, que sólo puede dibujar pasteles.

Espero que Google mejore cada vez más y acabe con OpenAI.

Ahora que has leído esto, si te parece bueno, no dudes en darle me gusta, verlo y retuitearlo tres veces. Si quieres recibir notificaciones lo antes posible, también puedes regalarme una estrella⭐. ~Gracias por leer mi artículo. Hasta la próxima.

>/ Autor: Kazik, Wenwen, Xiaorui, Dawn_E