Google finalmente gana a OpenAI: la versión experimental Gemini 1.5 Pro supera a GPT-4o

2024-08-02

Informe del corazón de la máquina

Editor: Chen Chen, Xiaozhou

Con un modelo tan potente, Google ofrece a todos una prueba gratuita.

En los últimos dos días, Google ha publicado las últimas investigaciones. Tras el lanzamiento ayer del modelo pequeño Gemma 2 2B de extremo más potente, se acaba de lanzar la versión experimental Gemini 1.5 Pro (0801).

Los usuarios pueden probar y proporcionar comentarios a través de Google AI Studio y Gemini API.

Dado que es gratis, le ayudaremos a probar el problema de relación de tamaño recientemente popular. Cuando le preguntamos al Gemini 1.5 Pro (0801) qué número era mayor, 9.9 o 9.11, el modelo respondió correctamente la primera vez y dio una razón.

Cuando seguimos preguntando "cuántas r hay en la palabra Fresa", el Gemini 1.5 Pro (0801) volcó. Al aplicar un "hechizo" en las indicaciones paso a paso, el análisis del modelo salió mal en el cuarto paso.

Dirección de prueba de Google AI Studio: https://aistudio.google.com/app/prompts/new_chat

Sin embargo, a juzgar por la evaluación oficial, el Gemini 1.5 Pro (0801) sigue siendo muy capaz en varios aspectos. El nuevo modelo rápidamente encabezó la prestigiosa clasificación LMSYS Chatbot Arena y cuenta con una impresionante puntuación ELO de 1300.

Este logro coloca a Gemini 1.5 Pro (0801) por delante del GPT-4o de OpenAI(ELO: 1286) y Claude-3.5 Sonnet de Anthropic (ELO: 1271) y otros fuertes competidores, esto puede presagiar un cambio en el panorama de la inteligencia artificial.

Simon Tokumine, un miembro clave del equipo Gemini, considera que el Gemini 1.5 Pro (0801) es el (modelo) Gemini más potente e inteligente que jamás haya fabricado Google.

Además de ocupar el primer puesto en Chatbot Arena, Gemini 1.5 Pro (0801) también tuvo un muy buen desempeño en áreas como tareas multilingües, matemáticas, Hard Prompt y codificación.

Específicamente, el Gemini 1.5 Pro (0801) obtuvo el primer desempeño en chino, japonés, alemán y ruso.

Pero en el campo de la codificación y el Hard Prompt, Claude 3.5 Sonnet, GPT-4o y Llama 405B siguen a la cabeza.

En el mapa de calor de tasa de victorias: Gemini 1.5 Pro (0801) tiene una tasa de victorias del 54% contra GPT-4o y una tasa de victorias del 59% contra Claude-3.5-Sonnet.

¡Gemini 1.5 Pro (0801) también ocupa el primer lugar en el ranking Vision!

Los internautas dijeron que esta vez Google realmente superó las expectativas de todos. De repente abrió la prueba del modelo más potente sin ningún anuncio oficial por adelantado. Esta vez la presión recayó sobre OpenAI.

Aunque el Gemini 1.5 Pro (0801) logra altos resultados, todavía se encuentra en la etapa experimental. Esto significa que el modelo puede sufrir más modificaciones antes de ser ampliamente utilizado.

Comentarios de internautas

Algunos internautas probaron las capacidades de extracción de contenido, las capacidades de generación de código, las capacidades de razonamiento, etc. de Gemini 1.5 Pro (0801). Echemos un vistazo a los resultados de sus pruebas.

Fuente: https://x.com/omarsar0/status/1819162249593840110

En primer lugar, Gemini 1.5 Pro (0801) tiene una potente función de extracción de información de imágenes. Por ejemplo, ingrese una imagen de factura y escriba los detalles de la factura en formato JSON:

Echemos un vistazo a la función de extracción de contenido de documentos PDF de Gemini 1.5 Pro (0801). Tomando como ejemplo el artículo clásico "La atención es todo lo que necesita", extraiga el directorio de capítulos del artículo:

Deje que Gemini 1.5 Pro (0801) genere un juego Python que ayude a aprender el conocimiento del modelo de lenguaje grande (LLM), que genera directamente un código completo:

Vale la pena mencionar que Gemini 1.5 Pro (0801) también proporciona explicaciones detalladas del código, incluida la función de las funciones en el código, cómo jugar el juego Python, etc.

Este programa se puede ejecutar directamente en Google AI Studio y se puede probar, por ejemplo, respondiendo preguntas de opción múltiple sobre la definición de tokenización:

Si cree que las preguntas de opción múltiple son demasiado simples y aburridas, puede dejar que Gemini 1.5 Pro (0801) genere un juego más complejo:

Obtenga un juego de completar oraciones con experiencia en LLM:

Para probar la capacidad de razonamiento de Gemini 1.5 Pro (0801), los internautas hicieron una pregunta de "vela soplando", pero el modelo respondió incorrectamente:

A pesar de algunos defectos, Gemini 1.5 Pro (0801) muestra capacidades visuales cercanas a GPT-4o, así como capacidades de generación de código y comprensión y razonamiento de PDF cercanas a Claude 3.5 Sonnet, que vale la pena esperar.

https://www.youtube.com/watch?v=lUA9elNdpoY

noticias

Google finalmente gana a OpenAI: la versión experimental Gemini 1.5 Pro supera a GPT-4o

Introducción

Mi informacion de contacto