Se está poniendo feroz, GPT-4o fue derrotado por el nuevo modelo de Google, cuenta oficial ChatGPT: todos respiran hondo

Es feroz, GPT-4o fue derrotado por el nuevo modelo de Google, cuenta oficial ChatGPT: todos respiran hondo

2024-08-02

¡Vamos, que GPT-4o ha sido superado por el nuevo modelo de Google!

Durante una semana, más de 12.000 personas votaron de forma anónima.Géminis 1.5 Pro (0801) Representar a Google ganó por primera vez el primer lugar en el ámbito de lmsys. (La tarea china también ocupa el primer lugar)

Y esta vez se trata de una doble corona, además de la clasificación general (la única puntuación es 1300), en.Tabla de clasificación visualTambién es el número uno.

Simon Tokumine, figura clave del equipo Gemini, publicó un mensaje para celebrar:

(Este nuevo modelo) es el Gemini más poderoso e inteligente que jamás hayamos fabricado.

Un usuario de Reddit también calificó el modelo de "muy bueno" y expresó su esperanza de que su funcionalidad no se reduzca.

¡Más internautas expresaron su entusiasmo porque OpenAI finalmente ha sido desafiado y lanzará una nueva versión para defenderse!

La cuenta oficial de ChatGPT también dio a entender algo.

En medio del entusiasmo, el jefe de producto de Google AI Studio anunció que el modelo ha entrado en el mercado.Fase de prueba gratuita：

Disponible gratis en AI Studio

Internauta: ¡Google finalmente está aquí!

Estrictamente hablando, Gemini 1.5 Pro (0801) no es en realidad un modelo nuevo.

Deberíaversión experimentalSobre la base del Gemini 1.5 Pro lanzado por Google en febrero, la serie 1.5 luego amplió la ventana contextual a 2 millones.

A medida que se actualiza el modelo, el nombre se vuelve cada vez más largo, lo que también provoca que la gente se queje.

No, un empleado de OpenAI lo felicitó sin olvidar ser raro:

Por supuesto, aunque el nombre es difícil de recordar, esta vez Gemini 1.5 Pro (0801) obtuvo buenos resultados en la evaluación oficial del campo.

El mapa de calor de tasa de ganancia general muestra que es un 54% mejor que GPT-4o y un 59% mejor que Claude 3.5 Sonnet.

existircapacidad multilingüeEn las pruebas comparativas, ocupa el primer lugar en chino, japonés, alemán y ruso.

Sin embargo, en Coding y Hard Prompt Arena, todavía no puede vencer a oponentes como Claude 3.5 Sonnet, GPT-4o y Llama 405B.

Esto también ha sido criticado por los internautas, lo que se tradujo en:

La codificación es lo que importa, pero no funciona bien allí.

Sin embargo, algunas personas han presentado Amway Gemini 1.5 Pro (0801)Capacidades de extracción de imágenes y PDF。

Elvis, cofundador de DAIR.AI, realizó personalmente una serie completa de pruebas en el oleoducto y concluyó:

Las capacidades visuales están muy cerca de GPT-4o.。

Además, alguien usó Gemini 1.5 Pro (0801) para resolver el problema que Claude 3.5 Sonet no respondió bien antes.

Los resultados mostraron que no sólo funcionó mejor, sino que también derrotó a su pequeño amigo Gemini 1.5 Flash.

Pero algunosPrueba clásica de conocimientos generalesTodavía no puedo entenderlo, como "Escribe diez oraciones que terminen con manzanas".

Una cosa más

Mientras tanto, la serie Gemma 2 de Google da la bienvenida a una nuevamodelo de 2 mil millones de parámetros。

Gemma 2 (2B)Listo para usar, puede ejecutarse en la GPU T4 gratuita de Google Colab.

En la clasificación de la arena,Supera todos los modelos GPT-3.5, superando incluso al Mixtral-8x7b.

Frente al último conjunto de nuevas clasificaciones de Google, ArenaAutoridad de la listaCuestionado por todos nuevamente.

El cofundador de Nous Research, Teknium (un actor muy conocido en el campo del post-entrenamiento afinado) emitió un recordatorio:

Aunque Gemma 2 (2B) obtiene una puntuación más alta que GPT-3.5 Turbo en Arena, es mucho más baja que este último en MMLU.
Esta discrepancia sería preocupante si se utilizara la clasificación de arena como único indicador del desempeño del modelo.

Bindu Reddy, director ejecutivo de Abacus.AI, incluso apeló directamente:

¡Deje de usar esta tabla de clasificación calificada por humanos de inmediato!
Claude 3.5 Sonnet es mucho mejor que GPT-4o-mini.
Puntuaciones similares de Géminis/Gemma no deberían estar tan arriba en esta lista de clasificación.

Entonces, ¿crees que este método de votación anónima por parte de humanos sigue siendo fiable?

noticias

Es feroz, GPT-4o fue derrotado por el nuevo modelo de Google, cuenta oficial ChatGPT: todos respiran hondo

Introducción

Mi informacion de contacto