GPT-4o mini alcanza la cima del campo de los modelos grandes, Ultraman: ajuste gratuito en dos meses

2024-07-24

Crecy proviene del templo de Aofei.
Qubits | Cuenta pública QbitAI

Justo ahora, la versión mini GPT-4o marcó el comienzo de su "momento destacado"——

Subió al campo de los modelos grandes de lmsys, empatado en el primer lugar con la versión de salud completa, y dejando atrás a Claude 3.5.

A diferencia de la evaluación general del conjunto de datos, el campo del modelo grande es el resultado de que los usuarios establezcan sus propias preguntas y voten con los pies. No se pueden tomar atajos "preguntando", por lo que es más real.

Tan pronto como salió este resultado, incluso el CEO Altman se emocionó:

Ante los resultados de la evaluación, originalmente intentamos ser reservados, pero cuando vimos que GPT-4o mini funcionaba igual que la versión de salud completa, pero el precio era solo 1/20, todavía estábamos muy emocionados.

Los internautas dijeron que estaba bien después de verlo, pero estaban más preocupados por cuándo estaría en línea la demostración de "Ella" en la conferencia de prensa de GPT-4o.

Al mismo tiempo, OpenAI también envió otra buena noticia, que brindará beneficios a los desarrolladores——

GPT-4o miniEl ajuste se abrirá gradualmente, actualmente abierto a usuarios de nivel 4 y 5, y ampliará gradualmente su alcance.

yDesde ahora hasta el 23 de septiembre, podrás utilizar 2 millones de tokens de entrenamiento gratis todos los días。

El mini está a la par con la versión de salud completa.

Después de millones de rondas de competencia 1 contra 1 con más de 80 modelos, la puntuación de GPT-4o mini en la lista de lmsys está a solo 7 puntos de la versión de salud completa.

Según la disposición de la lista lmsys, esta brecha de 7 puntos no afecta la clasificación y los dos modelos se cuentan como empatados en el primer lugar.

Le siguen de cerca las familias Claude 3.5 y Gemini, así como otras dos versiones de GPT-4.

Si observamos los datos sin procesar de GPT-4o mini, encontraremos que su tasa de ganancia promedio de 0,6 es superada solo por la versión de salud completa.

Mirando solo los resultados de la competencia entre los dos, están igualmente igualados.

La razón por la que el desempeño de lmsys ha llamado la atención es que tiene un conjunto único de métodos de competencia——

En lugar de utilizar un conjunto de datos,Permita que los usuarios planteen sus propias preguntas y dibujen dos modelos al azar en una batalla uno contra uno.y luego elija qué modelo funciona mejor.

Antes de elegir, el modelo es anónimo y el usuario no sabe qué dos modelos compiten. Si el modelo filtra algo, la votación no será válida.

Las puntuaciones obtenidas de esta forma son más realistas, lo que no sólo evita la posibilidad de obtener puntuaciones artificialmente altas mediante "preguntas de cepillado", sino que también se acerca más a la experiencia del usuario.

Este gran estadio modelo, recientementeAsistió a la principal conferencia sobre aprendizaje automático ICML2024。

Además, la evaluación de lmsys tambiénMuy popular con OpenAI, la primera versión de GPT-4o mini antes de su lanzamiento oficial figuraba bajo el seudónimo de gpt-mini.

En ese momento ya ocupaba el cuarto lugar, al mismo nivel que GPT4-Turbo.

Anteriormente, antes de que GPT-4o estuviera en línea, también se probó bajo el seudónimo gpt2-chatbot en lmsys.

Sin embargo, algunas personas han cuestionado que aunque el GPT-4o mini funciona muy bien, es exagerado decir que supera al Claude 3.5 sonnet.

Algunas personas incluso dijeron sin rodeos que la integridad del método lmsys ha comenzado a colapsar y debe cambiarse; de lo contrario, ya no será un punto de referencia de prueba útil.

El "modelo pequeño" también está enrollado.

El lanzamiento de la versión mini se centra en la rentabilidad.

Por millón de tokens de entrada/salida, los precios son de 15 centavos y 60 centavos respectivamente (aproximadamente 1,09/4,36 RMB), que no es ni la mitad del 3,5 Turbo.

Si se compara con la versión text-davinci-003 de GPT-3 de hace dos años (el mejor modelo en ese momento), el precio ha bajado un 99%.

Además de abrir modelos pequeños a los usuarios, OpenAI también ha creado nuevas formas de jugar——

En un trabajo póstumo del equipo "Super Alignment", se utilizó un modelo pequeño con una milésima o una centésima de los parámetros del modelo grande para optimizar el modelo grande.

En el experimento, los modelos grandes y pequeños "juegan" entre sí. El modelo grande necesita optimizar y ajustar continuamente su salida para hacer que el modelo pequeño crea que está diciendo la verdad.

En el proceso de este "juego", se mejoraron las capacidades del modelo grande y la comprensión se mejoró enormemente sin una pérdida significativa de precisión.

Además de OpenAI, otras empresas también han lanzado modelos pequeños.

Por ejemplo, antes de GPT-4o mini, Google y Anthropic lanzaron Gemini Flash y Claude 3-Haiku respectivamente.

Incluso se puede decir que GPT-4o mini es el contraataque de OpenAI contra los dos modelos, superando a estos dos modelos en términos de rendimiento y precio.

En la misma semana en que se lanzó GPT-4o mini, Hugging Face y Mistral “European OpenAI” lanzaron modelos pequeños.

Incluso Apple lanzó su propio modelo 7B y abrió todos los procesos y recursos de capacitación a la vez.

En definitiva, siempre que las prestaciones sean suficientes para cubrir las necesidades de uso, el modelo pequeño es sin duda una opción más económica.

Al mismo tiempo, la escala más pequeña también significa que es posible ejecutarlo en el lado del terminal, lo que muestra ventajas en la protección de la privacidad y otros aspectos.

De esta forma, no es difícil entender por qué los modelos "pequeños" se vuelven cada vez más rizados.

Enlaces de referencia:
[1]https://x.com/sama/status/1815877987696533897/
[2]https://x.com/OpenAIDevs/status/1815836887631946015

noticias