noticias

avalancha de clasificación mini gpt-4o, reglas de arena de modelos grandes actualizadas, consejos para aumentar puntos de ultraman no válidos

2024-08-31

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

se actualizaron las reglas de la arena modelo grande.la clasificación del gpt-4o mini colapsó inmediatamente y salió del top 10

la nueva lista responde a la iase han degradado características como la longitud y el estilo., asegurando que la puntuación refleje la verdadera capacidad del modelo para resolver el problema.

intentar utilizar formatos bonitos, aumentar el número de subtítulos y otras técnicas para complacer a los usuarios y mejorar la clasificación son inútiles ahora.

según las nuevas reglas, ultramangpt-4o mini, almizcleserie grok-2caída significativa en el ranking, googlegéminis-1.5-flashlos modelos pequeños también han retrocedido.

serie claudellama-3.1-405blas puntuaciones de los modelos grandes han aumentado una tras otra.

cuando solo se calculan tareas difíciles (hard prompt), la ventaja de los modelos grandes en la lista de control de estilo es aún más obvia.

anteriormente, el modelo mini gpt-4o alcanzó la cima, empatando en el primer lugar con la versión de salud completa gpt-4o, lo que obviamente era inconsistente con el sentido del tacto de los internautas.

lmsys large model arena, un estándar de evaluación alguna vez recomendado por karpathy, también ha caído al punto en que "sólo puede reflejar las preferencias del usuario en lugar de las capacidades del modelo".

la organización lmsys aprendió de la experiencia y reveló por primera vez los datos de 1.000 batallas en las que participó gpt-4o mini, analizando así la tasa de rechazo del modelo, la longitud del contenido generado y el formato como varios factores que afectan los resultados de la votación.

además, antes del lanzamiento del gpt-4o mini, ultraman insinuó que estaba optimizado según las preferencias humanas.

ahora, lmsys ha ido un paso más allá y ha lanzado un nuevo algoritmo para controlar estos factores, y este es sólo el primer paso de la planificación.

¿cómo controlar la influencia del estilo?

supongamos que haymodelo aes bueno para generar código, hechos, respuestas imparciales, etc., pero su resultado es muy conciso.

modelo bno es muy bueno en términos de sustancia (como la corrección), pero su resultado es largo, detallado y bellamente formateado.

entonces ¿cuál es mejor?

la respuesta no es única: lmsys intenta descubrir matemáticamente qué parte de la puntuación de un modelo contribuye mediante el contenido o el estilo.

además, estudios recientes han demostrado quelos humanos pueden tener preferencia por respuestas de ia que tengan un formato hermoso y sean más detalladas.

por enbradley-terry regresaagregue características de estilo como longitud de la respuesta, cantidad de subtítulos con rebajas, listas y cantidad de texto en negrita como argumentos.

esta es una técnica común en estadística y alpacaeval lc y otros la han utilizado recientemente para la evaluación de modelos grandes.

incluir cualquier variable de confusión (como la duración de la respuesta) en la regresión permite atribuir el aumento en las puntuaciones a las variables de confusión en lugar de al poder del modelo en sí.

el código relevante se ha hecho público en google colab.

además, el equipo también llevó a cabo experimentos de ablación para “controlar únicamente la longitud” y “controlar únicamente el formato”. las puntuaciones de las series gpt-4o mini y google gemini se ven más afectadas por el formato.

sin embargo, este enfoque tiene limitaciones, como la posibilidad de factores de confusión no observados, como una correlación positiva entre la duración y la calidad de la respuesta, que no se tienen en cuenta (p. ej., indicaciones de la cadena de pensamiento).

muchos internautas dijeron que la lista de tareas difíciles ajustada es más consistente con sus impresiones subjetivas.

algunas personas también piensan que es el juego de ida y vuelta entre la lista y las grandes empresas modelo que compiten por la lista lo que puede hacer que todo el campo progrese juntos.

¿sigues eligiendo modelos en función de los resultados del gran campo de modelos? o si tiene algún método de evaluación mejor, compártalo en el área de comentarios.