mi información de contacto
correo[email protected]
2024-10-03
한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina
el trabajo de un chino nacido en la década de 2000 se publicó en nature y este gran artículo modelo provocó acaloradas discusiones.
en pocas palabras, el artículo encontró que los modelos más grandes que siguen más estrictamente las instrucciones también se vuelven menos confiables y, en algunos casos,gpt-4 no es tan confiable como gpt-3 para responder preguntas。
en comparación con los modelos anteriores, los modelos más recientes, que tienen más potencia informática y retroalimentación humana, en realidad han empeorado en la confiabilidad de las respuestas.
tan pronto como salió la conclusión, inmediatamente atrajo a más de 200.000 internautas a verla:
también provocó discusiones en el foro de reddit.
esto recuerda a la gente que muchos modelos de nivel experto/doctorado todavía no saben la simple pregunta de "cuál es más grande, 9,9 o 9,11".
respecto a este fenómeno, el documento mencionó que esto también refleja,el rendimiento del modelo no coincide con las expectativas humanas de dificultad。
en otras palabras, "los llm tienen éxito y (lo que es más peligroso) fracasan en lugares donde los usuarios no lo esperan".
ilya sutskever predijo en 2022:
quizás con el tiempo esta diferencia disminuya.
sin embargo, este artículo concluye que este no es el caso. no sólo las series gpt, llama y bloom, sino tambiénabiertoainuevomodelo o1 y claude-3.5-sonetotambién existen preocupaciones con respecto a la confiabilidad.
más importante aún, el artículo también encontróconfíe en la supervisión humana para corregir erroresel enfoque tampoco funciona.
algunos internautas creen que, aunque los modelos más grandes pueden traer problemas de confiabilidad, también brindan una funcionalidad sin precedentes.
necesitamos centrarnos en desarrollar métodos de evaluación sólidos y aumentar la transparencia.
otros creen que este estudio destacaaidesafíos sutiles enfrentados(equilibrio de expansión y confiabilidad del modelo)。
para ilustrar la conclusión, el artículo examina tres aspectos clave que influyen en la confiabilidad de los llm desde una perspectiva humana:
1、dificultad inconsistente: ¿los llm fracasan donde los humanos esperan que fracasen?
2、evitación de tareas: ¿los llm evitan responder preguntas que están más allá de sus capacidades?
3、sensibilidad a las expresiones del lenguaje: ¿la eficacia de la formulación del problema se ve afectada por la dificultad del problema?
más importante aún, los autores también analizan las tendencias históricas y cómo estos tres aspectos evolucionan con la dificultad de la tarea.
amplíelos uno por uno a continuación.
para la primera pregunta, el artículo se centra principalmente enevolución de la corrección en relación con la dificultad。
a juzgar por la evolución de gpt y llama, a medida que aumenta la dificultad, la exactitud de todos los modelos disminuirá significativamente.(consistente con las expectativas humanas)
sin embargo, estos modelos todavía no pueden resolver muchas tareas muy sencillas.
esto significa que los usuarios humanos no pueden descubrir el espacio operativo seguro de los llm y utilizarlo para garantizar que el rendimiento de implementación del modelo sea impecable.
sorprendentemente, los nuevos llm mejoran principalmente el rendimiento en tareas difíciles, sin mejoras significativas en tareas más simples. por ejemplo,gpt-4 en comparación con su predecesor gpt-3.5-turbo。
lo anterior demuestra que existe una inconsistencia entre las expectativas de dificultad humana y el desempeño del modelo.y esta inconsistencia se exacerba con el nuevo modelo.
esto también significa:
actualmente no existen condiciones operativas seguras para que los humanos determinen que se puede confiar en los llm.
esto es particularmente preocupante en aplicaciones que requieren alta confiabilidad e identificación de espacios operativos seguros. esto hace que la gente reflexione sobre si la inteligencia artificial de vanguardia en la que los humanos están trabajando arduamente para crear es realmente lo que el público espera tener.
en segundo lugar, con respecto al punto 2, las conclusiones del artículo(la evitación generalmente se refiere al modelo que se desvía de la respuesta a la pregunta o que dice directamente "no sé"):
en comparación con llm anteriores,los últimos llm mejoran drásticamente muchas de las respuestas que son incorrectas o tonterías solemnes, en lugar de evitar cuidadosamente tareas que están más allá de sus capacidades.
esto también conduce a un fenómeno irónico: en algunos puntos de referencia, la tasa de error de los nuevos llm mejora incluso más rápido que la precisión (doge).
en términos generales, cuanto más difícil es una tarea a la que se enfrentan los seres humanos, es más probable que sean vagos.
pero el desempeño real de los llm es completamente diferente.su conducta de evitación no está significativamente relacionada con la dificultad.
esto puede llevar fácilmente a que los usuarios inicialmente dependan demasiado de los llm para completar tareas en las que no son buenos, pero que a la larga los dejen decepcionados.
como consecuencia, los humanos también necesitan verificar la precisión del resultado del modelo y detectar errores.(si desea utilizar llm para ser vago, obtendrá un gran descuento)
finalmente, el artículo encontró que incluso si algunos indicadores de confiabilidad han mejorado, el modelo aún es sensible a pequeños cambios en la formulación del mismo problema.
regala una castaña, preguntar "¿puede responder...?" en lugar de "por favor, responda la siguiente pregunta..." dará como resultado distintos grados de precisión.
análisis encontrado:es poco probable que confiar únicamente en la ampliación y configuración existentes resuelva completamente el problema de la sensibilidad de la indicación, ya que los últimos modelos no están significativamente optimizados en comparación con sus predecesores.
e incluso si elige el mejor formato de representación en términos de rendimiento promedio, puede ser principalmente efectivo para tareas de alta dificultad, pero al mismo tiempo ineficaz para tareas de baja dificultad.(mayor tasa de error)。
esto muestra quela humanidad todavía está sujeta al proyecto impulsor.。
lo que es aún más aterrador es que el periódico encontró quela supervisión humana no puede mitigar la falta de confiabilidad del modelo。
el artículo analiza, basándose en encuestas humanas, si las percepciones humanas de dificultad son consistentes con el desempeño real y si los humanos pueden evaluar con precisión el resultado del modelo.
los resultados muestran, en la región de operación que los usuarios consideran difícil, a menudo consideran correcta la salida incorrecta, incluso para tareas simples, no existe una región de operación segura con un error de modelo bajo y un error de supervisión bajo.
los problemas de falta de confiabilidad anteriores existen en múltiples series de llm, incluidos gpt, llama y bloom. los siguientes se enumeran en el estudio.32 modelos。
estos modelos presentan diferentesampliación(mayores cálculos, tamaño del modelo y datos) ydando forma(por ejemplo, instrucciones ft, rlhf).
además de lo anterior, los autores descubrieron más tarde que algunos de los modelos más recientes y potentes también sufren los problemas de falta de confiabilidad mencionados en este artículo:
incluyendo el modelo o1 de openai, claude-3.5-sonnet de antropicic y llama-3.1-405b de meta.。
también hay un documento que da ejemplos.(para más detalles, consulte el documento original):
además, para verificar si otros modelos tienen problemas de confiabilidad, el autor utilizó los puntos de referencia de prueba utilizados en el artículo.confiabilidadbancotambién es de código abierto.
se trata de un conjunto de datos que cubre cinco dominios: aritmética simple ("suma"), reorganización de vocabulario ("rompecabezas"), conocimiento geográfico ("ubicación"), problemas científicos básicos y avanzados ("ciencia") y centrado basado en información. transformación ("transformación").
el primer documentolexin zhouactualmente, acaba de graduarse de la universidad de cambridge con una maestría en informática (24 años) y su interés de investigación es la evaluación de modelos de lenguaje a gran escala.
anteriormente, obtuvo una licenciatura en ciencia de datos de la universidad politécnica de valencia, supervisada por el profesor josé hernández-orallo.
su página de inicio personal muestra que ha tenido muchas experiencias de prácticas laborales. participó en las pruebas del equipo rojo tanto en openai como en meta.(consultoría red teaming)
respecto a este trabajo, se centró en:
el diseño y desarrollo de la inteligencia artificial general debecambio fundamental, especialmente en dominios de alto riesgo, donde la distribución de errores predecible es crucial. antes de que esto se logre,existe un peligro al depender de la supervisión humana.
al evaluar un modelo,considere la dificultad percibida por los humanos y evalúe el comportamiento de evitación del modelo., puede proporcionar una descripción más completa de las capacidades y riesgos del modelo, en lugar de centrarse únicamente en el rendimiento de tareas difíciles.
el documento también menciona específicamente algunas posibles razones de estas faltas de confiabilidad, así como soluciones:
en la ampliación de escala, los puntos de referencia de los últimos años han tendido cada vez más a agregar ejemplos más difíciles o a dar más peso a las llamadas fuentes "autorizadas". por lo tanto, los investigadores se inclinan más a optimizar el rendimiento de los modelos en tareas difíciles, lo que da lugar a crónicas. deterioro en la consistencia de la dificultad.
en la configuración (como rlhf), la persona contratada tiende a penalizar las respuestas que eluden la tarea, lo que hace que sea más probable que el modelo "diga tonterías" cuando se enfrenta a problemas difíciles que no puede resolver.
cómo solucionar esta falta de fiabilidad, el artículo cree que las expectativas de dificultad humana se pueden utilizar para entrenar o ajustar mejor el modelo, o la dificultad de la tarea y la confianza del modelo se pueden utilizar para enseñar mejor al modelo a evitar problemas más allá de sus propias capacidades, etc.
¿qué opinas sobre esto?