noticias

¿aún tienes problemas con los hechizos de ia? la universidad de pekín-baichuan ha desarrollado un sistema de ingeniería de recordatorio automático pas

2024-09-10

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

la columna aixiv es una columna donde machine heart publica contenido académico y técnico. en los últimos años, la columna heart of the machine aixiv ha recibido más de 2.000 informes, que cubren los mejores laboratorios de las principales universidades y empresas de todo el mundo, promoviendo eficazmente los intercambios y la difusión académicos. si tiene un trabajo excelente que desea compartir, no dude en contribuir o contactarnos para informar. correo electrónico de envío: [email protected]; [email protected];

zheng miao, coautor del artículo, pertenece al equipo de alineación de baichuan dirigido por zhou zenan. se graduó en la universidad de pekín. sus intereses de investigación incluyen grandes modelos de lenguaje, aprendizaje multimodal y visión por computadora. proyectos como mmflow. el coprimer autor, liang hao, es estudiante de doctorado en el instituto de estudios interdisciplinarios de fronteras de la universidad de pekín. su dirección de investigación es el lado de los datos de los grandes modelos y su asesor es el profesor zhang wentao. el laboratorio conjunto del sistema inteligente de ia de la universidad de pekín y baichuan se estableció en enero de 2024. su objetivo es estudiar cuestiones importantes como la generación de datos científicos y sistemáticos y las estrategias de evaluación de la calidad, el entrenamiento de grandes modelos y la aceleración de la inferencia en torno a todo el proceso técnico de los sistemas de modelos de inteligencia artificial. . el laboratorio conjunto está dirigido por cui bin, profesor distinguido de boya en la universidad de pekín, y chen weipeng, cofundador de baichuan intelligence.

los grandes modelos de lenguaje basados ​​​​en la arquitectura transformer están logrando resultados revolucionarios en varios campos. la ingeniería rápida juega un papel crucial en esto.

con buenas palabras clave, los investigadores y desarrolladores pueden guiar a los modelos para que se desempeñen mejor en tareas específicas. este método no solo puede mejorar significativamente el rendimiento del modelo, sino también mejorar la adaptabilidad del modelo, haciéndolo más flexible y eficiente al enfrentar diversas tareas complejas.

además, el proyecto de palabra rápida también puede optimizar el proceso de aprendizaje del modelo, mejorar la eficiencia del procesamiento de problemas complejos y reducir el tiempo de capacitación y los requisitos de recursos informáticos.

en comparación con los métodos tradicionales de ajuste fino, la ingeniería de palabras rápidas puede adaptar el modelo a múltiples tareas posteriores a un costo muy bajo, lo que ahorra significativamente recursos informáticos y costos de recopilación de datos. sin embargo, diseñar palabras clave eficaces sigue siendo un desafío para los no expertos y, a menudo, requiere mucho aprendizaje y práctica.

por lo general, es difícil lograr resultados ideales utilizando directamente modelos de lenguaje grandes para proyectos de indicaciones automáticas. las indicaciones inapropiadas pueden distraer al modelo y, de hecho, reducir el rendimiento. por lo tanto, es particularmente importante desarrollar un sistema de ingeniería automática que pueda ayudar a los usuarios y sea fácil de operar.

pas: innovador sistema de ingeniería de alerta automática

para abordar este desafío, el laboratorio conjunto de la universidad de pekín y baichuan propuso el sistema de ingeniería automática pas. la innovación del pas es:

1. diseñe un conjunto de datos de solicitud automática de alta calidad

2. realice un aprendizaje de pocas muestras y una selección de datos en el modelo gpt.

3. cree automáticamente un conjunto de datos dinámicos y eficientes

4. implementar ingeniería rápida automática efectiva mediante ajustes

pas puede complementar de manera concisa y efectiva la entrada del usuario, realizando un proyecto rápido, simple y automático que admita la visualización en tiempo real.

en múltiples pruebas comparativas, pas supera con creces a los modelos sota existentes y requiere menos datos. los resultados de la evaluación manual también muestran que pas tiene un rendimiento excelente, destacando su enorme potencial en aplicaciones prácticas.

este resultado revolucionario no solo promueve el desarrollo de la ingeniería de palabras rápida, sino que también allana el camino para la aplicación de grandes modelos de lenguaje en una gama más amplia de campos.

  • dirección del artículo: https://arxiv.org/abs/2407.06027

  • laboratorio del sistema pku-baichuan-ml:

https://github.com/pku-baichuan-mlsystemlab

https://huggingface.co/pku-baichuan-mlsystemlab

método

la formación pas se divide principalmente en tres pasos:

paso 1: crear un conjunto de datos de problemas de alta calidad

la primera tarea en el entrenamiento de pas es construir un conjunto de datos de problemas de alta calidad. como se muestra en la figura (a), los investigadores seleccionaron preguntas de alta calidad basadas en los conjuntos de datos lmsys-1m y wildchat a través de los siguientes tres aspectos:

1. deduplicación de datos: utilice tecnología de integración combinada con algoritmos de agrupación para eliminar de forma eficaz los datos duplicados.

2. detección de calidad: utilice el modelo grande de baichuan para evaluar y seleccionar la calidad de los datos.

3. garantía de diversidad: finalmente se seleccionaron 9.000 datos de preguntas de alta calidad que cubren más de 10 categorías.

paso 2: complemente los datos de ingeniería rápidos

en esta etapa, los investigadores utilizaron de manera integral los 100 datos de alta calidad acumulados internamente y los datos del problema examinados en el primer paso, y utilizaron el método de aprendizaje de pocas tomas para construir datos de ingeniería rápidos automáticos con la ayuda del modelo gpt:

1. generación de datos iniciales: utilice el aprendizaje de pocas tomas para guiar a gpt a generar datos de ingeniería preliminares.

2. control de calidad: diseñe el paso de crítica y utilice nuevamente el aprendizaje de pocas tomas para permitir que gpt evalúe la calidad de los datos generados.

3. optimización iterativa: filtre automáticamente los datos de baja calidad y regenerelos para garantizar la calidad de los datos a través de múltiples rondas de iteración.

4. resultado final: finalmente se obtuvieron 9.000 datos de ingeniería automática de alta calidad.

distribución de datos

la distribución de los 9000 datos generados se muestra en la figura anterior, asegurando la diversidad y representatividad de los datos.

paso 3: ajuste el modelo de aviso automático

el último paso utilizará el conjunto de datos obtenido en las dos primeras etapas para ajustar el modelo de lenguaje grande:

1. seleccione un modelo básico: como qwen2-7b y otros modelos.

2. ajuste fino dirigido: utilice conjuntos de datos de alta calidad para el ajuste fino.

3. formación especializada: finalmente, se obtiene un modelo de lenguaje grande específicamente para proyectos de avisos automáticos.

experimentos y resultados

revisión manual

según la evaluación de evaluadores humanos, pas muestra una tasa de éxito más alta en varios campos en comparación con el modelo sota (state-of-the-art) anterior. la tasa de ganancia promedio en muchos campos supera el 50%, y la suma de la tasa de ganancia y la tasa de empate llega a más del 80%.

evaluación de la máquinabenchmark

para evaluar exhaustivamente el rendimiento de pas, los investigadores seleccionaron tres puntos de referencia: arena-hard, alpaca-eval 2.0 y alpaca-eval 2.0 (lc).

luego, los investigadores aplicaron pas a seis modelos principales de ia, que incluyen:

  • gpt-4 (tres versiones)

  • gpt-3.5

  • qwen2-72-instruir

  • llama3-70b-instruir

los resultados de la evaluación muestran:

  • pas logra mejoras significativas tanto en el caso sin aviso como en el modelo de ingeniería de aviso automático sota anterior.

  • en comparación con los modelos bpo anteriores, pas muestra una mayor adaptabilidad, es compatible con una variedad de modelos muy grandes y logra mejoras de rendimiento en cada modelo.

análisis de eficiencia computacional.

pas no solo funciona bien en términos de rendimiento, sino que también es muy eficiente desde el punto de vista computacional: en términos de eficiencia de datos, solo requiere 9000 datos ajustados para demostrar un rendimiento superior. en términos de eficiencia de producción, puede limitar la longitud de las indicaciones automáticas complementarias, que generalmente no superan las 30 palabras.

en términos de experiencia de usuario, pas también aporta ventajas a los modelos grandes, concretamente:

  • a diferencia de modelos anteriores como bpo, pas no necesita modificar la pregunta original del usuario, solo indicaciones automáticas complementarias.

  • proporcione una excelente experiencia de usuario con tiempo de respuesta controlable.

  • admite visualización de transmisión tipo gpt para mejorar aún más la experiencia interactiva.

ejemplo: pas ayuda a los modelos grandes a evitar trampas lógicas

"si hay 10 pájaros en el árbol y uno de ellos es asesinado a tiros, ¿cuántos pájaros hay en el suelo?"

esta pregunta aparentemente simple en realidad esconde una trampa lógica inteligente. cuando la veas, puede que te lleve unos segundos darte cuenta de que quedan 9 pájaros en el árbol y solo 1 en el suelo.

como se muestra en la figura, sin la ayuda de pas, gpt da respuestas incorrectas. el sistema pas mejora significativamente el rendimiento del modelo al complementar las palabras clave:

bajo la guía de pas, la nueva ronda de respuestas del modelo mostró mejoras significativas, no solo evitó con éxito las trampas lógicas en las preguntas, demostró un proceso de razonamiento lógico claro y de varios pasos, sino que también proporcionó la respuesta correcta a los usuarios. todo el proceso de razonamiento.

los lectores interesados ​​pueden leer el texto original del artículo para obtener más información sobre el contenido de la investigación.