noticias

¡La caja negra ha sido abierta! Herramienta de interpretación visual de transformadores, que ejecuta GPT-2 localmente

2024-08-12

한어Русский языкEnglishFrançaisIndonesianSanskrit日本語DeutschPortuguêsΕλληνικάespañolItalianoSuomalainenLatina

Estamos en 2024, ¿hay alguien que todavía no entiende cómo funciona Transformer? Ven y prueba esta herramienta interactiva.

En 2017, Google propuso Transformer en el artículo "La atención es todo lo que necesitas", que se convirtió en un gran avance en el campo del aprendizaje profundo. El número de citas de este artículo ha llegado a casi 130.000. Todos los modelos posteriores de la familia GPT también se basan en la arquitectura Transformer, lo que demuestra su amplia influencia.

Como arquitectura de red neuronal, Transformer es popular en una variedad de tareas, desde texto hasta visión, especialmente en el campo actualmente de moda de los chatbots de IA.

Sin embargo, para muchos no expertos, el funcionamiento interno de Transformer sigue siendo opaco, lo que dificulta su comprensión y participación. Por tanto, es especialmente necesario desmitificar esta arquitectura. Sin embargo, muchos blogs, tutoriales en vídeo y visualizaciones 3D a menudo enfatizan la complejidad de las matemáticas y la implementación del modelo, lo que puede confundir a los principiantes. Al mismo tiempo, el trabajo de visualización diseñado para profesionales de la IA se centra en la interpretabilidad neuronal y jerárquica y supone un desafío para los no expertos.

Así, varios investigadores de Georgia Tech e IBM Research desarrollaronUna herramienta de visualización interactiva de código abierto basada en la web "Transformer Expliquer" para ayudar a los no profesionales a comprender la estructura avanzada del modelo de Transformer y las operaciones matemáticas de bajo nivel.. Como se muestra en la Figura 1 a continuación.

Transformer Explicador explica el funcionamiento interno de Transformer a través de la generación de texto, utilizandoDiseño de visualización de diagramas de Sankey., inspirado en trabajos recientes que tratan a los Transformers como sistemas dinámicos, enfatizando cómo los datos de entrada fluyen a través de los componentes del modelo. A partir de los resultados, el diagrama de Sankey ilustra efectivamente cómo se transfiere la información en el modelo y muestra cómo se procesa y transforma la entrada a través de las operaciones del Transformador.

En términos de contenido, Transformer Expliquer integra estrechamente una descripción general del modelo que resume la estructura de Transformer y permite a los usuarios realizar una transición fluida entre múltiples niveles de abstracción para visualizar la interacción entre operaciones matemáticas de bajo nivel y estructuras de modelos de alto nivel para ayudarlos a comprender completamente conceptos complejos. en Transformador.

En términos de funcionalidad, Transformer Expliquer no solo proporciona una implementación basada en web, sino que también tiene capacidades de razonamiento en tiempo real. A diferencia de muchas herramientas existentes que requieren una instalación de software personalizada o carecen de capacidades de inferencia, integra un modelo GPT-2 en tiempo real que se ejecuta de forma nativa en el navegador utilizando un marco de interfaz de usuario moderno. Los usuarios pueden experimentar interactivamente con su texto ingresado y observar en tiempo real cómo los componentes y parámetros internos del Transformer trabajan juntos para predecir el siguiente token.

Transformer Expliquer amplía el acceso a tecnologías modernas de IA generativa sin requerir recursos informáticos avanzados, instalación o habilidades de programación. La razón por la que se eligió GPT-2 es que el modelo es bien conocido, tiene una velocidad de inferencia rápida y es similar en arquitectura a modelos más avanzados como GPT-3 y GPT-4.

Dirección del artículo: https://arxiv.org/pdf/2408.04619

Dirección de GitHub: http://poloclub.github.io/transformer-explainer/

Dirección de la experiencia en línea: https://t.co/jyBlJTMa7m



https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==∣=2650929831&idx=1&sn=d0e5c01537def9f92c64dda2ea3c6626&chksm=84e43ed9b393b7cf17741 4848deed70ac2a5b1522a12e3399920d4862e398c113b96af7b76e&token=522918026⟨=zh_CN#rd

Dado que admite la entrada automática, Machine Heart también intentó "qué hermoso día", y los resultados de la ejecución se muestran en la siguiente figura.

Muchos internautas han elogiado mucho a Transformer Explicador. Algunas personas dicen que esta es una herramienta interactiva genial.

Algunas personas dicen que han estado esperando una herramienta intuitiva para explicar la atención personal y la codificación posicional, que es Transformer Expliquer. Será un punto de inflexión.

Alguien más ha hecho una traducción al chino.

Dirección para mostrar: http://llm-viz-cn.iiiai.com/llm

Aquí no puedo evitar pensar en Karpathy, otra gran figura de la ciencia popular. Ha escrito muchos tutoriales sobre la reproducción de GPT-2 antes, incluido "GPT-2 en lenguaje C puro, el nuevo proyecto de los antiguos OpenAI y Tesla. ejecutivos es popular." ", "El último video tutorial de cuatro horas de Karpathy: reproduzca GPT-2 desde cero, ejecútelo durante la noche y listo", etc. Ahora que existe una herramienta de visualización para los principios internos de Transformer, parece que el efecto de aprendizaje será mejor cuando los dos se usen juntos.

Diseño e implementación del sistema Transformer Explicador.

Transformer Explicador muestra visualmente cómo se entrena el modelo GPT-2 basado en Transformer para procesar la entrada de texto y predecir el siguiente token. El front-end usa Svelte y D3 para implementar visualización interactiva, y el back-end usa el tiempo de ejecución ONNX y la biblioteca Transformers de HuggingFace para ejecutar el modelo GPT-2 en el navegador.

Un desafío importante al diseñar Transformer Expliquer fue gestionar la complejidad de la arquitectura subyacente, ya que mostrar todos los detalles a la vez distraería la atención del objetivo. Para resolver este problema, los investigadores prestaron gran atención a dos principios de diseño clave.

En primer lugar, los investigadores reducen la complejidad mediante múltiples niveles de abstracción. Estructuran sus herramientas para presentar información en diferentes niveles de abstracción. Esto evita la sobrecarga de información al permitir a los usuarios comenzar con una descripción general de alto nivel y avanzar hasta los detalles según sea necesario. En el nivel más alto, la herramienta muestra el flujo de procesamiento completo: desde recibir texto proporcionado por el usuario como entrada (Figura 1A), incrustarlo, procesarlo a través de múltiples bloques Transformer y usar los datos procesados ​​para predecir la próxima predicción de token más probable. está ordenado.

Las operaciones intermedias, como el cálculo de la matriz de atención (Figura 1C), que están colapsadas de forma predeterminada para mostrar visualmente la importancia de los resultados del cálculo, el usuario puede optar por expandir y ver su proceso de derivación a través de una secuencia animada. Los investigadores adoptaron un lenguaje visual consistente, como apilar cabezas de atención y colapsar bloques repetidos de Transformer, para ayudar a los usuarios a identificar patrones repetitivos en la arquitectura mientras mantienen un flujo de datos de un extremo a otro.

En segundo lugar, los investigadores mejoran la comprensión y el compromiso a través de la interactividad. El parámetro de temperatura es crucial para controlar la distribución de probabilidad de salida del transformador. Afectará la certeza (a bajas temperaturas) o la aleatoriedad (a altas temperaturas) de la próxima predicción del token. Pero los recursos educativos existentes sobre Transformers a menudo ignoran este aspecto. Los usuarios ahora pueden utilizar esta nueva herramienta para ajustar los parámetros de temperatura en tiempo real (Figura 1B) y visualizar su papel fundamental en el control de la certeza de la predicción (Figura 2).

Además, los usuarios pueden seleccionar entre los ejemplos proporcionados o ingresar su propio texto (Figura 1A). El soporte de texto de entrada personalizado puede permitir a los usuarios participar más profundamente. Al analizar el comportamiento del modelo en diferentes condiciones y probar interactivamente sus propias suposiciones basadas en diferentes entradas de texto, se mejora el sentido de participación del usuario.

Entonces, ¿cuáles son los escenarios de aplicación práctica?

El profesor Rousseau está modernizando el contenido del curso de procesamiento del lenguaje natural para resaltar los avances recientes en la IA generativa. Se dio cuenta de que algunos estudiantes veían los modelos basados ​​en Transformer como una "magia" difícil de alcanzar, mientras que otros querían entender cómo funcionaban los modelos pero no estaban seguros de por dónde empezar.

Para resolver este problema, guió a los estudiantes a usar Transformer Explicador, que proporciona una descripción general interactiva de Transformer (Figura 1) y los alienta a experimentar y aprender activamente. Su clase tiene más de 300 estudiantes, y la capacidad de Transformer Expliqueer para ejecutarse completamente dentro de los navegadores de los estudiantes, sin necesidad de instalar software o hardware especial, es una ventaja significativa y elimina las preocupaciones de los estudiantes sobre la administración del software o la configuración del hardware.

Esta herramienta presenta a los estudiantes operaciones matemáticas complejas, como cálculos atencionales, a través de abstracciones reversibles animadas e interactivas (Figura 1C). Este enfoque ayuda a los estudiantes a obtener una comprensión de alto nivel de las operaciones y una comprensión profunda de los detalles subyacentes que producen estos resultados.

El profesor Rousseau también reconoció que las capacidades y limitaciones técnicas del Transformer a veces estaban personificadas (por ejemplo, ver los parámetros de temperatura como controles de "creatividad"). Al alentar a los estudiantes a experimentar con el control deslizante de temperatura (Figura 1B), les mostró cómo la temperatura realmente modifica la distribución de probabilidad de la siguiente ficha (Figura 2), controlando así la aleatoriedad de las predicciones de una manera determinista y más creativa. Lograr un equilibrio entre salidas.

Además, cuando el sistema visualiza el proceso de procesamiento del token, los estudiantes pueden ver que aquí no existe lo que se llama "magia": no importa cuál sea el texto de entrada (Figura 1A), el modelo sigue una secuencia bien definida de operaciones, utilizando la arquitectura Transformer. Pruebe un token a la vez y repita el proceso.

trabajo futuro

Los investigadores están mejorando las explicaciones interactivas de la herramienta para mejorar la experiencia de aprendizaje. Al mismo tiempo, también están mejorando la velocidad de inferencia a través de WebGPU y reduciendo el tamaño del modelo mediante tecnología de compresión. También planean realizar investigaciones de usuarios para evaluar la efectividad y usabilidad de Transformer Expliquer, observar cómo los principiantes, estudiantes, educadores y profesionales de la IA usan la herramienta y recopilar comentarios sobre funciones adicionales que les gustaría que fueran compatibles.

¿Qué estás esperando? Comience y experimente, rompa la ilusión "mágica" sobre Transformer y comprenda verdaderamente los principios detrás de él.