¡El iPhone puede ejecutar un pequeño cañón de acero 2B! Se acerca Google Gemma 2, el microscopio más potente puede diseccionar el cerebro de LLM

¡El iPhone puede ejecutar un pequeño cañón de acero 2B!Se acerca Google Gemma 2, el microscopio más potente puede diseccionar el cerebro de LLM

2024-08-01

Nuevo informe de sabiduría

Editor: Departamento Editorial

[Introducción a la Nueva Sabiduría] ¡El modelo pequeño de bomba nuclear de Google DeepMind está aquí Gemma 2 2B derrotó directamente a GPT-3.5 y Mixtral 8x7B, que tenían parámetros más grandes en varios órdenes de magnitud! El Gemma Scope lanzado al mismo tiempo atraviesa la caja negra del LLM como un microscopio, permitiéndonos ver claramente cómo Gemma 2 toma decisiones.

¡El modelo pequeño de Google DeepMind vuelve a ser nuevo!

Hace un momento, Google DeepMind lanzó Gemma 2 2B.

Se destila de Gemma 2 27B.

Aunque sus parámetros son solo 2.6B, su puntuación en el ámbito LMSYS ha superado a GPT-3.5 y Mixtral 8x7B.

En los puntos de referencia MMLU y MBPP, logró excelentes resultados de 56,1 y 36,6 respectivamente, su rendimiento superó al modelo anterior Gemma 1 2B en más de un 10%;

El modelo pequeño derrotó al modelo grande que era varios órdenes de magnitud más grande, confirmando una vez más la dirección de los modelos pequeños sobre los que la industria se muestra muy optimista recientemente.

Hoy, Google anunció un total de tres nuevos miembros de la familia Gemma 2:

Gemma 2 2B:El modelo ligero 2B logra el mayor equilibrio entre rendimiento y eficiencia
EscudoGemma：Un modelo clasificador de contenido seguro basado en Gemma 2 para filtrar la entrada y salida del modelo de IA para garantizar la seguridad del usuario.
Alcance de Gemma:Una herramienta de interpretabilidad que proporciona una visión incomparable del funcionamiento interno de su modelo.

En junio nacieron los modelos 27B y 9B Gemma 2.

Desde su lanzamiento, el modelo 27B se ha convertido rápidamente en uno de los mejores modelos de código abierto en las clasificaciones de modelos grandes, superando incluso a los modelos populares con el doble de parámetros en conversaciones reales.

Gemma 2 2B: disponible al instante en tu dispositivo

El modelo pequeño y liviano Gemma 2 2B se deriva del modelo grande y su rendimiento no es inferior.

En el ámbito de modelos grandes LMSYS, el nuevo modelo logró una impresionante puntuación de 1130, que está a la par con modelos con 10 veces más parámetros.

GPT-3.5-Turbo-0613 obtuvo 1117 y Mixtral-8x7b obtuvo 1114.

Esto demuestra que Gemma 2 2B es el mejor modelo de extremo a lado.

Algunos internautas dejaron que el Gemma 2 2B cuantificado se ejecutara en MLX Swift en el iPhone 15 Pro, y la velocidad fue sorprendentemente rápida.

Específicamente, se puede implementar en varios dispositivos terminales, incluidos teléfonos móviles, computadoras portátiles e incluso la poderosa nube utilizando Vertex AI y Google Kubernetes Engine (GKE).

Para acelerar el modelo, se optimiza mediante NVIDIA TensorRT-LLM, que también está disponible en la plataforma NVIDIA NIM.

El modelo optimizado funciona en una variedad de implementaciones de plataformas, incluidos centros de datos, nubes, estaciones de trabajo locales, PC y dispositivos perimetrales.

También puede admitir módulos RTX, RTX GPU y Jetson para completar la implementación marginal de IA.

Además, Gemma 2 2B integra perfectamente Keras, JAX, Hugging Face, NVIDIA NeMo, Ollama, Gemma.cpp, etc., y pronto se integrará con MediaPipe para simplificar el desarrollo.

Por supuesto, al igual que Gemma 2, el modelo 2B también se puede utilizar para investigación y uso comercial.

Incluso, debido a que su volumen de parámetros es lo suficientemente bajo, puede ejecutarse en la capa de GPU T4 gratuita de Google Colab, lo que reduce el umbral de desarrollo.

Actualmente, todos los desarrolladores pueden descargar los pesos del modelo de Gemma 2 de Kaggle, Hugging Face y Vertex AI Model Garden, y también pueden probar sus funciones en Google AI Studio.

Dirección del almacén: https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

ShieldGemma: el clasificador de seguridad de última generación

Como sugiere su nombre, ShieldGemma es el clasificador de seguridad más avanzado, que garantiza que el contenido de salida de IA sea atractivo, seguro e inclusivo, y detecta y reduce la salida de contenido dañino.

ShieldGemma está diseñado para apuntar específicamente a cuatro áreas dañinas clave:

- El discurso del odio

- Contenido de acoso

- Contenido explícito

- Contenido peligroso

Estos clasificadores de código abierto complementan el conjunto de clasificadores de seguridad existente de Google en el conjunto de herramientas de IA responsable.

El kit de herramientas incluye un método para crear clasificadores específicos de políticas basados en puntos de datos limitados, así como clasificadores disponibles en Google Cloud proporcionados a través de API.

ShieldGemma se basa en Gemma 2, el clasificador de seguridad líder en la industria.

Proporciona varios tamaños de parámetros de modelo, incluidos 2B, 9B y 27B, todos los cuales están optimizados para la velocidad de NVIDIA y pueden ejecutarse de manera eficiente en varios hardware.

Entre ellos, 2B es muy adecuado para tareas de clasificación en línea, mientras que las versiones 9B y 27B brindan un mayor rendimiento para aplicaciones fuera de línea con menores requisitos de latencia.

Gemma Scope: Revelando el proceso de toma de decisiones de IA a través de codificadores automáticos dispersos de código abierto

Otro punto destacado lanzado al mismo tiempo es el codificador automático disperso de código abierto: Gemma Scope.

¿Qué está sucediendo dentro del modelo de lenguaje? Este problema ha desconcertado a investigadores y desarrolladores durante mucho tiempo.

El funcionamiento interno de los modelos lingüísticos suele ser un misterio, incluso para los investigadores que los entrenan.

Gemma Scope es como un potente microscopio que magnifica puntos específicos del modelo a través de codificadores automáticos dispersos (SAE), lo que facilita la interpretación del funcionamiento interno del modelo.

Con Gemma Scope, los investigadores y desarrolladores obtienen una transparencia sin precedentes en el proceso de toma de decisiones del modelo Gemma 2.

Gemma Scope es una colección de cientos de codificadores automáticos dispersos (SAE) gratuitos y abiertos para Gemma 2 9B y Gemma 2 2B.

Estos SAE son redes neuronales especialmente diseñadas que nos ayudan a interpretar la información densa y compleja procesada por Gemma 2 y expandirla a una forma que sea más fácil de analizar y comprender.

Al estudiar estas vistas ampliadas, los investigadores pueden obtener información valiosa sobre cómo Gemma 2 reconoce patrones, procesa información y hace predicciones.

Con Gemma Scope, la comunidad de IA puede crear más fácilmente sistemas de IA que sean más comprensibles, responsables y confiables.

Al mismo tiempo, Google DeepMind también publicó un informe técnico de 20 páginas.

Informe técnico: https://storage.googleapis.com/gemma-scope/gemma-scope-report.pdf

En resumen, Gemma Scope tiene las siguientes tres innovaciones:

SAE de código abierto: más de 400 SAE disponibles gratuitamente que cubren todos los niveles de Gemma 2 2B y 9B
Demostración interactiva: explore las capacidades de SAE y analice el comportamiento del modelo en Neuronpedia sin escribir código
Biblioteca de recursos fácil de usar: proporciona código y ejemplos para interactuar con SAE y Gemma 2

Interpretar el funcionamiento interno de los modelos lingüísticos.

¿Por qué es tan difícil el problema de la interpretabilidad de los modelos lingüísticos?

Esto comienza con el principio operativo de LLM.

Cuando le hace una pregunta a LLM, convierte su entrada de texto en una serie de "activaciones". Estas activaciones mapean las relaciones entre las palabras que ingresas, lo que ayuda al modelo a establecer conexiones entre diferentes palabras y generar respuestas en consecuencia.

A medida que el modelo procesa la entrada de texto, las activaciones de diferentes capas en la red neuronal del modelo representan múltiples conceptos de nivel progresivamente superior, que se denominan "características".

Por ejemplo, las primeras capas del modelo podrían aprender hechos como, por ejemplo, Jordan juega baloncesto, mientras que las capas posteriores podrían identificar conceptos más complejos, como la autenticidad de un texto.

Ejemplo de interpretación de activaciones de modelos utilizando codificadores automáticos dispersos: cómo el modelo recuerda el hecho de que "la ciudad de la luz es París".Se puede observar que existen conceptos relacionados con el francés, pero no conceptos no relacionados.

Sin embargo, los investigadores de interpretabilidad se han enfrentado a un problema clave: la activación del modelo es una mezcla de muchas características diferentes.

En las primeras etapas de la investigación, los investigadores esperaban que las características de las activaciones de redes neuronales pudieran alinearse con neuronas individuales o nodos de información.

Pero desafortunadamente, en la práctica, las neuronas están activas para muchas características irrelevantes.

Esto significa que no existe una forma obvia de saber qué funciones forman parte de la activación.

Y aquí es exactamente donde entran en juego los escasos codificadores automáticos.

Tenga en cuenta que una activación particular solo será una combinación de unas pocas funciones, aunque un modelo de lenguaje puede detectar millones o incluso miles de millones de funciones (es decir, el modelo utiliza funciones escasamente).

Por ejemplo, un modelo de lenguaje podría pensar en la relatividad al responder una pregunta sobre Einstein, pero podría no pensar en la relatividad al escribir sobre una tortilla.

Los codificadores automáticos dispersos aprovechan este hecho para descubrir un conjunto de características latentes y descomponer cada activación en un puñado de características.

Los investigadores esperan que la mejor manera para que los codificadores automáticos dispersos realicen esta tarea sea encontrar las características esenciales que realmente utilizan los modelos de lenguaje.

Es importante destacar que durante este proceso, los investigadores no le dijeron al codificador automático disperso qué características buscar.

Como resultado, pudieron descubrir estructuras ricas que no se habían previsto anteriormente.

Sin embargo, debido a que no conocen de inmediato el significado exacto de estas características descubiertas, buscan patrones significativos en los ejemplos de texto que el codificador automático disperso considera que las características "desencadenan".

A continuación se muestra un ejemplo en el que los tokens activados por una función se resaltan con un degradado azul según la fuerza del activador de la función:

Ejemplo de descubrimiento de activaciones de funciones con codificadores automáticos dispersos. Cada burbuja representa un Token (palabra o fragmento de palabra) y el color azul variable ilustra la fortaleza de esta característica.En este caso, la característica está claramente relacionada con el modismo.

¿Qué tiene de especial Gemma Scope?

En comparación con los escasos codificadores automáticos anteriores, Gemma Scope tiene muchas características únicas.

El primero se centra principalmente en estudiar el funcionamiento interno de modelos pequeños o capas individuales de modelos grandes.

Pero si desea profundizar en la investigación de la interpretabilidad, implica decodificar los complejos algoritmos en capas en modelos grandes.

Esta vez, los investigadores de Google DeepMind entrenaron codificadores automáticos dispersos en la salida de cada capa y subcapa de Gemma 2 2B y 9B.

El Gemma Scope construido de esta manera generó un total de más de 400 codificadores automáticos dispersos y obtuvo más de 30 millones de funciones (aunque muchas funciones pueden superponerse).

Esto permite a los investigadores estudiar cómo evolucionan las características a lo largo del modelo y cómo interactúan y se combinan para formar características más complejas.

Además, Gemma Scope está capacitada utilizando la arquitectura JumpReLU SAE más reciente y avanzada.

La escasa arquitectura original del codificador automático a menudo tiene un equilibrio difícil entre los dos objetivos de detectar la presencia de características y estimar la intensidad. La arquitectura JumpReLU puede lograr más fácilmente un equilibrio entre los dos y reducir significativamente los errores.

Por supuesto, entrenar tantos codificadores automáticos dispersos también es un gran desafío de ingeniería y requiere muchos recursos informáticos.

En este proceso, los investigadores utilizaron alrededor del 15% de los cálculos de entrenamiento de Gemma 2 9B (excluyendo los cálculos necesarios para generar etiquetas destiladas) y guardaron alrededor de 20 PiB de activaciones en el disco (aproximadamente el equivalente a un millón de copias del contenido de la Wiki Encyclopedia en inglés). , generando un total de cientos de miles de millones de parámetros de codificador automático dispersos.

Referencias:

https://developers.googleblog.com/en/smaller-safer-more-transparent-advancing-responsible-ai-with-gemma/

noticias

¡El iPhone puede ejecutar un pequeño cañón de acero 2B!Se acerca Google Gemma 2, el microscopio más potente puede diseccionar el cerebro de LLM

Introducción

Mi informacion de contacto