noticias

otro chip para desafiar a la gpu

2024-10-04

한어한어Русский языкРусский языкEnglishEnglishFrançaisFrançaisIndonesianSanskritIndonesian日本語SanskritDeutsch日本語PortuguêsDeutschΕλληνικάPortuguêsespañolΕλληνικάItalianoespañolSuomalainenItalianoLatinaSuomalainenLatina

resumen

para un llm de 3 mil millones de parámetros, un prototipo de dispositivo de inferencia de investigación con 16 procesadores ibm aiu northpole entregó un rendimiento masivo del sistema de 28,356 tokens/segundo y una latencia de menos de 1 ms/token (por usuario) en comparación con 16. cada tarjeta northpole consume solo 672 w en un factor de forma compacto de 2u. centrándose en la baja latencia y la alta eficiencia energética, northpole (12 nm) se compara con un conjunto de gpu (7/5/4 nm) con distintos consumos de energía.con la latencia de gpu más baja, northpole proporciona métricas de eficiencia energética 72,7 mejores (token/s/w) al tiempo que proporciona una mejor latencia.

introducir

los modelos de lenguajes grandes (llm) han logrado importantes puntos de referencia de rendimiento en diferentes tareas de ia, como ayudar a la programación proporcionando sugerencias de código, tener un buen desempeño en pruebas estandarizadas y ayudar en la creación de contenido de artículos, blogs, imágenes y videos.

en el despliegue a gran escala de llm, especialmente en el despliegue a gran escala de inteligencia artificial, surgen dos desafíos principales y contradictorios, a saber: el consumo de energía y la latencia de respuesta.

en primer lugar, dado que el llm requiere recursos energéticos sustanciales tanto para la formación como para la inferencia, se necesita una infraestructura informática futura sostenible para lograr su implementación eficiente y generalizada. a medida que las huellas de carbono de los centros de datos se expanden y se vuelven cada vez más limitadas en términos de energía, la eficiencia energética de los centros de datos se vuelve cada vez más importante. según un informe del foro económico mundial:

"actualmente, la huella de carbono ambiental de los centros de datos se divide principalmente en dos partes: la capacitación representa el 20% y la inferencia representa el 80%. a medida que los modelos de inteligencia artificial se desarrollen en diferentes campos, la demanda de inferencia y su huella ambiental aumentarán. "

en segundo lugar, muchas aplicaciones, como las conversaciones interactivas y los flujos de trabajo autónomos, requieren una latencia muy baja. dentro de una arquitectura informática determinada, se puede reducir la latencia reduciendo el rendimiento, pero esto da como resultado una menor eficiencia energética. parafraseando una máxima clásica del sistema:

"el problema del rendimiento se puede resolver con dinero, pero el problema del retraso es más complicado porque la velocidad de la luz es fija". (parafraseado de [10], reemplazando "ancho de banda" por "rendimiento").

las gpu pueden lograr una latencia más baja mediante el uso de lotes más pequeños, pero a expensas del rendimiento y la eficiencia energética. además, la fragmentación de gpu reduce la latencia mediante el uso de paralelismo de datos entre varias gpu, pero nuevamente a expensas de la eficiencia energética. con fragmentación o no, las gpu parecen alcanzar un límite estricto con una latencia más baja. la compensación de la gpu entre eficiencia energética y latencia se muestra en la figura 1.

figura 1: rendimiento del polo norte (12 nm) en relación con las gpu de última generación actuales (7/5/4 nm) en métricas de energía y latencia del sistema, donde la latencia del sistema es la latencia total experimentada por cada usuario. con la latencia de gpu más baja (h100, punto p2), northpole proporciona métricas de eficiencia energética 72,7 veces mejores (tokens/segundo/w). en el mejor índice de eficiencia energética de gpu (l4, punto p1), northpole proporciona una latencia 46,9 veces menor.

por lo tanto, una pregunta de investigación clave explorada en este artículo es cómo lograr simultáneamente los dos objetivos conflictivos de baja latencia y alta eficiencia energética.

northpole es un ecosistema de software y chips aceleradores de inferencia codiseñados a partir de los primeros principios para ofrecer una eficiencia superior para la inferencia de redes neuronales. aunque northpole no fue diseñado específicamente para llm, sorprendentemente, este artículo demuestra que la nueva arquitectura northpole puede lograr una inferencia de llm de baja latencia y eficiencia energética (figura 1, figura 2 y tabla 1).

tabla i: medidas de desempeño

rendimiento medido de los sistemas northpole y gpu por tarjeta. para cada métrica, # significa que más bajo es mejor, mientras que " significa que más alto es mejor. para los dispositivos de 16 tarjetas northpole, el consumo de energía se mide por tarjeta y el rendimiento total del sistema se divide entre 16 tarjetas. latencia northpole en las 16 tarjetas para medición. p1 , p2, p3 y p4 se refieren a los puntos marcados en la figura 1 y la figura 2, respectivamente, que indican el índice de eficiencia energética de gpu más alto, la latencia general de gpu más baja, el índice de espacio de gpu más alto y la latencia de gpu de eficiencia energética más baja.

los principales resultados de la investigación de este artículo son los siguientes:

para un modelo de lenguaje grande (llm) con un tamaño de parámetro de 3 mil millones, cuya estructura de modelo se deriva del modelo ibm granite-8b-code-base y es consistente con llama 3 8b y mistral 7b [14], este artículo demuestra un configuración de un prototipo de dispositivo de inferencia de investigación con 16 procesadores northpole.

en términos de rendimiento absoluto, el dispositivo ofrece 28.356 tokens/s de rendimiento del sistema y una latencia para un solo usuario de menos de 1 milisegundo, mientras consume 672 vatios de energía en 16 tarjetas northpole en un modelo 2u.

en términos de rendimiento relativo, comparando el northpole de 12 nm con una variedad de gpu (7/5/5/4 nm a100/l4/l40s/h100 respectivamente) con diferentes consumos de energía, se puede ver en la figura 2(a) y como se puede ver. como se puede ver en la figura 2(c): con la latencia de gpu más baja (punto p2), northpole proporciona métricas de eficiencia energética 72,7 veces mejores (tokens/segundo/w) y métricas de espacio 15,9 veces mejores (tokens/segundo/transistor), mientras que el la latencia sigue siendo inferior a 2,5 veces; en el mejor indicador de eficiencia energética de la gpu (punto p1), northpole proporciona una latencia 46,9 veces menor y 2,1 veces mejores indicadores de espacio, al mismo tiempo que proporciona métricas de eficiencia energética 2,2 veces mejores en la mejor métrica de espacio de la gpu ( punto p3), northpole proporciona una latencia 20,3 veces menor y métricas de eficiencia energética 5,3 veces mejores, al mismo tiempo que proporciona métricas de espacio 1,4 veces mejores.

en particular, al comparar el polo norte de 12 nm con la gpu l4 de 5 nm para un consumo de energía comparable, se puede ver en la figura 2(e) que con el rendimiento l4 más alto (menos de 50 ms por token, punto p1) hora,northpole proporciona una latencia 46,9 veces menor y mejora el rendimiento 1,3 veces; y en la latencia l4 más baja (punto p4), northpole proporciona un rendimiento 36,0 veces mayor (tokens/segundo/tarjeta) y mejora la latencia aún por debajo de 5,1 veces.

figura 2: los paneles (a) a (d) muestran el rendimiento de 12 nm northpole en relación con las gpu de última generación actuales (7/5/4 nm) en métricas de eficiencia energética, espacio y latencia del sistema, donde la latencia del sistema es por la latencia total experimentada por el usuario.

el panel (a) es el mismo que la figura 1, con el etiquetado agregado del punto p3. los paneles (a) y (c) utilizan una única gpu, mientras que los paneles (b) y (d) utilizan tecnología de fragmentación, que puede reducir la latencia, pero sólo a expensas de la eficiencia energética y espacial. con la latencia de gpu más baja (h100, punto p2), northpole proporciona métricas de eficiencia energética 72,7 veces mejores (tokens/segundo/w) y métricas de espacio 15,9 veces mejores (tokens/segundo/transistor) sin dejar de tener una latencia baja, más de 2,5 veces; en el mejor índice de eficiencia energética de gpu (l4, punto p1), northpole proporciona una latencia 46,9 veces menor y un índice de espacio 2,1 veces mejor, al mismo tiempo que proporciona un índice de eficiencia energética 2,2 veces mejor en el mejor de los casos. cuando se trata de métricas espaciales de gpu (a100, punto p3), northpole proporciona una latencia 20,3 veces menor y métricas de eficiencia energética 5,3 veces mejores, al mismo tiempo que proporciona métricas espaciales 1,4 veces mejores.

el panel (e) muestra el rendimiento del polo norte de 12 nm en relación con la gpu l4 de 5 nm en términos de rendimiento (tokens/segundo/tarjeta) y métricas de latencia del sistema. en la latencia l4 más baja (punto p4), northpole proporciona un rendimiento 36,0 veces mayor; en el rendimiento l4 más alto (menos de 50 milisegundos por token, punto p1), northpole proporciona una latencia 46,9 veces menor. el consumo de energía de la gpu utilizado para calcular cada métrica de eficiencia energética se muestra en la tabla i. dado que no hay instrumentos disponibles para medir el consumo de energía real para diferentes tamaños de lote, se utiliza la misma energía para todos los tamaños de lote, lo que puede subestimar la métrica de eficiencia energética, pero los resultados cualitativos aún se mantienen.

arquitectura del polo norte

como se muestra en la figura 3, el procesador northpole se fabrica utilizando tecnología de proceso de 12 nanómetros, tiene 22 mil millones de transistores y un área de 795 milímetros cuadrados. su arquitectura está inspirada en el cerebro, optimizada para silicio y derivada de diez axiomas de diseño complementarios que cubren computación, almacenamiento, comunicación y control, lo que permite a northpole superar significativamente a otras arquitecturas en tareas estándar de inferencia de ia.funciona bien incluso en comparación con procesadores fabricados con tecnologías de proceso más avanzadas.

para axiomas detallados de la arquitectura del polo norte, consulte [11], [12]. en pocas palabras, northpole organiza 256 núcleos modulares en una matriz bidimensional de 16×16. cada núcleo contiene un multiplicador de matriz vectorial (vmm) que realiza 2048, 4096 y 8192 operaciones por ciclo con precisión int8, int4 e int2, respectivamente. el cálculo central también incluye una unidad vectorial fp16 de 4 vías y 32 cortes y una unidad de función de activación de 32 cortes. la matriz central tiene un total de 192 mb de sram, y cada núcleo está equipado con 0,75 mb de sram. la memoria en el chip está estrechamente acoplada a la unidad informática y a la lógica de control, con un ancho de banda total de 13 tb/s entre la memoria central y la informática. además, cada núcleo tiene 4096 cables que se cruzan horizontal y verticalmente para pasar parámetros, instrucciones, valores de activación y sumas parciales a través de cuatro redes dedicadas en un chip (noc).para evitar bloqueos, un búfer de trama en el chip está equipado con 32 mb de sram, lo que desacopla la comunicación fuera del chip de datos de entrada y salida del cálculo en el chip de la matriz central.

figura 3: procesador northpole: silicio (izquierda), matriz (centro), módulo empaquetado (derecha).

equipo

northpole ha creado un prototipo del diseño en una tarjeta pcie gen3 × 8, que se muestra en la figura 4, con 16 tarjetas instaladas en un servidor 2u disponible en el mercado para formar un prototipo de dispositivo de inferencia de investigación, que se muestra en la figura 5. el servidor contiene dos procesadores intel xeon gold 6438m, cada uno con 32 núcleos y 60 mb de caché, con una frecuencia de 2,2 ghz. el sistema también viene con 512 gb de memoria ddr5 de 4800 mhz. se conectan dos buses pcie gen5 × 16 a cada procesador del servidor, lo que proporciona un total de 256 gb/s de ancho de banda pcie (bidireccional). estos cuatro buses se extienden a las 16 ranuras pcie del sistema a través de puentes pcie, con una tarjeta northpole instalada en cada ranura. estas 16 tarjetas northpole utilizan hasta la mitad del ancho de banda pcie de 256 gb/s disponible.

figura 4: tarjeta pcie northpole.

figura 5: vista ampliada del dispositivo prototipo de investigación que muestra la instalación de 16 tarjetas pcie northpole. las tarjetas northpole pueden comunicarse con el host a través del modelo de punto final pcie estándar, o directa y más eficientemente entre sí a través de capacidades de hardware adicionales en cada tarjeta.

el sistema ejecuta red hat enterprise 8.9 y northpole utiliza un controlador de kernel vfio integrado para que el software del espacio de usuario pueda administrar el hardware. el sistema utiliza iommu para la gestión de traducción de direcciones y habilita funciones de seguridad como el aislamiento de dispositivos y la virtualización para ejecutar aplicaciones utilizando máquinas virtuales o tecnología de contenedores.

cada tarjeta northpole recibe y transmite datos a través de un motor dma que reside en cada tarjeta. estos motores dma funcionan de forma independiente y pueden recibir y transmitir tensores simultáneamente de múltiples formas. el primer método es el modelo de punto final pcie estándar, donde el programa host lee la entrada de la memoria del host a través del motor dma y escribe los tensores en la memoria del host una vez completado el cálculo. el segundo enfoque aprovecha capacidades de hardware adicionales en cada tarjeta para permitir que las tarjetas northpole se comuniquen directamente entre sí a través de pcie sin necesidad de transferencias entre la memoria del host o administración de software adicional en tiempo de ejecución. la comunicación directa entre el polo norte permite que los modelos más grandes abarquen múltiples chips del polo norte y al mismo tiempo reducen la latencia de comunicación y los gastos generales causados ​​por un sistema de gestión puramente de software.

asignación de llm a dispositivos northpole

la estrategia para mapear los llm, ilustrada en la figura 6, se inspira en tres observaciones clave. en primer lugar, para modelos suficientemente grandes, toda la capa del transformador puede caber por completo en la memoria de un único chip northpole ("w4a4") utilizando pesos, activaciones y buffers kv en formato int4, mientras que la capa de salida puede caber en dos en el chip. en segundo lugar, si los cachés de peso y kv residen completamente en el chip, el tiempo de ejecución solo necesita transferir pequeños tensores integrados entre capas, lo cual está dentro del ancho de banda de pcie gen3 × 8. en tercer lugar, los prototipos de dispositivos northpole se pueden ensamblar fácilmente instalando 16 tarjetas pcie northpole en un servidor disponible en el mercado.

esto sugiere una estrategia de mapear cada capa de transformador a su respectiva tarjeta northpole, empleando paralelismo de canalización estilo gpipe y dividiendo la capa de salida entre las dos tarjetas northpole, usando paralelismo tensorial, a través de pcie gen3 × 8 envía el tensor de incrustación entre capas.durante la inferencia, un pequeño lote de solicitudes de usuarios (por ejemplo, n solicitudes) se divide en m microlotes iguales y se canalizan a través de 16 tarjetas northpole.

si bien el paralelismo de canalización se ha aprovechado en la capacitación de llm (sin restricciones de latencia), su uso en la inferencia se ha visto limitado por el tamaño del lote requerido para reducir el tiempo de inactividad de cada etapa de canalización o burbujas de canalización. por ejemplo, algunos estudios han encontrado que la capacitación eficiente requiere que la cantidad de microlotes m sea aproximadamente cuatro veces la cantidad de etapas del proceso. el tamaño n del minilote está limitado por (a) la latencia por token requerida por el sistema y (b) la memoria disponible para que la caché kv almacene el minilote completo. la computación de baja latencia y 13 tb/s de ancho de banda de memoria en el chip permiten a northpole lograr una latencia por token extremadamente baja, por lo que el factor limitante al elegir n es la memoria utilizada para almacenar toda la caché kv en el chip. además, encontramos que el número de microlotes m igual al número de etapas de la tubería es suficiente para hacer que el tiempo de inactividad de la tubería sea insignificante.

en los experimentos informados en este artículo, elegimos un tamaño de minilote de n = 28, dividido en m = 14 microlotes iguales, lo que resultó en un tamaño de microlote de 2 para cada cálculo de tarjeta del polo norte. nuestras opciones de diseño arquitectónico para un cálculo eficiente en lotes tan pequeños son clave para lograr las eficiencias que se muestran en la figura 1 y la tabla i.

modelo llm y método de formación.

a

modelo de maestría en derecho

el modelo utilizado para probar nuestro sistema se basa en el modelo ibm granite-8b-code-base de código abierto, que es un transformador-decodificador de 8 mil millones de parámetros que contiene 36 capas de transformador con un tamaño de capa oculta de 4096 y un tamaño de capa intermedia ffn es 14,336, la cantidad de cabezas de atención es 32, la cantidad de cabezas de valor clave que utilizan atención de consultas agrupadas (gqa) es 8 y el tamaño del vocabulario es 49,152. para encajar en un solo servidor con 16 tarjetas northpole, utilizamos una versión del modelo de 3 mil millones de parámetros con 14 capas de transformador y una capa de salida, cuantificada con precisión w4a4, pero por lo demás la estructura permaneció sin cambios.

en particular, esta configuración del modelo coincide con llama 3 8b [13] y mistral 7b [14] por capa, diferenciándose solo en el número de capas, el tamaño del vocabulario del modelo y los datos de entrenamiento utilizados.

b

entrenamiento con total precisión

para restaurar la precisión de la tarea del modelo original después de la cuantificación, se adoptó el siguiente procedimiento para crear ponderaciones del modelo. en primer lugar, se entrena un modelo de referencia desde cero basado en 1 billón de tokens de código en 116 idiomas, utilizando la precisión total del fp16, siguiendo la receta de [4]. a continuación, los pesos de la capa de salida y las entradas del modelo de referencia y las activaciones de silu se cuantificaron en int8, mientras que todos los demás pesos, entradas de capas lineales y entradas de multiplicación de matrices se cuantificaron en int4. finalmente, la precisión de la cuantificación posterior a la recuperación se cuantificó realizando un entrenamiento consciente de la cuantificación en otros 8,5 mil millones de tokens del subconjunto de datos de entrenamiento del lenguaje python, con una tasa de aprendizaje de 8 × 10⁻⁵ y un tamaño de lote de 128, utilizando el algoritmo lsq. el tamaño del paso que activa el cuantificador se entrena mediante un inicio en caliente, que aumenta la tasa de aprendizaje en un factor de 200 en los primeros 250 pasos del entrenamiento para ayudar a adaptarse rápidamente a los datos.

el modelo fp16 de referencia que se ejecuta en gpu y el modelo cuantificado que se ejecuta en northpole lograron una precisión de 10 en humanevalsynthesize-python dentro de 0,01 (0,3001 gpu frente a 0,2922 northpole. comparable con el modelo granite-8b-code-base, el entrenamiento general se reduce a centrarse en la caracterización del rendimiento del hardware en lugar de traspasar los límites de la precisión de las tareas.

aplicación en tiempo de ejecución

durante la inferencia, como se muestra en la figura 6, los tokens son generados por una aplicación de usuario altamente canalizada que se ejecuta en la cpu del host, que preprocesa el texto en tensores de entrada mediante el uso de tokenizadores y capas de incrustación, y coloca los tensores de entrada en la primera tarjeta del polo norte en el dispositivo. , recibe el tensor de salida resultante de la última tarjeta northpole en el dispositivo, posprocesa el tensor de salida utilizando un decodificador y un detokenizador, y realiza un bucle con el token resultante como la siguiente entrada. la aplicación de usuario también es responsable de la interfaz de usuario, así como de optimizaciones más avanzadas, como el llenado previo de mensajes.

para descargar la carga de trabajo de la red neuronal a northpole, la aplicación de usuario llama a una biblioteca de tiempo de ejecución de espacio de usuario con una api simple, configura los pesos de capa de la tarjeta northpole y el caché kv en el momento de la inicialización, y envía y recibe tensores de entrada y salida en tiempo de ejecución.los pesos y la caché kv están configurados para permanecer en la memoria del chip y no es necesario transmitirlos fuera del chip en tiempo de ejecución. la biblioteca de tiempo de ejecución también administra el búfer de tramas en el chip para evitar que el núcleo northpole se detenga debido a la falta de datos de entrada o receptores de datos de salida. los tensores intermedios se pasan entre tarjetas sin intervención del anfitrión, como se describe en la sección 4.

resultados de rendimiento

el dispositivo de 16 tarjetas northpole logró un rendimiento de 28.356 tokens/segundo en un llm de 3 mil millones de parámetros. la longitud de la secuencia de este llm está configurada como 2048 (1024 longitud de pista, 1024 tokens generados) y el decodificador utiliza muestreo codicioso.

para comparar con las gpu, medimos el rendimiento de una sola tarjeta de dos gpu para inferencia de bajo consumo (l4 y l40s) y dos gpu para entrenamiento de alto rendimiento (a100 y h100).todos los sistemas ejecutan el mismo modelo y configuración de llm, con northpole ejecutándose con precisión w4a4 y la gpu funcionando con precisión óptima w4a16 ya que, hasta donde sabemos, no hay núcleos cuda w4a4 disponibles.en nuestros experimentos de gpu, aprovechamos el modelo de cuantificación gptq y lo comparamos utilizando el núcleo marlin vllm (versión 0.5.4) para compararlo con northpole. el uso de la cuantificación gptq proporciona un rendimiento óptimo de inferencia de modelos en la gpu al reducir la precisión del peso y al mismo tiempo mantener una precisión aceptable. además, los núcleos marlin se utilizan para optimizar las operaciones matriciales, especialmente cuando se trata de multiplicaciones de matrices densas y escasas. la evaluación comparativa del tiempo de ejecución de vllm nos permite evaluar el rendimiento y la latencia, lo que garantiza un rendimiento óptimo del modelo para una configuración de hardware determinada. en experimentos con múltiples tarjetas gpu, se empleó un paralelismo tensorial igual a la cantidad de tarjetas disponibles para obtener de manera efectiva la menor latencia posible a través de nvlink. nuestros experimentos muestran que, aunque la tecnología de fragmentación reduce la latencia, conduce a una disminución en el rendimiento de la gpu por tarjeta. vale la pena señalar que el rendimiento superior de northpole proviene principalmente de su enorme ancho de banda de memoria en el chip y, en segundo lugar, de su menor precisión.

la tabla i muestra los resultados de rendimiento medidos para los sistemas northpole y gpu por tarjeta. las métricas básicas incluyen métricas de rendimiento, latencia, espacio y energía, que se definen a continuación.

la cantidad total de tokens generados para pequeños lotes de mensajes de entrada es:

entre ellos, mmm es la cantidad de microlotes y tok_seq_len es la cantidad de tokens de salida generados por un solo usuario. el rendimiento del sistema es el número total de tokens generados en respuesta a las solicitudes de entrada (generación de tokens), dividido por el tiempo total requerido para procesar la solicitud, incluido el tiempo de precarga de la solicitud (tiempo de solicitud) y el tiempo de generación de token (tiempo de generación de token):

el rendimiento se compara por tarjeta dividiendo el rendimiento del sistema por la cantidad de tarjetas de procesamiento en el sistema:

la latencia es una medida del tiempo promedio entre los tokens de salida generados por un usuario específico y es la suma del tiempo que tarda un token integrado en fluir a través del proceso de procesamiento, más el tiempo de prepoblación amortizada sobre el número total de tokens generados:

de manera similar, combinando las ecuaciones 1, 2 y 4:

donde tamaño de mini lote = tamaño de mini lote nota: esta es la latencia del sistema vista por cada usuario.

normalizados por el número de tarjetas en el sistema, ampliamos las métricas de espacio y energía definidas en [11] para poder comparar sistemas con diferentes números de tarjetas. las métricas de espacio y energía resultantes son el rendimiento por tarjeta, normalizado por la cantidad de transistores de procesador por tarjeta y la potencia por tarjeta, respectivamente:

si el rendimiento del sistema aumenta proporcionalmente a la cantidad de tarjetas de canalización en el sistema, la normalización de las tarjetas se compensará, dejando las métricas de espacio y energía constantes con la cantidad de tarjetas en el sistema. normalmente, el rendimiento del sistema aumenta de forma sublineal con el número de tarjetas debido a la sobrecarga de comunicación y sincronización.

en conclusión

realizamos los siguientes aportes:

demostramos un prototipo de investigación del dispositivo doka northpole.

mostramos que los modelos de redes neuronales grandes como llm se pueden dividir de manera eficiente en múltiples procesadores northpole, ampliando nuestro trabajo anterior que demostró que un solo procesador northpole funciona mejor en tareas de inferencia visual (resnet50, yolo-v4 supera a otras arquitecturas).

demostramos que la arquitectura única de northpole es muy adecuada para la inferencia llm, lo que le permite superar significativamente a las gpu de centro de datos y de borde en el doble objetivo de baja latencia y alta eficiencia energética.

debido a que el dispositivo northpole debe usarse como una unidad, es más eficiente para aplicaciones de alto rendimiento.

este artículo preliminar proporciona un trampolín para futuras investigaciones sobre la optimización de la eficiencia energética, el mapeo de llm más grandes en dispositivos northpole correspondientemente más grandes, nuevos modelos llm cooptimizados con la arquitectura northpole y futuras arquitecturas de sistemas y chips.