amd lanza su primer modelo de lenguaje pequeño de ia: 690 mil millones de tokens, la velocidad de decodificación especulativa aumenta 3,88 veces

amd lanza el primer modelo de lenguaje pequeño de ia: 690 mil millones de tokens, velocidad de decodificación especulativa 3,88 veces mayor

2024-10-01

noticias de tecnología de kuai el 1 de octubre deamd lanzó su primer modelo de lenguaje pequeño (slm), denominado "amd-135m".

en comparación con el modelo de lenguaje grande (llm), cada vez más grande, es más pequeño, más flexible y más específico, y es muy adecuado para su implementación en empresas privadas y profesionales.

el modelo pequeño amd-135 pertenece a la familia llama y tiene dos versiones:

uno es el tipo básico "amd-llama-135m”, con tantos comose entrenaron 670 mil millones de tokens durante seis días en ocho aceleradores instinct mim250 de 64 gb.

el segundo es el extendido ".código amd-llama-135m”, con capítulos adicionales centrados específicamente en la programación.20 mil millones de tokens, entrenados en el mismo hardware durante cuatro días.

proceso de creación e implementación.

utiliza un método llamado"decodificación especulativa"este método genera múltiples tokens candidatos en un solo paso hacia adelante a través de un modelo borrador más pequeño y luego los envía a un modelo objetivo más grande y preciso para su verificación o corrección.

este método puede generar varios tokens al mismo tiempo sin afectar el rendimiento y también puede reducir el uso de memoria. sin embargo, debido a que hay más transacciones de datos, el consumo de energía también aumentará.

amd también utilizó el código amd-llama-135m como modelo preliminar para codellama-7b para probar el rendimiento con o sin decodificación especulativa.

por ejemplo, en el acelerador mi250, el rendimiento se puede mejorar hasta aproximadamente 2,8 veces, en la cpu ryzen ai, se puede mejorar hasta aproximadamente 3,88 veces y en la npu ryzen ai, se puede mejorar hasta aproximadamente 3,88 veces. a aproximadamente 2,98 veces.

decodificación especulativa

el código de entrenamiento, los conjuntos de datos y otros recursos del modelo pequeño amd-135m son de código abierto y siguen apache 2.0.

según amd,su rendimiento es básicamente equivalente o ligeramente superior al de otros modelos pequeños de código abierto.por ejemplo, hellaswag, sciq, arc-easy y otras tareas superan a llama-68m y llama-160m, mientras que hellaswag, winogrande, sciq, mmlu, arc-easy y otras tareas son básicamente similares a gtp2-124mn y opt-125m.

noticias

amd lanza el primer modelo de lenguaje pequeño de ia: 690 mil millones de tokens, velocidad de decodificación especulativa 3,88 veces mayor

introducción

mi información de contacto